August 18, 2014
Stručná poznámka o Ukrajině a Rusku na sociálních sítích

Stručná poznámka k dnešnímu článku Přebírají česká média ruské nebo ukrajinské informace? ze serveru MediaInfo. Za obodobí mezi 14.7. 2014 až 16.8. 2014 jsme měli v našem Social Insideru přes 412.000 zmínek spojených s klíčovými slovy Rusko, Ukrajina, Putin, ruvr (Hlas Ruska) a Krym (tzn. obsahovaly tato klíčová slova v titulku, v textu či url).

Skoro půl milionu zmínek vygenerovalo 33.500 autorů. U 7,5 % zmínek byl jako autor uveden Anonym a v drtivé míře to byly zmínky ze serveru iHned. Pro srovnání, za stejné období bylo pro set klíčových slov: palestina, palestinci, palestinský, žid, židovský, izreal a gaza zaznamenáno něco kolem 40.000 zmínek. Tedy přibližně desetina.

Přes 80 % zmínek bylo z diskusí pod články na zpravodajských serverech. Z toho na serverech Aktualne.cz, Parlamentni listy, iDnes, Novinky a iHned se odehrálo přes 85 % veškeré komunikace. Na většině z nich také top 10 autorů tvořilo kolem 10 % veškerého obsahu.

Podotýkám, že Social Insider monitoruje na Facebooku hlavně stránky a komentáře na nich. Jak vypadají vaše soukromé zdi nevíme, možná jako diskuse na zpravodajských serverech:-)

Josef Šlerka

July 21, 2014
HOPE X: Neočekávaný dýchanek

I v New Yorku vás překvapí, pokud potkáte v recepci hotelu chlapíka v kraťasech a vertikálně (!) pruhovaných zlatofialových punčochách, s mušketýrským knírem, v tričku s nápisem: Happy hacking! Pokud zjistíte, že takových lidí jste při návratu do hotelu potkali celý houf a všichni sice vypadají jako originál, ale mají na krku stejnou visačku s nápisem HOPE X, začnete googlit hned ve dveřích hotelového pokoje.

Ano, jsem občasným čtenářem čtvrtletníku 2600, ale že se jeho tradiční konference Hackers On Planet Earth koná v hotelu, kde bydlím, to jsem zjistil opravdu až v pátek večer. V New Yorku jsem pracovně a před odjezdem jsem se pilně přihlásil na několik data meetupů, ale to, že se pět pater nad mojí hlavou koná tahle akce, to mi jaksi uniklo. Letmý pohled do programu mne přesvědčil vysolit za lístek 150 dolarů a místo na Empire State Building jít poslouchat přednášky. Přišel jsem sice o pateční blok, ale co se dá dělat. A vám přináším alespoň několik postřehů, abych vás naladil na okamžik, kdy budou přednášky on-line dostupné.

O keynote se postaral Daniel Ellsberg, tedy asi nejslavnější whistleblower, kterého USA kdy měly. Postavení Ellsberga, který se proslavil kauzou Pentagon Papers, je pro americkou vládu výsostně dvojznačné. Ellsberg je mnohými (včetně třeba Johna Kerryho ale i Baracka Obamy) považován za národního hrdinu, na stranu druhou Ellsberg silně a hlasitě podporuje Snowdena i další whistleblowery. O prominentním veřejném nepříteli USA Juliu Assangovi pak mluví jako o svém příteli. Během jeho přednášky nezaznělo asi nic příliš překvapivého, ale osobně mi udělala radost vitalita Ellsberga. Tomu člověku je 83 let a jeho čipernost by mu mohl závidět kdejaký náš důchodce. Jeho stanovisko je poměrně jasné, pokud víte o kriminální činnosti organizace, ve které pracujete, máte povinnost to vynést. Vnitřní předpisy nejsou nadřazeny ústavě a morálce. To platí podle Ellsberga nejen pro státní administrativu, ale i pro soukromý sektor. Ellsberg přímo vyzval zaměstnance velkých korporací, aby vynesli informace, které si firmy nechávají pro sebe: třeba o dopadu průmyslové produkce na globální oteplování.

Na keynote navázal telemost mezi Ellsbergem a Snowdenem. Jestliže byl příchod Ellsberga provázen silným potleskem, Snowden na obrazovce způsobil několikaminutové ovace účastníků ve stoje. Debata mezi Snowdenem a Ellsbergem se nesla ve velmi přátelském duchu, který byl možná pro mne jako Evropana až přiliš americký (pokud jde o míru řečí u USA, Ústavě a svobodě vůbec). Ačkoli myslím, že Snowden skutečně odhalil zásadní selhání kontroly, přiznám se, že mne jeho utěk do Moskvy pořád irituje. Z celé debaty mne asi nejvíc pobavil opět Ellsberg. Moderátor se ho zeptal, co si myslí o výroku, ve kterém John Kerry řekl, že se Ellsberg zachoval správně, ale Snowden ne. Ellsberg reagoval zhruba ve smyslu, že předal materiály, které měl k dispozici, a nijak nepřemýšlel o tom, že by je někdy selektoval. Kdyby měl novější, předal by je taky. Dodal, že Snowdenovi vděčí za to, že se o něm zase po 40 letech mluví a že už to skoro vypadalo, že z pohledu vlády je to hodný whistleblower, a že to rozhodně není pravda.

Pokud jde o Snowdena samotného, můj pohled asi nejlépe vyjádřil na konci své přednášky You’ve Lost Privacy, Now They’re Taking Anonymity (aka Whistleblowing is Dead – Get Over It) vynikající Steve Rambam. Řekl, že to, co Snowden odhalil, je špatné, nicméně, že nevěří, že to vláda USA dělá pro špehování samotné, ale především proto, aby zabránila dalšímu 11. září. Rambam není ledajaký řečník, jako soukromý vyšetřovatel se podílel na odhalení desítek nacistických válečných zločinců a někdy se mu přezdívá „nazi hunter.“ Jeho přednáška kromě jiného obsahovala neuvěřitelnou plejádu technických detailů o nových způsobech plošného sledování jedinců. Pro mne byla technicky naprosto zásadní informace o existenci unikátního typu šumu pro každý jednotlivý digitální fotoaparát na světě, viz třeba No Two Digital Cameras Are the Same: Fingerprinting Via Sensor Noise. Z obecně filozofičtějšího pohledu to bylo Rambamovo neustále upozorňování na fenomén militarizace policie. Nejen podle Rambama začíná být americká policie více podobná vojenské organizaci (včetně využívání dronů) než policii.

I když Rambam celkem depresivně předváděl, co všechno lze vědět o pohybu lidí, jejich zálibách a identifikaci, přeci jen řada lidí nevzdává boj o anonymitu. Jejich důvody nemusí být často ani tolik politické, jako praktické. O řadě z nich mluvil v panelové debatě Drop It Like It’s Hot: Secure Sharing and Radical OpSec for Investigative Journalists i Barton Gellman z Washington Post, který byl jedním ze tří novinářů, s kterými spolupracoval Snowden. Pro něj je řada “hackerských” nástrojů často jedinými způsobem, jak ochránit svoje zdroje. Spolu s Harlo Holmes z New York Timesů a Aurelia Moser z Ushahidi upozornili na zajímavý set nástrojů DropItLike hostovaný Mozzilou na GitHubu. Nástroje by měly umožnit novinářům alespoň trochu využít řadu anonymizační nástrojů v běžné práci.

K určitému americkému stylu patří prověřit některá tvrzení v praxi. Přesně tak postupovali i lidé ze Stanfordské univerzity, které na konferenci zastupoval Jonathan Mayer z tamnější Stanford Security Laboratory v přednášce The Science of Surveillance. On a lidé kolem něj se rozhodli ověřit některé předpoklady, na kterých stojí úvahy obhájců NSA. Především otázku toho, jak moc je pravda, že američtí uživatelé se příliš nepohybují mimo americký internet a zde je pravda, že sběr metadat z telefonních hovorů dostatečně respektuje soukromí. Experimenty (včetně vytvoření speciální aplikace začleněné do Play Store) ukázují, že pravda je někde úplně jinde. Kupříkladu náhodně získana telefonní čísla z mobilní aplikace se povedlo pomocí veřejně přístupných dat z internetu identifikovat z 91 procent. Top US stránky často zobrazují obsah z jiných zemí v různých widgetech nebo reklamách, a v praxi umožňují NSA trackovat uživatele. Mayer tímto vyzval hackerskou komunitu, aby svými argumenty přispěla k reformě práva, aby odpovídalo počítačové realitě.

Mimochodem zástupci akademické sféry nedělali svým domovským ústavům vůbec ostudu. Tamara Munzner z University of British Columbia ve své přednášce Visualization for Hackers: Why It’s Tricky, and Where to Start nejen velmi srozumitelně mluvila o gramatice vizualizací, ale také představila několik svých aplikací včetně projektu Overview, který umožňuje analyzovat tisíce dokumentů pomoci klastrové analýzy a fulltextového vyhledávání.

Další z akademiků, který mne zaujal, byl Sam Bowne s přednáškou Stupid Whitehat Tricks. V ní se zaměřil třeba na to, jak najít díry v systému a neporušit u toho právo. Jeho historky byly mnohdy až neuvěřitelné. Jen pětina až čtvrtina adminů na jeho upozornění reagovala nápravou chyb! Ostatně projděte si odkazy na jeho stránce http://samsclass.info/

Celkem jsem měl možnost vidět skoro dvacet přednášek a přeci jen není v mých silách o všech referovat. Jestli něco ale skoro všechno spojovalo, byla to otázka soukromí. Řečníci se často vraceli k otázce, zda má tedy, přes vše řečené, smysl usilovat o soukromí a anonymitu. Za mne nejzajímavější odpověď dala Eva Galperin z Electronic Frontier Foundation. Podle ní si možná může někdo myslet, že je soukromí na netu mrtvé, ale měl by respektovat to, že si to jiní nemyslí, a svým chováním by neměl zjednodušovat jeho porušování. To, že vy nemáte, co skrývat, neznamená, že ostatní nemají co a proč skrývat. Soukromí totiž nění věc soukromá.

Jak praví klasik: „ Inu, svět je malý a o náhody tu není nouze.“ Já se úplnou náhodou ocitl na konferenci, která v sobě míchala neuvěřitelně zajímavá témata (včetně třeba hackingu výtahů!), a slibuju, že příště to nenechám náhodě a naplánuju si cestu na další ročník…

Josef Šlerka

June 3, 2014
Korelace politických stran na Facebooku s výsledky voleb do Evropského parlamentu

Když jsem počítal mapu vzájemné podobnosti českých politických stran na Facebooku před letošními volbami do Evropského parlamentu, byl jsem trochu nervózní, jak mapa dopadne. Výsledek mě překvapil. Srovnání s výsledky stejné analýzy před parlamentními volbami v roce 2013 mi prozradilo mnoho nejen o Facebooku, o názorovém spektru a politických stranách u nás, ale také možná naznačilo validitu metody i pro “offline svět”

Mapa samotná stojí na jednoduché myšlence: Stránky na Facebooku jsou si tím podobnější, čím více mají společných aktivních fanoušků při zohlednění celkového počtu fanoušků. Formalizací a aplikací, jak počítat takovou podobnost, existuje celá řada1. Já osobně jsem si oblíbil koncept Normalized Google Distance (viz třeba aplikace Mechanická popelka), který lze snadno extendovat na jiné oblasti.

V našem případě se počítá podobnost politických stran takto: Na vstupu je pro každou stranu připraven seznam uživatelů Facebooku, kteří se na stránce dané strany nějak zapojili (lajkem, komentem, vlastním příspěvkem) během určitého období. Porovnáním těchto seznamů zjistíme průniky uživatelů mezi dvojicemi stran a na základě průniků pak vypočteme vzdálenost pomoci (Normalized Facebook Distance) následujícího vzorce:

NFD = max(log(x),log(y)) - log(x,y)/ log(M) - min(log(x),log(y))

Přičemž x je počet aktivních uživatelů na jedné stránce,
y vyjadřuje počet aktivních uživatelů na stránce druhé,
x,y počet aktivních uživatelů na obou stránkách
M je celkový počet uživatelů českého Facebooku.

Výsledné vzdálenosti mezi stránkami se potom nanesou do grafu pomoci techniky tzv. vícerozměrného škálování (Multidimensional Scaling dále jen MDS). Technika MDS se snaží zobrazit údaje o vztazích aktérů na základě jejich blízkosti a vzdálenosti. Pokud tedy vložíte na vstupu skutečné vzdálenosti v kilometrech, získáte rozmístění jako na skutečné mapě. (viz příklad zde).

Mapy vytvořené pomocí MDS lze v další interpretaci nahlížet z hlediska toho, co plní jednotlivé dimenze, jinými slovy, jaké obecnější zákonitosti stojí za rozdílnou polohou aktérů na mapě.

Vraťme se nyní zpět k našim volbám.

Při podzimních volbách 2013 vyšla ze sledovaného období čtyř týdnů (12. srpna až 12. září 2013) tato mapa:


větší obrázek

Tehdy jsme s Honzou Schmidem navrhovali interpretovat její dvě dimenze jako dimenze věku (vertikální osa) a vzdělání (horizontální osa). Tedy kupříkladu mladší a níže vzdělaní voliči DSSS, spíše středního věku a vyššího vzdělání voliči TOP 09 atd. I když navrhovanou interpretaci ex-post nepřímo podpořily sociologické výzkumy voličů, nenapadlo nás, jak adekvátnost zachycených vztahů ověřit v offline světě. Zatímco na Facebooku prostě mapa jen jinak vizualizuje skutečně probíhající interakce, není a nebylo jisté, jak se má k světu mimo sociální síť. Ostatně tato naprosto fundamentální otázka vztahu sociálních sítí a reality visí prakticky nad každým výzkumem sociální sítí a bývá většinou nezodpovězena.

Když jsem v úterý před volbami dopočetl mapu pro posledních 6 týdnů před volbami do Evropského parlamentu, byl jsem poměrně spokojen. Předvolební mapa do EU parlamentu z roku 2014 vykazovala totiž minimální změny v rozložení oproti mapě z loňského roku.


větší obrázek

Stabilita rozložení může znamenat, že MDS mapa skutečně zaznamenává stabilní rozdíly mezi stránkami na Facebooku. Důležité ale také je, kolik aktivních uživatelů zůstalo z podzimu 2013 do měření na jaře 2014. Neznamená stabilita výsledků pouze to, že na Facebooku jsou aktivní totožní jedinci? I když se strany různily, tak překryv aktivních uživatelů téže strany z prvního a z druhé měření byl obvykle kolem 30 %. Jedná se tedy o indikátor toho, že model vyjadřuje obecnější hodnotové rozdíly mezi stranami, než přímo závislost na konkrétním seznamu uživatelů.

Pro Českou televizi jsem připravil celkem deset takovýchto map, z nichž některé měly diváci možnosti vidět v příjemnější grafice, než je surový výstup v Rku. Po mém vystoupení se (nejen) ve studiu ČT rozvinula krátká debata o relevantnosti takovýchto map mimo online prostředí. Mohou tyto mapy reprezentovat nějaké nevirtuální rozložení politických sil? Zvlášť se zřetelem k tomu, že demografie Facebookové populace je oproti populaci České republiky vychýlená? Přiznám se, že mne tato otázka trápí již od prvních experimentů s touto metodou z času prezidentských voleb (viz Mapa blízkosti prezidentských kandidátů). Mapy blízkosti se mi osvědčují jako nástroj marketingového výzkum v oblasti sociálních médií, ale jejich extenze mimo virtuální prostředí byla vždy špatně ověřitelná.

Dva dny po skončení voleb mne ale napadla zajímavá možnost, jak ověřit, zda vzdálenosti měří “něco z reality”. Úvaha sama je relativně prostá, byť v některých aspektech kontraintuitivní. Stojí na využití korelace volebních výsledků stran ve skutečných volbách.

Zjednodušený model vypadá takto: český volební systém poměrného zastoupení s relativně vysokým počtem stran způsobuje, že se strany ucházejí často o podobné voliče, či voliče z podobných skupin2. Voliči samotní jsou sice sloučeni do volebních okrsků, ale okrsky samotné většinou představují poměrně koherentní skupinu voličů. O tom svědčí už i pouhý pohled na volební mapu České republiky, která nemá jednolitou barvu nejúspěšnější strany ale je naopak poměrně barevně pestrá. Jak to v praxi vypadá s oněmi korelacemi? Kupříkladu při podzimních volbách 2013 obvykle platilo, že výsledky KSČM a Úsvitu spolu silně pozitivně korelovaly napříč volebními obvody s alespoň 5.000 voliči. Když byly v daném volebním obvodu výsledky dobré pro komunisty, zpravidla byly dobré pro Okamuru a naopak. (viz http://databoutique.cz/post/66175359703/housle-a-mrizky-z-voleb-do-parlamentu). Vysvětlení v tomto případě zřejmě může být, že Okamura i komunisté oslovují především nespokojené voliče, a tak získávají i podobné výsledky. Dalším příkladem je TOP 09 a Strana Zelených, které cílí na podobného voliče: vzdělanější, bohatší a městský volič.

Pokud facebookové mapy blízkosti skutečně odráží realitu podobnosti stran, měly by korelovat se vzájemnou korelací výsledků stran z voleb (velký díky Honzovi Schmidovi za ujasnění metody a Michalu Škopovi za data!).

Na vstupu máme tedy dvě matice. Jednu se vzájemnou vzdáleností stránek politických stran na Facebooku a druhou s korelacemi stran na základě volebních výsledků v okrscích nad 5.000 obyvatel.


větší obrázek

Čím lépe odráží mapa z Facebooku reálný svět, tím by měla být korelace s korelační maticí z reálných voleb nižší (maximálně provázaný vztah vyjadřuje hodnota -1). Naopak hodnota 0 vyjadřuje naprostou nezávislost a data z Facebooku by pak neměla žádný vztah k offline světu. V sociálních vědách pak již korelace menší než -0.2 obvykle poukazuje na existující vztah (aspoň soudě dle přednášek pro sociology:-)) A skutečně: pro Českou republiku vyšla korelace -0.71 což je na sociální vědy číslo nebývale dobré. (Poznámka, korelace mají zápornou hodnotu, protože vztahy stran na Facebooku jsou vyjádřené jako blízkost – čím nižší tím bližší, zatímco vztahy na základě volebních dat jsou vyjádřeny jako korelace – čím vyšší, tím bližší).

Zkusil jsem za podobných podmínek dopočítat korelace z podobných celků pro Polsko (velké díky pro Víta Tučka za scraping), Německo (díky pro Matěje Vaněčka) a Slovensko (opět díky pro Michala Škopa). A výsledky jsou opět překvapivě dobré a podobné.

Pro mapu polské politické scény:


větší obrázek

korelace -0.79 (počítáno na výsledky z krajů).

Pro mapu slovenské politické scény:


větší obrzázek

je to korelace -0.67.

A konečně pro Německo a jeho politickou scénu


větší obrázek

to byla korelace -0.71

Ve všech případech jsme tedy naměřili poměrně úzkou shodu. Spočetl jsem analýzu zatím pro všechny země, k jejichž volebním datům se mi podařilo získat přístup.

Co s tím? Je asi ukvapené tvrdit, že facebookové analýzy měří přesně to, co se děje mimo virtualitu, zdá se ale, že měří docela slušně některé její aspekty, a nejde je tedy zamítnout máchnutím rukou. Je jasné, že například počet fanoušků nekoreluje s volebními preferencemi, ale v odkrývání obecnějších vztahů mezi politickými subjekty se zdá, že nám může být Facebook užitečný.

Hranice mezi online světem a offline světem vypadá zase o něco méně jasná. Berte tenhle blogpost jako takovou průběžnou zprávu o stavu výzkumu. Zkusím teď dopočítat další evropské země a následně pak zveřejnit kompletní datasety.

Josef Šlerka
(special thnx pro Honzu Schmida a Petra Koubskýho)



Poznámky:

1. V podstatě je to modifikována idea informační teorie podobnosti, která se snaží formalizovat tři běžné intuice, které o podobnosti máme. Tedy:
Intuition 1: The similarity between A and B is related to their commonality. The more commonality they share, the more similar they are.
Intuition 2: The similarity between A and B is related to the differences between them. The more differences they have, the less similar they are.
Intuition 3: The maximum similarity between A and B is reached when A and B are identical, no matter how much commonality they share.

2. Kupříkladu hypotetická Protestní radikální strana A (PRSA) a hypotetická Méně radikální protestní strana B (MRPSB) jsou strany, které cílí na silně nespokojené voliče, kteří preferují jednodušší řešení a mají nižší vzdělání. Takových voličů je ve společnosti určité procento. Ve volbách ho pak vyjádříme jedním číslem, procentuálním výsledkem pro tento typ protestních stran. Intuitivně vzato by měla být korelace procentncích hlasů mezi oběma stranami negativní. Zisky pro PRSA jsou ztrátami pro MRPSB. Jenže strany obvykle nezískávají náhodné výsledky z celkového podílu voličů. Zpravidla bývá jedna úspěšnější při lovení nespokojených než druhá. PRSA získají celostátně třeba 14% a MRPSB třeba 6%. Důležité je, že jejich individuální výsledky jsou obvykle s nízkou mírou směrodatné odchylky a oslovené skupiny se ve volebních okrscích nevyskytují rovnoměrně. Díky tomu existuje velmi slušná šance na pozitivní korelaci mezi stranami, nikoli negativní (ostatně tady je malý simulátor a velké díky pro Dana Prokopa, že mne dokopal k té simulaci)

March 19, 2014
Na kafíčko s hipstery

Doporučování podobných filmů ke shlédnutí, produktů k zakoupení a hudby k poslouchání napříč nejrůznějšími službami všichni důvěrně známe. Doporučování podobných míst na Foursquare je v principu úplně stejné: Řekne vám, kam ještě chodí lidé, kteří navštívili místo, ke kterému hledáme to podobné.

Právě takové doporučování je pro některé lidi hlavním důvodem (vedle odznáčků nebo bodů), proč z kapsy vytahovat mobil a hlásit službě (případně kamarádům, které na Foursquare máte), kde zrovna jste. Čím víc toho má Foursquare k dispozici - od vás a od ostatních uživatelů v okolí, tím lepší doporučení, kam zajít, pro sebe dostanete.

Údaje o podobných místech dává Foursquare k dispozici i prostřednictvím API. Takže můžete strojově zjišťovat, jaká místa jsou podobná tomu, které vás zajímá, ale také z jednoho bodu dál traverzovat graf. Tedy zeptat se: Ukaž mi, jaká místa jsou podobná místu, které je podobné místu, a tak dále. Mělo by tak být možné sestavit mapu vzájemně podobných podniků. Protože máme docela pěkné data miningové využití (o něm zase někdy jindy), dali jsme se do toho a ukázku z výsledků si můžete prohlédnout. Práce to byla o to příjemnější, že proti webu dostanete z API dokonce pět nejpodobnějších podniků, ne jenom tři.

Na vstupu našeho pokusu bylo hipsterské Café v Lese, od něj jsme udělali deset “kroků”. Výsledkem je následující orientovaná síť 89 pražských podniků s 361 hranami. Algoritmus pro detekci komunit pak síť rozdělil na čtyři pěkné klastry, které jsou vesměs určeny geograficky, alternativní kulturou, případně podle finančních možností návštěvníků.

Obrázek v PNG máte zde (pro větiší rozlišení klikněte)

A interaktivní verzi v JavaScriptu pak naleznete zde. (Jeden tip: pokud si graf přiblížíte, objeví se i jména venues).

Pokud vás napadnou nějaká výstižná pojmenování pro čtyři klastry, napište nám je do komentářů. Pro nás to zatím vypadá na “Letenské hospody, kde dělají kafe” pro tyrkysový klastr. Fialový klastr jsme si pojmenovali “Skutečné kavárny pro hipstery”. Červený je “víc posh než hipster (většinou)” a konečně pak zelený klastr jsme si pracovně pojmenovali “podniky pro ty, co mají fakt rádi kafe”.:-)

Eliška Hutníková
Josef Šlerka

January 21, 2014
Jak je to s věkem moderátorů hlavních zpráv aneb stárnem od východu na západ

Zimní semestr jsem vyučoval předmět Informačná věda a srovnávací mediální studia. Hlavní náplň tvořila řada empirických studií studentů Studia nových médií materiálů z českých médii (viz třeba o podílu zpráv ČTK na tuzemských zpravodajských serverech Kdo co od koho).

V jedné z hodin měli studenti za úkol sledovat i přibližný věk obyvatel ČR, kteří se vyskytují v hlavních zprávách České televize, Novy a Primy. Nikoli v jednotlivých záběrech, ale věk těch, kdo odpovídají na nějaké otázky reportérů. Po sledování týdne zpráv se studenti shodli na tom, že v nich bylo minimálně slyšet vyjádření lidi mladších ročníků. Což ovšem mohla být klidně náhoda. V nastalé diskusi se objevil názor, že mladší ročníky zastupují na obrazovce moderátoři. Slovo dalo slovo a rozhodli jsme se studenty udělat malý průzkům: jak že je to s věkem moderátorů hlavních zpravodajských relací televizní stanic. Jeho výsledky teď můžete vidět zde.

Náhodně jsme vybrali 19 statnic (BBC, CBC, CNN, ČT, ETV, Fox News Channel, France24, ITV, Markíza, Nova, NTV, ORF, Prima, RTV SLO, SVT, TA3, TV JOJ, TVP, TVR) z 13 zemí (Kanada, ČR, Estonsko, Francie, Polsko, Rakousko, Rumunsko, Rusko, Slovensko, Slovinsko, Švédsko, USA, Velká Británie). Celkem jsme taky získali list 114 moderátorů (46 mužů a 68 žen). Přičemž vysloveně ze soukromých stanic bylo 48. Oproti u 66 bylo možné mluvit o veřejnoprávním charakterů či jeho ekvivalentu jejich zaměstnavatelů.

Průměrný věk moderátorů byl celkem 41 let, median pak 40 let. Průměrný věk v komerčních stanicích byl 41 let, stejně jako median. U “veřejnoprávních” byl průměrný věk opět 41 let a median 40. Pokud jste ale spočítali průměrný věk pro stanice z bývalého východního bloku (těch bylo 53) a porovnali jste je s daty ze západních stanic (61 stanic), nabídl se trochu jiný obrázek.

Průměrný věk na východě byl 38 let (median 37). Zatímco na západě byl průměrný věk 44 let a median 43 let. Tedy o 6 let více. Ještě lépe tento rozdíl vynikne na boxplotech:

Přestože je přeci jen 114 moderátorů statisticky relativně malý vzorek, připravil jsem z něj ještě jeden graf. Jedná se o dotchart na němž je vidět seznam moderátorů seřazený podle věku. Modrá barva označuje moderátory z bývalého západního bloku, červená z východního. Písmena M a Z odlišují pohlaví.

Všimněte si mimochodem, že prvních deset nejmladších moderátorů jsou ženy a 8 z 10 jsou z východního bloku. Oproti tomu z deseti nejstarších moderátorů je jen jeden z východního bloku a jen jedna je žena.

Náš pilotní výzkum určitě není v mnoha ohledech validní, ale silně naznačuje možnou platnost tří hypotéz:

1) Na východě preferujeme v hlavním zpravodajství především mladé tváře, na západě obecně jsou hlavní tváří spíš moderátoři pozdějšího věku.
2) Tento trend není závislý na tom, zda je televize komerční či nikoli.
3) Mezi staršími moderátory zřetelně převažují muži.

Pokud teď čekáte analýzu příčin těchto jevů, nedočkáte se ji. Můj osobní názor je, že země bývaleho východního bloku stále esteticky preferují mladší ženy s cílem zaujmout diváky, zatímco v západním světě se snaží spíše přblížit věk moderátora k průměrnému věku popuplace, tak aby vypadal jako jeden z nich. Je to ovšem jen moje spekulace.

Josef Šlerka

January 3, 2014
Pár knih, které jsem loni přidal do své čtečky

Slíbil jsem na Twitteru, trochu neprozřetelně, že sepíšu tipy na knihy z roku 2013, kterými jsem zaplnil svou čtečku. Slib opožděně plním, byť nečekejte nic světaborného. Možná tu ale přeci jen najdete něco, co jste neznali a co loni vyšlo. Vybral jsem nakonec sedm titulů z různých témat a to čistě podle mého subjektivního výběru.

Social média (tak nějak)

Paulo Gerbardo: Tweets and Streets
Kniha se věnuje vlivu Twitteru a dalších sociálních sítí na změny (nejen) na Blízkém východě. Byť se občas veze na vlně technooptimismu, lze v ní najít pár dobrých momentuů. Pro mne osobně objevila pojem “choreografie emocí”, který dobře charakterizuje hlavní úlohu sociálních sítí při politických akcích. Ostatně podívat se na facebookové stránky ANO 2011 či “knížete” právě z pohledu toho, jak pracují s emotivní fukncí jazyka by byla velmi zajimavá diplomka.

Jose van Dijck: The Culture od Connectivity: A Critical History of Social Media
Kniha z nakladatelství Oxford University Press mapuje dějiny hlavních sociálních sítí a jejich vzájemné odlišnosti. Pro mne zajímavé nejen řadou detailů z historie, ale hlavně metodologickým přístupem. Za východisko si bere nejen technologický základ sítí (miluju větu o tom, že ďábel se skrývá v základním nastavení), ale také uvažuje o vzájemné ovlivňování mezi sítěmi, tedy jak se třeba Twitter a Facebooku vůči sobě navzájem vymezují.

Jennifer Golbeck: Analyzing the Social Web
Golbeck napsala pravděpodobně nejlepší učebnici social network analysis, kterou znám. Na počátku nepočítá s žádnou předběžnou znalostí a na konci zjistíte, že vidíte skryté patterny sociálních sítí všude kolem sebe. A jako bonus si můžete v knize přečíst i zábavnou případovou studii o strategii pro přežití zombie apokalypsy. Vřele doporučuji pro úvod do téhle zajímavé oblasti

Data, data, data, výsosti

Nate Silver: The Signal and the Noise
Silver je superstar statistiky a myslím, že už byl doporučen tolikrát, že nevěřím, že jste ho nečetli. Je to jedno z nejpoutavějších čtení o statistice, předpovídání a světě, které jsem kdy měl v rukou. Neváhejte, přestaňte číst tenhle blog a začnětě číst Nata Silvera.

Rachel Schutt, Cathy O’Neil: Doing Data Science
Data science je asi jedním z nejčastějších buzzwordů, které kolem mne svištěly na Twitteru. Autoři knihy Doing Data Science se pokusili napsat o něm účebnici pro mírně pokročilé, která se pokouší provést čtenáře světem datové analýzy. Pokud děláte statistiku nebo data mining, tak asi nic překvapivého nanajdete, mne ale potěšila samotná forma téhle učebnice a lituji, že jsem ji neznal při plánovaní mého kurzu Digital humanities na SNM.

Ostatní

Franco Morreti: Distant reading
Morreti je literární teoretik, který již několik let prosazuje novou metodologii v literární vědě. Která se, podle něj, nachází v podobné situaci jako biologie před Darwinem. Stále totiž studuje literaturu po exemplářích, místo aby se jí zabývala jako se biologie zabývá druhy. Morreti prosazuje využívání kvantitativních metod při zkoumání literatury. V knize se tak můžete třeba seznámit i se social network analysis hrdinů Shakespearových her. Mimochodem předchozí Morretiho kniha vyjde snad letos v říjnu česky v nové ediční řadě Nových médií v nakladatelství Karolinum.

David Folkenflik (ed.): Page One
Sborník textů vyšel jako doplněk k stejnojmenému dokumentu o New York Timesech a jeho editor mu dal podtitul Inside The New York Times and The Future of Journalismu. Kniha obsahuje eseje a rozhovory převážně aktivních novinářů v NYT o změnách, kterými novinařina prochází. V kontextu českého rybníčku je to neuvěřitelně inspirující čtení. New York Times jsou skutečnými lídry současné novinařiny a vřele doporučují vidět, jak silné intelktuální zázemí mají. V porovnání s českými tituly je to až nadpozemský zážitek.

Tady bych svůj výběr skončil. Ne že bych nečetl loni textů víc, ale ostatní jsou povětšinou nejrůznější akademické články s různými daty vydání a vlastně jsou asi pro širší publikum zcela nazajímavé. Takže se loučím s přáním, abyste mezi uvedenými tituly našli alespoň jeden, který by vás bavil tak jako mne. Přeji vám hezký rok 2014

Josef Šlerka

December 16, 2013
Animace výskytů katolíků a evangelíků na našem území

Protože měl předchozí blopost s náboženskou mapou republiky přiznivý ohlas, připravil jsem ještě dvě malé animace. Na vstupu jsou opět data ze sčítání lidu z kapitoly týkající se vyznání. Animace představují mapy obcí podle podílu lidí, kteří se v nich hlásí buď ke katolické církví nebo k Českobratrské církev evangelické.

Začínáme v oblastech alespoň s jednoprocetním podílem a můžete sledovat jak jejich distibuce po zemi klesá. Velikost bodu nenese žádnou další informaci. V mapě opět nejsou Brno, Liberec, Opava, Ostrava, Pardubice, Plzeň, Praha, Ústí nad Labem, které mají z pohledu staťáků vlastní členění.

Distribuce katolíků v ČR dle sčítání lidu v roce 2011

Distribuce evangelíků (ČCE) v ČR dle sčítání lidu v roce 2011 

Obě mapy krásně ilustrují, jak od východu k západu slábne příslušnost k dvoum hlavním církvím v zemi.

Josef Šlerka

December 12, 2013
Náboženská mapa České republiky podruhé

Před časem jsem na Facebooku postoval jednoduchou mapu České republiky z dat Statistického úřadu z posledního sčítání lidu. Mapa představovala mapu obcí podle podílu lidí, kteří se v nich hlásí k nějaké konkrétní církvi. V mapě nebyly Brno, Liberec, Opava, Ostrava, Pardubice, Plzeň, Praha, Ústí nad Labem, které mají z pohledu staťáků vlastní členění a navíc sami patří mezi slušné outliers.

Velikost bodů na mapě byla stejná pro všechny obce a mapa zohledňovala procenta, nikoli absolutní počty. Obrázek vzbudil poměrně zajímavou debatu. Na jednu stranu totiž ukazovala poměrně zřetelné pásy religiozity u nás, na straně druhé ale nezohledňovala další faktory. Například drobnost, že většina lidí odmítla na otázku po vyznání odpovědět. Vrátil jsem se proto k mapě ještě jednou.

Samozřejmě, že nemám ani teď k dispozici žádné tajemné vědění o těch, co mlčeli. Nicméně jsem udělal mapy čtyři, které ukazují výsledky pro všechny základní možnosti odpovědí. Ostatní parametry zůstaly stejné.

Věřící - hlásící se k církvi, náboženské společnosti - celkem (%)


větší obrázek

Věřící - nehlásící se k žádné církvi ani náboženské společnosti - celkem (%)


větší obrázek

Bez náboženské víry - celkem (%)


větší obrázek

Neuvedeno - celkem (%)


větší obrázek

Mne osobně nejvíce zajímala distribuce těch, co odmítli na otázku po vyznání odpovědět. Na první pohled (neříkám, že zcela určitě) se zdá, že krom oblasti spodku jižní Moravym, jsou víceméně po republice rozmístění náhodně a že tedy je pravděpdobné, že náboženské pásy platí.

Pro rychlou verifikaci jsem ještě udělal vzájemnou korelaci odpovědí podle oněch čtyřch kategorií. Opět bez nároků na nějaký silný důkaz, ale zdá se, že jediná silná korelace je negativní mezi deklarovaně věřícími a deklarovanými ateisty.

Korelační matice věr

Pro další kolo bych pracoval s hypotézou země rozdělené na tři religiozní oblasti dál. O tom, jak je to s jednotlivými denominacemi si povíme (snad) někdy příště.

UPDATE (12.12. 2013, 20:19) Jak mne upozornil Honza Spousta: sice mírná, ale přeci jen relevatní negativní korelace víry a neuvedení říká, že v “neodpovědích” není schováno nadprůměrně hodně věřících, kteří by se báli nebo styděli víru přiznat. Procenta věřících odhadnutá z těch, kdo odpověděli, by tak byla asi mírně nadsazená při vztažení na populaci.

Josef Šlerka

November 11, 2013
Tak trochu jiná povolební mapa České republiky

Hned po prezidentských volbách na začátku letošního roku jsme trochu experimentovali s mapou České republiky, na níž vzdálenost mezi městy nebyla dána geograficky, ale mírou podobnosti hlasování v prvním kole voleb. Této metodě vizualizace (a zpracování) se říká vícerozměrné škálování a mohli jste se s ní na našem blogu už několikrát setkat.

Tehdejší mapu jsme nakonec v přílivu nových projektů nepublikovali a činíme tak až dnes. Na vstupu bylo prvních sto největší obcí a městských částí podle počtu voličů a výsledky hlasování v těchto obvodech v první kole. Výsledná mapa je zde:


obrázek ve větším rozlišení zde

K interpretaci osy X asi netřeba velkého úsilí. Osa levice - pravice je dostatečně zřetelná a je, s trochou nadsázky, vidět, že ani Karviná nebyla v prezidentských volbách tak levicová, jako byla Praha pravicová. V Karviné získali oba silní kandidáti levice Dienstbier a Zeman dohromady více než 50 % hlasů. Oproti tomu v Praze 1 získal Karel Schwarzenberg v prvním kole hned více než 55 % hlasů.

Složitějíší je to s osou Y. Ve Ždáru nad Sázavou totiž vyhrál Miloš Zeman se ziskem více než 37 % hlasů. Tak proč je tak vychýlený? Na první pohled to vypadá divně, protože zde sice zřetelně vyhrál Zeman, jenže druhý kandidát levice Jiří Diesntbier tu dosáhl podprůměrného výsledku. Pokud se podíváme na volební výsledky z pohledu podobnosti, tak uvidíme, že osa Y je oragnizována de facto podle míry úspěchu “třetích kandidátů”. Nahoře jsou místa, kde uspěl především Jan Fischer a zároveň Jiří Dienstbier, dole pak místa, kde byla úspěšná spíše Zuzana Roithová.

K interpretaci vizualizací MDS patří pojmenování dimenzí, které rozdíly na mapě vytvářejí. V případě osy X se tehdy nabízelo snadné levice - pravice. Složitější to je ovšem s osou Y. Horní shluk svým složením připomíná ze všeho nejvíc soupis měst v Sudetech nebo na jejich pomezí, ale to jako pojmenování osy Y nestačí.

Před více než devíti měsíci se naše úvahy v tomto bodě zastavily a rozběhly se až zase po volbách parlamentních. Také v tomto případě jsme si vyrobili mapu republiky podle podobnosti obcí a (městských částí), které měly volební účast nad 5 000 voličů. Mimochodem těch 164 místo tvoří přibližně polovinu všech hlasů, které byly ve volbách odevzdány.

Výsledná mapa vypada docela povědomě, nemyslíte?


obrázek ve větším rozlišení zde

Osa X opět odpovídá ose levice - pravice, osa Y obsahuje staré známe podezřelé. Praha i Karviná reprezentují ty největší extrémy v hlasování. Na ose Y vidíme dole místa, kde slušně bodovalo KDU-ČSL, a většinou se v těchto oblastech nevedlo nijak dobře KSČM. Oproti tomu nahoře najdeme místa, kde se častěji kombinoval volební úspěch ANO 2011 a Okamurova Úsvitu. Opět platí že jsou to města, která patří hlavně do oblasti Sudet, typická často vysokou mírou rozvodovosti, sebevražd a podobných fenoménu.

Spodní část osy Y i tentokrát obsahuje řadu známých jmén, ale oproti “Sudetům” žádnou specificky “geopolitickou”. Přesto by se mohlo jedno pojmenovaní hodit, byla by jim míra religiozity daných oblastí. Pokud se totiž podívate na obce v obou extrémech, tak najdete poměrně silný rozdíl právě v procentu obyvatel, kteří o sobě ve sčítání lidu uvedli, že jsou věřící.

Horní zóna (vybočuje pouze Žatec)

Litvínov4.2963%
Most4.4253%
Bílina3.779%
Ústí nad Labem5.4312%
Žatec19.6721%
Jablonec nad Nisou6.7629%
Liberec7.4722%
Nový Bor6.5225%
Klášterec nad Ohří4.914%
Jirkov4.8918%

Spodní zóna (vybočuje silně Náchod a Blansko)

Velké Meziříčí28.1164%
Vsetín19.5961%
Blansko15.1728%
Litomyšl21.2527%
Kyjov18.8406%
Pelhřimov21.1557%%
Náchod13.7884%
Nové Město na Moravě28.7416%
Boskovice23.196%
Veselí nad Moravou26.1495%
Třinec30.4966%
Český Těšín31.5446%
Uherský Brod39.1276%

V praxi by to tak znamenalo, že pro pochopení vnitřní dynamiky současného dění na politické scéně bude možná dobré uvažovat nejen v dělení pravice a levice, ale také v něčem jako spirituální rovině, která je u nás reprezentována křesťanstvím, a ateismem. Obě osy budu zřejmě korelovat s dalšími možnostmi, jako například vyšší - nižší příjmy v oblasti či konzervativnost - liberalismus a navrhlé pojmenování podle míry spirituality může působit poněkud provokativně. Jak byste je pojmenovali vy?

Josef Šlerka
(special thnx go to Jan Schmid)

November 6, 2013
Housle a mřížky z voleb do parlamentu

Asi nejsem sám, komu stále vrtá hlavou otázka: Kdo vlastně volil ANO 2011? Je to do určité míry dáno sociální bublinou v niž se pohybuji (ano, ANO 2011 kolem mne nikdo nevolil), ale také je to pěkný datový problém. Zcela nejjednoduší cestou je podívat se prostě na distribuci výsledků stran podle velikosti obcí a městských částí, případně na korelaci výsledků stran mezi sebou.

Připravil jsem si za tím účelem malou aplikaci v R (ne příliš výkonou, zato rychle hotovou), kde si může každý měnit minimální a maximální počty voličů v obcích a skoro hned vidí, jak se mění rozvrstvení hlasů a korelace stran. Pro vizualizaci jsem zvolil nikoli běžný boxplot (známý též jako krabicový graf), ale violin plot (houslový graf) který “je kombinací krabicového grafu a dvou vertikálních, zrcadlově k sobě zobrazených grafů hustoty. Jeden graf hustoty roste směrem doprava a druhý doleva. (…) zobrazuje píky a údolí stejně jako graf hustoty pravděpodobnosti. Medián je zobrazen černým kolečkem a začátek a konec úsečky zobrazuje dolní a horní kvantil. Houslový diagram se jmenuje dle připomínajícího tvaru houslí. Normální rozdělení se projeví v symetrickém tvaru houslí zatímco log.-normální v silně asymetrickém tvaru.” (viz zde). Na vstupu pak bylo hlasování ze 6 453 obcí, tak jak jsou k dispozici na server www.ovolby.cz. Já jsem je jen přepočítal na procenta v dané obci či městské části.

Pokud si necháte zobrazit hlasování jen z větších obcí a městských částí (a vyhnete se tak extrémům, ke kterým nutně směřují malé obce), tak vás možná upoutá, že ANO (podobně jako Úsvit) získalo napříč všemi obcemi tak nějak rovnoměrně stejně, neutrpělo žádnými lokálními výkyvy, prostě projelo zemí jako horký nůž máslem.


Výsledky pro obce a městské části s více než 5 000 voliči. DOPLNĚNÍ: Na ose Y jsou procenta, které strany dosáhly v obcích a městských částech s více než 5.000 voličů.

Zajímavá je v tomhle ohledu i korelační matice pro větší obce. ANO prakticky nekoreluje s žádnou významnější stranou s jedinou výjimkou, a tou je opět Úsvit. Slabě negativně koreluje s ANO s KDÚ. Jinými slovy, tam kde ve větších městech ANO získavalo či ztrácelo, získával a ztrácel stejně Úsvit, naopak zisky a ztráty ANO znamenaly většinou ztráty a zisky KDÚ.


Výsledky pro obce a městské části s více než 5 000 voliči

Naopak se dobře ukazuje, jak silné jsou korelace mezi “městskými stranami” ODS, TOP 09, Zelenými, Piráty a Svobodnými na jedné straně a na straně druhé mezi levicovými stranami na straně druhé.

První závěr by teď mohl být asi tento: ANO 2011 je úplný “outlier”, který získává pozice bez ohledu na regiony (tím se podstatně liší od ČSSD i TOP 09) a kromě prostestního Úsvitu s nikým významnějším nekoreluje. Jak to bude dál (snad) uvidíte v dalších dílech.

Pokud chcete, můžete si s aplikací pohrát sami: zde.

Josef Šlerka