Marketingový výzkum a analýza dat – STEM/MARK

Vizualizace vícerozměrných dat ála Chernoff

V minulém newsletteru jsme Vám ukázali, jak lze pomocí jednoduchých ikonek data rozhýbat (statistiky.stemmark.cz/cteni/). Přitom nejde jen o efekt. Díky tomuto zobrazení se může zvídavý uživatel (atypicky klient :)) jednoduše a intuitivně obeznámit s detailní strukturou dat a případně odhalit nečekané souvislosti. Navzdory roztomilým ikonkám a přidané informaci se stále jedná o běžný graf, který zobrazuje jednu nebo dvě proměnné (například pohlaví vs. frekvenci čtení knih).

Pokud ale chceme v jednom grafu znázornit skupinu několika proměnných, situace se komplikuje. Například potřebujeme porovnat jednotlivé značky aut podle maximální rychlosti, akcelerace, spotřeby, brzdné dráhy, bezpečnostních prvků a dalších jízdních vlastností. Zobrazit všechny tyto proměnné v jednom grafu pro jednotlivé značky je větší oříšek, ale jde to. Jedním z možných řešení je využití tzv. ikonových/symbolových grafů. Z nich asi nejznámějším reprezentantem jsou Chernoffovy kreslené obličeje. Nejedná se o žádnou metodickou novinku, Herman Chernoff je vymyslel již v roce 1973. Dnešní softwarové možnosti však tuto vizualizaci značně zpřístupnily a není tedy na škodu si připomenout, o co jde.

Chernoffa napadlo, že člověk je naprogramován….

531px-Chernoff_faces_construction.svg

Chernoff vycházel z prostého předpokladu, že člověk je naprogramován tak, aby jednoduše rozpoznával podobnosti nebo odlišnosti tváří. Napadlo ho, že by mohl zobrazit všechny zkoumané proměnné v jednom obličeji. V případě jízdních vlastností aut by to například znamenalo, že velikost uší odpovídá dosahované maximální rychlosti, šířka rtů představuje akceleraci, tvar nosu vypovídá o spotřebě atd. Následně se jen porovnají jednotlivé obličeje (značky aut), což jde podle původního předpokladu intuitivně, bez větší námahy. To celé nám umožňuje snadněji se orientovat ve vícerozměrných datech, odhadovat trendy či rychle vyselektovat odlišné nebo podobné případy.

Jako příklad vizualizace dat pomocí Chernoffových obličejů jsme zvolili výskyt kriminálních činů a přestupků v jednotlivých krajích v roce 2012 přepočtený na 1000 obyvatel (http://www.mapakriminality.cz). Pro tvorbu obličejů jsme použili náš oblíbený software R, který navíc barevně vyznačí podobné obličeje na základě statistické kategorizace všech proměnných.

legenda

chernoff_obliceje

A teď co z obličejů vyplývá … zkusme malý kvíz. Najděte kraj/kraje:
1) ve kterém se nejčastěji odehrávají vraždy,
2) ve kterém se nejčastěji odehrávají násilné trestné činy,
3) ve kterém nejčastěji dochází k maření úředního rozhodnutí.

Pro ty, kteří si snad nevědí rady, je tady malá nápověda, jak číst obličejový graf.

praha_chernoff

Určitě jste si poradili! Jestli jste odpověděli správně, se dozvíte zde: http://www.stemmark.cz/downloads/reseni_3.jpg

PS: Možností jak účinně a chytlavě vizualizovat informace je nepřeberně. V tomto směru by se Vám pro novoroční rozjímání mohl hodit speciálně tento typ informace http://www.informationisbeautiful.net/visualizations/cocktails/.