Yleisimmät nimet 1900-luvulla

Kategoriat: R tiedonlouhinta visualisointi

Idea tähän artikkeliin tuli hauskasta Name Voyager-visualisointipalvelusta, joka näyttää suosituimpien lasten nimet vuosiluvun mukaan (olettetavasti Jenkeissä). Vastaavaa dataa suomalaisten nimien määristä löytyy Väestörekisterikeskuksen tilastoista ja Nimipalvelusta. Ensimmäisessä on kattavat tilastot 2000-luvulta, kun taas jälkimmäisessä on luvut pienelle osalle yleisimpiä nimiä koko 1900-luvulta. Käytän tässä jälkimmäistä dataa yksinkertaisiin visualisointeihin. Tulevaisuudessa olisi mielenkiintoista kokeilla jotain alkuperäisen Name Voyagerin tapaista interaktiivista visualisointia tarkemmista 2000-luvun tilastoista.

Nimipalvelun data on tarjolla vain html-taulukkona, mutta pieni googlaus näytti miten XML-pakettia käytetään html-taulukon lataamiseen R:ään. Pienellä esikäsittelyllä ja ggplot2:n area-plotilla datasta saadaan alkuperäistä ideaa mukaileva visualisointi.

Pinottu aluekaavio, jossa x-akselilla vuosi 1900-2000 ja y-akselilla nimien määrä. Alueet kuvaavat 10 yleisintä nimeä
Yleisimmät poikien nimet 1900-luvulla (geom_area)

Matti ei näytäkään olevan yhtä suosittu nimi kuin olin ymmärtänyt. Kuvaajasta näkyy suurten ikäluokkien vaikutus selvästi.

Jos edellisen kuvaajan kulmikkuus häiritsee, pehmeämpää jälkeä saadaan geom_density:llä, joka sovittaa dataan jatkuvan tiheysjakauman. Tällöin tosin y-akselin tulkinta hankaloituu.

Pinottu aluekaavio, jossa x-akselilla vuosi 1900-2000 ja y-akselilla nimien määrä. Alueet kuvaavat 10 yleisintä nimeä
Yleisimmät poikien nimet 1900-luvulla (geom_density)

Tässä vielä area-plotti tyttöjen nimistä. Maria näyttää tulleen uudestaan muotiin sotavuosien jälkeen, kun taas Marjatta on ollut erityisesti sota-ajan suosikkinimi.

Pinottu aluekaavio, jossa x-akselilla vuosi 1900-2000 ja y-akselilla nimien määrä. Alueet kuvaavat 10 yleisintä nimeä
Yleisimmät tyttöjen nimet 1900-luvulla

PÄIVITYS 6.1.2013: Blogin R-skriptejä ylläpidetään jatkossa Githubissa. Tämän artikkelin koodit löytyvät täältä.

Alkuperäinen kirjoitus Louhos-blogissa: https://louhos.wordpress.com/2011/09/24/yleisimmat-nimet-1900-luvulla/