HS Open 2: Apurahadataa kaivelemassa

Kategoriat: R tiedonlouhinta visualisointi

Ensimmäisen artikkelini aiheena on HS Open 2 -tapahtumassa analysoitu apurahadata. Data sisältää tietoa vuosina 2005-2009 jaetuista taiteilija-apurahoista. Latasin datan R:ään ja tein muutamia kuvaajia käyttäen ggplot2-pakettia. Tässä muutamia kuvaajia:

Palkkikaavio, jossa x-akselilla kuvattu apurahan määrä ja y-akselilla 20 eniten apurahaa saanutta henkilöä
20 eniten apurahaa saanutta taiteilijaa (HS 19.5.2011)
Vuosittain ryhmitelty palkkikaavio, jossa x-akselilla kuvattu apurahan määrä ja y-akselilla hakemusluokka
Apurahat hakemusluokittain ja vuosittain eroteltuna
Sukupuolittain jaoteltu palkkikaavio, jossa x-akselilla kuvattu apurahan määrä ja y-akselilla apurahan saajat luokiteltu ikäluokittain
Apurahat ikäryhmittäin ja sukupuolen mukaan
Ns. balloon plot -tyyppinen kaavio, jossa x-akselilla hakijoiden ikäryhmä, y-akselilla hakemuksen luokka ja pallon koko kuvaa myöntösummaa
Apurahat ikäryhmän ja hakemusluokan mukaan

ggplot2:n perusplottien lisäksi data voidaan visualisoida kartalle käyttäen apuna esimerkiksi sp-pakettia. Suomen kartta löytyy shapefile-muodossa GADM-tietokannasta. Absoluuttisten maakuntakohtaisten apurahasummien sijaan on mielenkiintoisempaa tarkastella apurahojen määrää maakuntien asukaslukuihin suhteutettuna. Tätä varten haemme tiedot maakuntien asukalsuvuista Tilastokeskuksen Väestötietokannasta. Data olisi luettavissa suoraan R:ään PC Axis muodossa, mutta tyydymme tässä käsin haettuun ja muokattuun tiedostoon, ja palaamme PC Axis-muotoisen datan lukemiseen myöhemmin.

Seuraava karttavisualisointi näyttää myönnettyjen apurahojen määrän per asukas maakunnittain. Uudellemaalle näyttää menneen edelleen selvästi eniten apurahoja, mikä vaikeuttaa muiden maakuntien summien vertailua. Tämän takia toisesta kuvasta on jätetty Uudenmaan tiedot pois.

Teemakartta Suomesta, jossa väri kuvaa kuhunkin maakuntaan myönnetyn apurahan suuruutta
Apurahat per asukas maakunnittain

PÄIVITYS 6.1.2013: Blogin R-skriptejä ylläpidetään jatkossa Githubissa. Tämän artikkelin koodit löytyvät täältä.

Alkuperäinen kirjoitus Louhos-blogissa: https://louhos.wordpress.com/2011/09/13/hs-open-2-apurahadataa-kaivelemassa/