Päivitys: Uudempi postaus tästä aiheesta!
Kolmannessa HS Openissa yhtenä avattuna datana on Asuntojen vuokrat ja hintapyynnöt Oikotiellä. Talosen Jaakko ehtikin jo tehdän vuokrahinnoista mainion visualisoinnin. Itse olen jo pidempään fiilistellyt mahdollisuutta käyttää GoogleMapsin karttoja R-visualisoinnin pohjana, ja tässähän tarjoutui loistava tilaisuus kokeilla tuota käytännössä.
Ideana on siis näyttää Oikotiedatan perusteella asuntojen hintapyynnöt kartalla, käytännössä keskimääräiset neliöhinnat postinumeroa kohden. Helpommin sanottu kuin tehty. Tämä vaatii nimittäin maantieteelliseti koordinaatit kullekin postinumerolle. Geonames tarjoaa tällaista tietoa, mutta itse en ainakaan onnistunut saamaan sieltä Helsingin kaupunginosien postinumerotietoja ulos. Kertokaa jos onnistutte paremmin.
Helsinki Region Infosharesta löytyy pääkaupunkiseudun aluejakokartat, jossa kaupunginosille on annettu koordinaatit parilla eri tarkkuustasolla. Tämä data on mm. GoogleMapsin käyttämässä KML-formaatissa, minkä takia jouduin vähän kikkailemaan jotta sain datan R:n ymmärtämään muotoon. Lopulta päädyin käyttämään erillistä kmlcsv-konvertteria, jolla sain alueiden pistetiedot käännettyä csv:ksi.
Seuraavaksi tarvittaisiin sitten tiedot postinumerojen ja kaupunginosien yhteyksistä. Postilla on hakupalvelu joka antaa katujen nimet postinumeroiden perusteella, mutta siitä ei ole tässä apua. Lisäksi Itella tarjoaa koko maan kattavaa postinumerotiedostoa, muttei sentään ilmaisena ja avoimena datana, olisi liian helppoa… Yksi mahdollisuus olisi yhdistää postinumerot ja alueiden nimet käsin, mutta se ei oikein istu avoimen datan ideaan. Pienen kaivelun jälkeen löysin vanhempaa asuntohintatietoa Helsingistä, HRI:stä jälleen. Tätä dataa voisi toki visualisoida suoraankin, ja myös verrata Oikotien tarjoamiin uudempiin hintatietoihin. Tässä tiedostossa on hintatietojen lisäksi useimmille Helsingin postinumeroalueille myös nimi, joten sillä päästään eteenpäin. Alueiden nimet eivät edelleenkään osu täysin yksiin aluejakokarttojen nimien kanssa, mutta pienellä korjailulla saadaan melko kattava aineisto aikaan.
Sitten vain yhdistetään kaikki yllä oleva data ja visualisoidaan. Oikotien myyntihintadata sisältää muuten vielä jonkun verran virheitä, ja lisäksi mukana on epäoleellista dataa kuten myytäviä tehdashalleja ja hevostiloja, ja lisäksi asumisoikeusasuntoja, jotka vääristävät keskimääräisiä hintoja. Päädyin alustavasti suodattamaan datan yksinkertaisesti asuntojen koon ja hinnan mukaan, ja lopputulos näyttää melko järkevältä.
Tuloksena näin aluksi hyvin yksinkertainen karttavisualisointi, jossa datapisteiden koko kertoo keskimääräiset neliöhinnan kyseisellä alueella. Lisäksi kartalla näkyy kutakin pistettä vastaavan paikannimi, niiden avulla voidaan arvioida kuinka hyvin aluejakokarttojen koordinaatit osuvat kohdilleen. Osa nimistä tosin peittyy datapisteiden alle, pitää korjata tämä tulevaisuudessa. Data näyttää suunnilleen siltä mitä odotinkin, eli Helsingin ytimen hinnat ovat korkealla ja muualla on halvempaa.
Tässä siis vähän esimakua mitä HS Open 3:n datoilla voidaan saada aikaan. Tarvittavien datojen pyörittely aiheuttaa kyllä päänvaivaa ja työtä. Seuraavaksi olisi mielenkiintoista laajentaa visualisointi koko pääkaupunkiseudulle, mutta se vaatii postinumeroiden ja alueiden yhdistämistä käsin tai jotenkin muuten, ideoita otetaan vastaan. Lisäksi visualisoinnista saa helpostikin paljon paremman näköisen.
PÄIVITYS 6.1.2013: Blogin R-skriptejä ylläpidetään jatkossa Githubissa. Tämän artikkelin koodit löytyvät täältä.
Alkuperäinen kirjoitus Louhos-blogissa: https://louhos.wordpress.com/2011/10/05/hs-open-3-lammittely-asuntojen-myyntihinnat-helsingin-kartalla/