Avoimesta datasta entistäkin avoimempaa?
Nykypäivänä oletamme, että kaikki päätöksenteko, yksityinen tai julkinen, pyritään pohjaamaan mahdollisimman pitkälle pureskeltuun faktatietoon.
Tilastollinen analyysi, ekonometriset menetelmät ja koneoppiminen mahdollistavat rajallisten resurssien allokoimisen sinne, missä ne palvelevat kulloisiakin tavoitteita parhaalla mahdollisella tavalla. Jokaisen lisäarvoa tuottavan tilastollisen mallin ja analyysin taustalle tarvitaan kuitenkin riittävä määrä luotettavia havaintoja ympäröivästä todellisuudesta – siis dataa.
Täydellisessä maailmassa datapisteiden avaruus tarjoaa vastauksen lähes kaikkiin mieltä askarruttaviin kysymyksiin. Tässä ekonomistin utopiassa, tietopohjainen päätöksenteko on optimaalista ja yhteiskunta voi saavuttaa maksimaalisen potentiaalinsa. Tosielämässä data on kuitenkin usein puutteellista tai jopa virheellistä, ja siihen pohjautuva analyysi voi jäädä ohueksi tai mennä pahasti metsään. Siksi datan saatavuuden turvaamisen tulisi olla yhteiskunnan ykkösprioriteetti, ainakin mikäli ekonomistilta kysytään.
Tilastokeskus tuottaa Suomessa varsin laajoja ja laadukkaita tilastoja yhteiskunnan monesta eri sektorista ja ilmiöstä. Avoimen datan periaate on viety Tilastokeskuksessa pitkälle, ja tietokantojen avointa rajapintaa hyödyntämällä tilastoja on mahdollista käyttää reaaliajassa mitä mielikuvituksellisimpiin tarkoituksiin.
Avointa rajapintaa onkin hyödynnetty myös Medialiitossa, ja tietokantojen vuoropuhelu on toiminut hyvin niin kauan, kun aikasarjojen pohjalta rakennettu malli on saanut säännöllisesti syödäkseen uutta vertailukelpoista dataa. Aika ajoin tilastojen rakenteisiin tehdään kuitenkin muutoksia tai aikasarjojen päivitykset päätetään lopettaa, ja silloin koko malli lopettaa toimintansa. Datan hyödyntäjälle tällaiset yllätykset saavat aikaan sydämentykytyksiä, mutta onneksi malli on useimmiten mahdollista herättää henkiin pienillä viilauksilla.
Viime maaliskuussa Medialiiton ylläpitämät tilastot kuitenkin kokivat kolauksen, kun Tilastokeskus siirsi videopeliyritysten toimialaluokan ohjelmistoista kustannustoimintaan. Tilastokeskuksella oli muutokseen asialliset perusteet, mutta toimialaekonomistille muutos on aiheuttanut paljon harmaita hiuksia. Karkeamman tason toimialaluokitukseen perustuvasta kansantalouden tilinpidosta on nyt käytännössä mahdotonta tehdä mediatalouteen liittyvää analyysiä, kun tarina kustannustoiminnan lukujen taustalla on radikaalisti muuttunut. Jotta ongelma voitaisiin taklata, tulisi päästä käsiksi tarkempaan luokitteluun, mutta valitettavasti tätä tietoa ei avoimen datan periaatteista huolimatta ole julkisesti tarjolla.
Ekonomistin kannanottona onkin todettava, että julkisen sektorin hallitsemaa dataa, Tilastokeskuksen tietokannat mukaan lukien, tulisi edelleen määrätietoisesti avata. Dataa olisi myös syytä julkaista mahdollisimman nopeasti heti tiedonkeruun jälkeen, sillä nopeasti muuttuvassa maailmassa jo vuodenkin vanha tieto voi osoittautua analyysin kannalta hyödyttömäksi.