Nykyisin on hankalaa enää välttää käsitettä avoin data (engl. open data). Käsite on levinnyt räjähdysmäisesti muutaman viime vuoden aikana. Siihen törmää niin tiedemaailmassa, valtionhallinnossa kuin mediassakin.
Data sinänsä on vain osa kaikkea muutakin ”avointa”. On avointa tietoa, tiedettä, lähdekoodia, julkaisemista, sisältöjä jne. Kaikille termeille ei edes ole ehditty vielä keksiä vakiintunutta suomenkielistä vastinetta kuten esimerkiksi ”open access”lle.
Avoimuus on maailmanlaajuinen megatrendi. Tavoitteena on yhteisen hyvän ja hyödyn kasvattaminen lisäämällä ja tehostamalla julkisen sektorin, yritysten, kansalaisten ja tiedon käyttäjien vuorovaikutusta.
Avoimella datalla ei ole vielä yhtä, tarkasti rajattua määritelmää, mikä aiheuttaa rajanveto-ongelmia. Voidaan kuitenkin listata neljä pääehtoa, jotka materiaalin on täytettävä, ennen kuin sitä voi kutsua avoimeksi dataksi:
- Vapaa saatavuus ja julkisuus. Data on vapaasti ladattavissa verkosta, maksutta ja ilman rekisteröitymistä. Data ei saa sisältää henkilö- tai muita luottamuksellisia tietoja.
- Pysyvyys. Data on saatavilla vakiintuneessa verkko-osoitteessa niin, että tietojen haun sieltä voi automatisoida.
- Vapaa käytettävyys. Data on lisensoitu siten, ettei käyttöä edes kaupallisiin tarkoituksiin rajoiteta.
- Koneluettavuus. Data on tallennettu muodossa, joka on helposti luettavissa tietokoneohjelmalla.
THL laitoksena lähtee tiukemmasta määrittelystä, jossa dataksi katsotaan nimenomaan numeerinen, ei-tekstuaalinen materiaali. Datassa on pyrittävä käyttämään mahdollisimman paljon yhteisiä virallisia tai vakiintuneita luokituksia (esim. kuntakoodi), jotta sitä voi yhdistellä toisiin datakokonaisuuksiin. Myös kuvailutietojen eli metadatan on oltava kunnossa, jotta käyttäjä pystyy hahmottamaan datan sisällön ja tulkitsemaan sitä.
Tyypillisesti avoin data on moniulotteisia taulukoita ja matriiseja. Sen sijaan esim. pdf-tiedostot ja kuvat eivät ole THL:n vielä työn alla olevan määritelmän mukaan avointa dataa. Niitä voi toki olla avoimesti saatavilla, mutta ne ovat silloin paremminkin avointa sisältöä.
Avoimesta datasta on ollut jo hyötyä
Innokkaimpien puolestapuhujien mukaan avoin data tulee tulevaisuudessa mullistamaan bisneksen, demokratian ja kansanterveyden, ja säästämään valtavasti rahaa ja aikaa.
Kyseessä on sen verran uusi ilmiö, että näyttöä pitkän aikavälin vaikutuksista ei vielä ole, mutta lyhyessäkin ajassa voidaan saada aikaan paljon. Kansalaisille yksi arkea helpottava esimerkki on verkosta löytyvät aikataulut ja reittioppaat, jotka tehostavat ajankäyttöä.
Pienyritykset saattavat saada toimintansa käyntiin avoimella datalla, jonka hinta olisi aikaisemmin ollut ylikäymätön este. Poliittisten päätösten sisältämien tietojen avoimuus lisää läpinäkyvyyttä ja estää korruptiota.
Julkisella sektorilla avoin data antaa mahdollisuuden tehostaa toimintaa ja parantaa palveluja. Kansainvälisesti tunnetuin esimerkki lienee Iso-Britanniasta, jossa maan kaikkien sairaaloiden infektiotilastojen avaaminen kannusti parhaiden käytäntöjen jakamiseen sairaaloiden kesken ja laski infektiopotilaiden vuotuisen määrän viidestä tuhannesta reiluun tuhanteen.
Myös päättäjät ovat huomanneet hyödyt: avoin data kuuluu jo monissa maissa kansallisiin tavoitteisiin. Suomessa Valtiovarainministeriön vetämä avoimen tiedon ohjelma käynnistyi vuonna 2013. Ohjelman tavoitteena on, että tietovarantojen avaamisesta tulee osa hallinnon normaalia toimintaa ja että se otetaan huomioon jo tietojärjestelmiä suunniteltaessa ja hankittaessa.
THL:ssä paljon avointa dataa
THL on suuri organisaatio, joka pitää hallussaan valtavia määriä dataa ja muuta tietoa. Suuri osa tiedosta sisältää henkilötunnisteista dataa, mikä asettaa omat vaatimuksensa datan avaamiselle. Jotta esim. henkilörekisterien ja väestötutkimusten dataa voidaan avata, pitää se ensin karkeistaa niin, ettei yksittäisten kohteiden tunnistaminen ole enää mahdollista. Tästä esimerkkinä on THL:n ja koko SOTE-hallinnonalan suurin tietopankki SOTKAnet, joka sisältää avoimena datana yli 2000 väestön terveysosoitinta.
Muita esimerkkejä THL:n avoimesta datasta ovat mm. sosiaali- ja terveydenhuollon toimipaikkarekisteri (TOPI), erikoissairaanhoidon hoitoonpääsytiedot sekä kansallinen koodistopalvelin. Elintarvikkeiden koostumustietokanta Fineli on THL:n tuorein data-avaus.
Lisäksi on suunnitelmissa avata mm. perusterveydenhuollon avohoitoilmoitusjärjestelmä AvoHILMO sekä THL:n aineisto- ja järjestelmärekisteri, jonka kautta THL:n ulkopuolisetkin tutkijat pääsevät vaivatta käsiksi THL:n kaikkien tutkimusaineistojen kuvailutietoihin.
Avaaminen ei kuitenkaan käy hetkessä: se vaatii metatieto- ja tietorakennetyötä, tietojärjestelmien kehittämistä sekä käyttöoikeuksien selvittämistä. Valtion budjetissa on THL:lle onneksi myönnetty tietovarantojen avaamiseen erillistä määrärahaa vuosille 2015–2016.
Datan avaamisessa ollaan vielä alkutaipaleella. Olemassa olevasta datasta on avattu vasta pieni osa, ja tulevaisuudessa uuden datan määrä tulee moninkertaistumaan mm. sensoritekniikan kehittymisen ja henkilökohtaisen datan eli ns. MyDatan alati kasvavien volyymien vaikutuksesta.
Kukaan ei vielä tiedä, missä mennään jo viiden vuoden kuluttua, mutta avoimen datan mahdollisuuksille ei vielä ole näkyvissä minkäänlaista kattoa. Tästä syystä on Suomessakin tärkeää pysytellä ajan hermolla. Avoimen datan prosessoinnin ja avoimen julkaisemisen osaamista olisikin syytä vahvistaa.
Lue lisää:
Terveyden ja hyvinvoinnin kohdealueen avoimen datan suunnitelma
Cap Gemini Consulting: The Open Data Economy