Tutkimustuloksella ei ole arvoa, jollei sitä ole tuotu ihmisten tietoisuuteen, olkoonpa tutkimus kuinka korkeatasoista tahansa. Jos siitä ei tekijän lisäksi kukaan tiedä, on se mennyt hukkaan. Sama pätee julkaisuihin, dataan ja ylipäänsä kaikkeen tietoon, ja tässä esimerkissä erityisesti avoimeen dataan.
THL on jo useamman vuoden ajan panostanut väkevästi avoimeen dataan ja julkaisemiseen, ja meillä on nyt Suomen laajimmat terveyden ja hyvinvoinnin avoimen datan aineistot. Tietotuotteidemme lippulaivoja ovat muun muassa Sotkanet, joka sisältää valtavan määrän väestön terveysosoittimia, elintarvikkeiden koostumustietopankki Fineli sekä Kansallinen koodistopalvelu, joka ylläpitää koko sosiaali- ja terveydenhuollossa käytettäviä tietorakenteita.
Näiden suurten kokonaisuuksien lisäksi THL:n nettisivuilla on runsas ja monipuolinen joukko pienempiä tietovarantoja rajatummilta aihealueilta. Nämä ovat pitkään olleet vähän huonosti näkyvissä ja löydettävissä.
Löydettävyyden lisäksi toinen avoimen datan haaste on käytettävyys. Peruslähtökohta terveysdatassa tietenkin on, ettei henkilötietoja sisältävää dataa voi tietosuojasyistä avata. Tiedot on karkeistettava niin pitkälle, ettei yksittäisten henkilöiden tunnistaminen enää ole mahdollista, mikä kylläkin syö tiedon hyödynnettävyyttä tutkimuksessa. Rivitason tietoa on THL:ssä avoimena vain Finelissä, joka ei sisällä henkilötietoja ollenkaan.
Aggregoitukin data auttaa tutkijaa
Mihin tutkija avointa dataa sitten varsinaisesti tarvitsee? Eihän karkeistettua dataa voi hyödyntää samalla tavalla kuin rekisteridataa! Avoin data voi kuitenkin olla hyvänä apuna kartoitettaessa omaa tutkimuskenttää, ja se voi johdattaa uusiin kysymyksiin, osoittaa jo tutkittuja aiheita ja tuoda esiin harmaita alueita, joita ei vielä ole juuri tutkittu.
Jos samaa asiaa ajatellaan toisinpäin, avaamalla omaa tutkimusdataansa muidenkin käyttöön tutkija lisää omaa näkyvyyttään, mikä välillisesti tuonee dataan liittyvälle tutkimusartikkelille lisää lukukertoja ja viittauksiakin.
Resurssien jakamisen ansiosta tieteen kehitys nopeutuu, avoimuuden myötä paraneva läpinäkyvyys parantaa toistettavuutta ja laatua. Tulevaisuudessa datan avaamisella ja jakamisella voi myös meritoitua samalla tavalla kuin tällä hetkellä vertaisarvioiduilla artikkeleilla.
Myös datan kuvailutietojen eli metadatan on oltava kunnossa, jotta dataa voi hyödyntää. Metadata sisältää datan käytettävyyden ja ymmärrettävyyden kannalta oleellisia tietoja, kuten lähteet, laskeminen, luokitukset, taustamuuttujat, päivitystiheys, merkitys ja tulkinta. Lisäksi on olemassa erityisesti datan jatkohyödyntämistä helpottavia tietoja, kuten lisenssitiedot, tekniset reunaehdot, aineiston vastuuhenkilöt ja viittausohjeet.
Avoin metadata kampeaa tietovarannot esiin
Käyttörajoitetunkin aineiston, kuten henkilötietoja sisältävien rekisterien, metadata voi olla itsessään avointa dataa ja lisäksi erittäin hyödyllistä. Sen avulla pääsee kurkistamaan muuten hankalasti saatavaan tai vaikeasti löydettävään tietoon. Hyvin toteutetut aineistokatalogit, kuten Tietoarkiston Aila, ovat tästä hyvä esimerkki. Ne lisäävät tietovarantojen näkyvyyttä ja nostavat kiinnostusta niitä kohtaan.
THL:n aineisto- ja järjestelmärekisterin pohjalta luotu Aineistoluettelo sisältää sadan tietovarannon kuvailutiedot ensimmäistä kertaa avoimessa muodossa. Kyseessä on ensimmäinen askel kohti laajamittaisempaa rikasta muuttujatasoista tietoa sisältävien kuvausten julkaisemista.
THL:n kaikki avoimet tietovarannot on koottu verkkosivulle www.thl.fi/avoindata, jota päivitetään kevään aikana vastaamaan paremmin asiakkaiden tarpeita. Tarkoituksena on tehdä sivusta loogisempi ja selkeämpi, jotta haettava tieto löytyy nopeasti tarpeellisine lisätietoineen.
Jo nyt sivulla on tietoa muun muassa rajapinnoista ja käyttöehdoista. Uusimpana lisäyksenä on datatoivesivu, jossa voi antaa suoraa palautetta koskien THL:n avoimia tietovarantoja. Käykääpä vilkaisemassa!
Lue lisää
Arto Vuoren blogikirjoitus ”Arvokkaiden tietoaineistojen kuvaus lisää niiden käyttöä”