Avoimuus on THL:n tutkimuksen lähtökohta, mutta laatu ei saa jäädä sen jalkoihin

Tutkimuksen ja tiedon avoimuudesta on käyty viime aikoina vilkasta keskustelua.

Kun kansalaisten oikeuksia ja yhteiskunnan toimintaa on epidemiatilanteessa rajoitettu merkittävästi, on ymmärrettävää vaatia tutkimuksen ja tiedon avoimuutta.

Epidemian kehittymis- ja vaikutusmalleja, erityisesti THL:n tutkijoiden tekemiä, on käytetty taustamateriaalina poliittisessa koronaepidemian rajoitustoimia koskevassa päätöksenteossa. Toki on syytä muistaa, että poliittisen päätöksentekijän käytössä on ollut monia muitakin tietolähteitä, malleja, neuvoja ja neuvonantajia.

THL:n tietovarannot ovat avoimesti käytettävissä

THL on sitoutunut tieteen ja tutkimuksen avoimuuteen. Tietovarantomme ovat niitä tarvitsevien käytettävissä niin avoimesti kuin lainsäädäntö ja yksilöiden intimiteetin suojaaminen sallii.

Myös yksilötason tietoon on tutkijoilla pääsy, mutta lainsäädäntömuutoksen vuoksi tutkimuslupia ei enää myönnä THL, vaan tietolupaviranomainen Findata.

Mistä puhumme, kun puhumme lähdekoodista?

Erityinen keskustelu on noussut THL:n koronaepidemian mallinnuksessa käytettyjen epidemiologisten mallien lähdekoodin julkisuudesta.

Minulle on keskustelusta syntynyt käsitys, että kaikki eivät määrittele käsitettä samalla tavalla. Ehkä on hyvä vähän pohtia, mitä lähdekoodilla tarkoitetaan.

Yksi määritelmä löytyy Wikipediasta. Sen mukaan ”lähdekoodilla tarkoitetaan ohjelmoinnissa tietokoneohjelman tekstimuotoista ohjelmointikielistä listausta.” Toisin sanoen lähdekoodi tarkoittaa kieltä, jolla esimerkiksi tilasto-ohjelmisto ”keskustelee” tietokoneen prosessorin kanssa.

Joskus taas lähdekoodilla saatetaan tarkoittaa ohjelman ajojonoa, komentoketjua tai syntaksia – nimitys vaihtelee ohjelmistosta riippuen. Tämä merkitsee kieltä, jolla tilastojen tutkija ”keskustelee” tilasto-ohjelman kanssa.

Tilastotieteellistä tutkimusta tekevät tutkijat tarvitsevat harvoin Wikipedian tarkoittamaa lähdekoodia – sen sijaan syntaksia tarvitaan näissä tutkimuksissa aina.

Keskustelussa lähdekoodin avoimuudesta on ymmärtääkseni kyse nimenomaan syntaksin avoimuudesta. Siksi puhun tässä blogissa erityisesti syntaksista.

Keskeneräistä ei ole tapana julkaista

Syntaksia syntyy aina, kun tilasto-ohjelmistoa komennetaan tekemään datan järjestely- tai laskutoimituksia. Tosiasiassa valtaosa syntaksista syntyy siinä vaiheessa, jossa yhdistetään aineistoja ja muotoillaan tai luokitellaan tutkimukseen tarvittavia ja soveltuvia muuttujia.

Jotta esimerkiksi kansallisista rekisteritiedoista saadaan tutkimukseen soveltuva aineisto, tarvitaan mittavaa valmistelutyötä. Valmistelutyöstä kertyvä syntaksi voi olla huomattavan pitkä.

Varsinainen mallin laskennan määräävä osa syntaksissa puolestaan voi olla hyvin lyhyt, ehkä jopa vain yksi rivi.

Tutkijat muotoilevat syntaksia siihen saakka, kunnes tutkimustulos raportoidaan tieteellisellä foorumilla.

On aivan tavallista, että vielä raportoitavaksi lähetetyn artikkeliluonnoksen vertaisarvioijat tieteellisissä lehdissä ehdottavat tilastollisten mallien kehittämistä ennen artikkelin julkaisemista. Samalla se tarkoittaa syntaksin uudistamista.

Tieteen ja tutkimuksen avoimuuden näkökulmasta on vaikea ymmärtää vaatimuksia siitä, että tutkimuksen analyysivaiheessa kehitteillä olevat mallit ja niihin liittyvät syntaksit myös olisivat julkisia. Keskeneräisiä töitä kun ei ole tapana julkaista.

Miten soveltaa avoimuusjulistusta käytännön työssä?

Suomessa ymmärtääkseni kaikki tieteellistä tutkimusta harjoittavat tahot ovat allekirjoittaneet julistuksen tieteen ja tutkimuksen avoimuudesta, niin myös THL. Tuntuu siltä, että julistuksen soveltamista käytännön työhön olisi hyvä pohtia yhdessä muiden tutkimusinstanssien kanssa.

Olemmeko kaikki yhdessä sitä mieltä ja haluammeko sitoutua siihen, että välivaiheiden keskeneräisiä syntakseja julkaistaan?

Epäilen, että tutkijat eivät ole tällaiseen valmiita muun muassa siksi, että tieteelliset julkaisusarjat eivät julkaise jo aiemmin muualla julkaistuja tuloksia.

Ratkaista pitäisi myös, julkaistaanko syntaksista kaikki varsinaiseen tilastolliseen analyysiin tarvittavat aineiston rakennusosatkin vai pelkästään varsinaisen mallin syntaksi.

Aineistojen muodostaminen ja muokkaaminen edellyttää mittavaa tietämystä aineistojen ominaisuuksista, ja tutkimuskysymysten ratkaiseminen vaatii tutkijalta syvällistä osaamista. Paras palkkio tutkijan työstä tulee useimmiten hyvän julkaisun muodossa.

Mallinnus on toistettavissa jo julkaistuilla tiedoilla

Keskustelussa lähdekoodin julkaisemisesta on tieteen avoimuuden lisäksi käytetty perusteluna myös poliittisen päätöksenteon avoimuutta. Määrittelemättä on kuitenkin jäänyt, mitä tarkalleen ottaen vaaditaan.

Kaikki THL:n epidemiologisten COVID-19-ennustemallien muodostamiseen tarvittavat tiedot ovat kenen hyvänsä käytettävissä jo nyt. Mallien keskeiset oletukset, matemaattinen rakenne, lasketut parametrit ja niin edelleen on julkaistu. Niiden perusteella kuka hyvänsä voi toistaa tutkimuksen ja varmentaa osaltaan epidemiaan liittyvien ennusteiden luotettavuutta.

Mallien käyttämiä yksilötason aineistoja emme lainsäädännön turvaaman tietosuojan vuoksi voi tietenkään julkaista, mutta nekin ovat tutkijoiden saatavissa.

Oma kysymyksensä on, minkä mallien syntaksien julkistamisesta edes olisi hyötyä.

Epidemian kehittyessä mallintajat ovat kehittäneet suuren joukon malleja. Aluksi mallit perustuivat ulkomailta saatuun tietoon; nyt käytetään suurelta osin oman maan aineistoja.

Jokaisessa mallissa on luonnollisesti omat erilaiset syntaksinsa. Niitä on muutettava kun uusia rajoituksia epidemian vuoksi asetetaan tai puretaan, koska ennusteisiin vaikuttavat asioiden tilat muuttuvat samalla. Esimerkiksi kesäkuun aikana tilanteet ovat muuttuneet useita kertoja – ja ennustemallien syntaksit samalla.

Laadukkaasta tutkimuksesta laadukasta tietoa päättäjille

Mielestäni on viisainta, että noudatamme tutkimuksen laadun arvioinnissa vakiintuneita tieteellisiä menettelyjä, kuten vertaisarviointia.

Tutkimuksen hyvä laatu varmistaa myös päätöksenteon tarvitseman tiedon hyvän laadun.

Sen vuoksi tutkimusyhteisöt, kuten THL, julkaisevat kaikki tieteelliset raporttinsa mahdollisimman korkeatasoisissa vertaisarvioiduissa julkaisusarjoissa. Julkaisun jälkeen myös syntaksi tulee julkiseksi.

Tiede kehittyy kumulatiivisesti, ja myös THL:n COVID-19-mallinnuksen menetelmiä ja tilastollisia lähestymistapoja ja niiden soveltuvuutta muuttuvaan tilanteeseen ja aineistoon arvioidaan jatkuvasti.

Myös lähdekoodit – tässä siis syntaksit – voivat muuttua nopeastikin. Julkisia niistä tulee sitten, kun niiden laatu on hyväksi havaittu.