Tutkimuksen ja tiedon avoimuudesta on käyty viime aikoina vilkasta keskustelua.

Kun kansalaisten oikeuksia ja yhteiskunnan toimintaa on epidemiatilanteessa rajoitettu merkittävästi, on ymmärrettävää vaatia tutkimuksen ja tiedon avoimuutta.

Epidemian kehittymis- ja vaikutusmalleja, erityisesti THL:n tutkijoiden tekemiä, on käytetty taustamateriaalina poliittisessa koronaepidemian rajoitustoimia koskevassa päätöksenteossa. Toki on syytä muistaa, että poliittisen päätöksentekijän käytössä on ollut monia muitakin tietolähteitä, malleja, neuvoja ja neuvonantajia.

THL:n tietovarannot ovat avoimesti käytettävissä

THL on sitoutunut tieteen ja tutkimuksen avoimuuteen. Tietovarantomme ovat niitä tarvitsevien käytettävissä niin avoimesti kuin lainsäädäntö ja yksilöiden intimiteetin suojaaminen sallii.

Myös yksilötason tietoon on tutkijoilla pääsy, mutta lainsäädäntömuutoksen vuoksi tutkimuslupia ei enää myönnä THL, vaan tietolupaviranomainen Findata.

Mistä puhumme, kun puhumme lähdekoodista?

Erityinen keskustelu on noussut THL:n koronaepidemian mallinnuksessa käytettyjen epidemiologisten mallien lähdekoodin julkisuudesta.

Minulle on keskustelusta syntynyt käsitys, että kaikki eivät määrittele käsitettä samalla tavalla. Ehkä on hyvä vähän pohtia, mitä lähdekoodilla tarkoitetaan.

Yksi määritelmä löytyy Wikipediasta. Sen mukaan ”lähdekoodilla tarkoitetaan ohjelmoinnissa tietokoneohjelman tekstimuotoista ohjelmointikielistä listausta.” Toisin sanoen lähdekoodi tarkoittaa kieltä, jolla esimerkiksi tilasto-ohjelmisto ”keskustelee” tietokoneen prosessorin kanssa.

Joskus taas lähdekoodilla saatetaan tarkoittaa ohjelman ajojonoa, komentoketjua tai syntaksia – nimitys vaihtelee ohjelmistosta riippuen. Tämä merkitsee kieltä, jolla tilastojen tutkija ”keskustelee” tilasto-ohjelman kanssa.

Tilastotieteellistä tutkimusta tekevät tutkijat tarvitsevat harvoin Wikipedian tarkoittamaa lähdekoodia – sen sijaan syntaksia tarvitaan näissä tutkimuksissa aina.

Keskustelussa lähdekoodin avoimuudesta on ymmärtääkseni kyse nimenomaan syntaksin avoimuudesta. Siksi puhun tässä blogissa erityisesti syntaksista.

Keskeneräistä ei ole tapana julkaista

Syntaksia syntyy aina, kun tilasto-ohjelmistoa komennetaan tekemään datan järjestely- tai laskutoimituksia. Tosiasiassa valtaosa syntaksista syntyy siinä vaiheessa, jossa yhdistetään aineistoja ja muotoillaan tai luokitellaan tutkimukseen tarvittavia ja soveltuvia muuttujia.

Jotta esimerkiksi kansallisista rekisteritiedoista saadaan tutkimukseen soveltuva aineisto, tarvitaan mittavaa valmistelutyötä. Valmistelutyöstä kertyvä syntaksi voi olla huomattavan pitkä.

Varsinainen mallin laskennan määräävä osa syntaksissa puolestaan voi olla hyvin lyhyt, ehkä jopa vain yksi rivi.

Tutkijat muotoilevat syntaksia siihen saakka, kunnes tutkimustulos raportoidaan tieteellisellä foorumilla.

On aivan tavallista, että vielä raportoitavaksi lähetetyn artikkeliluonnoksen vertaisarvioijat tieteellisissä lehdissä ehdottavat tilastollisten mallien kehittämistä ennen artikkelin julkaisemista. Samalla se tarkoittaa syntaksin uudistamista.

Tieteen ja tutkimuksen avoimuuden näkökulmasta on vaikea ymmärtää vaatimuksia siitä, että tutkimuksen analyysivaiheessa kehitteillä olevat mallit ja niihin liittyvät syntaksit myös olisivat julkisia. Keskeneräisiä töitä kun ei ole tapana julkaista.

Miten soveltaa avoimuusjulistusta käytännön työssä?

Suomessa ymmärtääkseni kaikki tieteellistä tutkimusta harjoittavat tahot ovat allekirjoittaneet julistuksen tieteen ja tutkimuksen avoimuudesta, niin myös THL. Tuntuu siltä, että julistuksen soveltamista käytännön työhön olisi hyvä pohtia yhdessä muiden tutkimusinstanssien kanssa.

Olemmeko kaikki yhdessä sitä mieltä ja haluammeko sitoutua siihen, että välivaiheiden keskeneräisiä syntakseja julkaistaan?

Epäilen, että tutkijat eivät ole tällaiseen valmiita muun muassa siksi, että tieteelliset julkaisusarjat eivät julkaise jo aiemmin muualla julkaistuja tuloksia.

Ratkaista pitäisi myös, julkaistaanko syntaksista kaikki varsinaiseen tilastolliseen analyysiin tarvittavat aineiston rakennusosatkin vai pelkästään varsinaisen mallin syntaksi.

Aineistojen muodostaminen ja muokkaaminen edellyttää mittavaa tietämystä aineistojen ominaisuuksista, ja tutkimuskysymysten ratkaiseminen vaatii tutkijalta syvällistä osaamista. Paras palkkio tutkijan työstä tulee useimmiten hyvän julkaisun muodossa.

Mallinnus on toistettavissa jo julkaistuilla tiedoilla

Keskustelussa lähdekoodin julkaisemisesta on tieteen avoimuuden lisäksi käytetty perusteluna myös poliittisen päätöksenteon avoimuutta. Määrittelemättä on kuitenkin jäänyt, mitä tarkalleen ottaen vaaditaan.

Kaikki THL:n epidemiologisten COVID-19-ennustemallien muodostamiseen tarvittavat tiedot ovat kenen hyvänsä käytettävissä jo nyt. Mallien keskeiset oletukset, matemaattinen rakenne, lasketut parametrit ja niin edelleen on julkaistu. Niiden perusteella kuka hyvänsä voi toistaa tutkimuksen ja varmentaa osaltaan epidemiaan liittyvien ennusteiden luotettavuutta.

Mallien käyttämiä yksilötason aineistoja emme lainsäädännön turvaaman tietosuojan vuoksi voi tietenkään julkaista, mutta nekin ovat tutkijoiden saatavissa.

Oma kysymyksensä on, minkä mallien syntaksien julkistamisesta edes olisi hyötyä.

Epidemian kehittyessä mallintajat ovat kehittäneet suuren joukon malleja. Aluksi mallit perustuivat ulkomailta saatuun tietoon; nyt käytetään suurelta osin oman maan aineistoja.

Jokaisessa mallissa on luonnollisesti omat erilaiset syntaksinsa. Niitä on muutettava kun uusia rajoituksia epidemian vuoksi asetetaan tai puretaan, koska ennusteisiin vaikuttavat asioiden tilat muuttuvat samalla. Esimerkiksi kesäkuun aikana tilanteet ovat muuttuneet useita kertoja – ja ennustemallien syntaksit samalla.

Laadukkaasta tutkimuksesta laadukasta tietoa päättäjille

Mielestäni on viisainta, että noudatamme tutkimuksen laadun arvioinnissa vakiintuneita tieteellisiä menettelyjä, kuten vertaisarviointia.

Tutkimuksen hyvä laatu varmistaa myös päätöksenteon tarvitseman tiedon hyvän laadun.

Sen vuoksi tutkimusyhteisöt, kuten THL, julkaisevat kaikki tieteelliset raporttinsa mahdollisimman korkeatasoisissa vertaisarvioiduissa julkaisusarjoissa. Julkaisun jälkeen myös syntaksi tulee julkiseksi.

Tiede kehittyy kumulatiivisesti, ja myös THL:n COVID-19-mallinnuksen menetelmiä ja tilastollisia lähestymistapoja ja niiden soveltuvuutta muuttuvaan tilanteeseen ja aineistoon arvioidaan jatkuvasti.

Myös lähdekoodit – tässä siis syntaksit – voivat muuttua nopeastikin. Julkisia niistä tulee sitten, kun niiden laatu on hyväksi havaittu.

Kommentit

Maikki ho

30.06.2020 20:53

”Joskus taas lähdekoodilla saatetaan tarkoittaa ohjelman ajojonoa, komentoketjua tai syntaksia – nimitys vaihtelee ohjelmistosta riippuen.”

Tämä väite vaatii lähteitä, koska se on täysin ristiriidassa tiedonkäsittelyn tutkimuksen kanssa. Nyt näyttää siltä, että THL on itse keksinyt käsitteelle täysin oman määritelmän.

”Tieteen ja tutkimuksen avoimuuden näkökulmasta on vaikea ymmärtää vaatimuksia siitä, että tutkimuksen analyysivaiheessa kehitteillä olevat mallit ja niihin liittyvät syntaksit myös olisivat julkisia.”

Mm. avoimen datan direktiivi lähtee tästä periaatteesta.

Marko Grönroos

30.06.2020 17:30

Ihmettelin pitkään, mitä Rissanen tarkoittaa ”syntaksilla”, joka tavallisesti tarkoittaa ohjelmointikielen kielioppia. Eri ohjelmointikielillä on eri syntaksi – juuri tämä tekee niistä eri kieliä.

Rissanen mainitsee tekstissä tilasto-ohjelmistot ja terveystaloustieteen professorina hän epäilemättä onkin paljon käyttänyt niitä. Arvaisinkin, että Rissasen ”syntaksi”-sana tulee sellaisesta kuin ”SPSS Syntax”, joka on SPSS-tilasto-ohjelmiston sisäinen ohjelmointikieli (kielen nimi kirjoitetaan itse asiassa erikoisesti pienellä syntax). Arvaisin, että Rissanen ei ehkä ole tehnyt juuri muuta ohjelmointia kuin SPSS:n Syntax-kielellä, jolloin kutsuu kaikkia ohjelmia ”syntakseiksi”.

Hän ei siis kutsu vain tiettyä ohjelmointikieltä syntaksiksi, vaan sillä tehtyjä ohjelmia syntakseiksi. Vähän sama kuin kutsuisi ruokareseptejä ruotseiksi, koska ainoa oma reseptikirja on ruotsinkielinen.

Sitä, miten näiden ”syntaksien” eli Syntax-ohjelmien lähdekoodi ei olisi lähdekoodia, on vielä vaikeampi ymmärtää, paitsi jos Rissasella on mennyt termit vielä pahemmin sekaisin. Hänen lähdekoodin määritelmänsä ”kieli jolla ohjelmisto keskustelee prosessorin kanssa” viittaa ennemmin konekoodiin. Lähdekoodi siis usein, riippuen ohjelmointikielestä, käännetään konekoodiksi ja ovat siis kaksi aivan eri asiaa, toistensa vastakohdat. Lähdekoodi siis tarkoittaa ihmisen tuottamaa ja ymmärtämää tekstimuotoista koodia, joka on numeerisen konekoodin ”lähde”. (Huom. SPSS Syntax -ohjelmat ovat tulkattavia eli niitä ei käännetä konekoodiksi.)

Mikäli olen oikeassa, Rissanen itse tuskin ymmärtää, kuinka ymmärtämätön hän on ohjelmistotekniikasta. Dunning-Kruger-ilmiötä pahimmillaan! Harvempi kotiepidemiologikaan kirjoittaa noin noloja.

Kyse on siis vasta-alkajasta, joka yrittää selittää maallikoille teknistä asiaa ymmärtämättä sitä itse alkuunkaan.

Tämänkin pohjalta on hyvä kysyä, mikä on se ammattitaito, jolla THL:ltä odotettua asiantuntijuutta koronaepidemiasta tuotetaan? Kuka vielä ihmettelee, miksi niin monet ovat olleet epäuskoisia THL:n johtajien omituisista lausumista?

Pekka Tarvainen

30.06.2020 14:35

En olisi uskonut, että THL voi menettää uskottavuuttaan vielä enemmän kaikkien pieleen menneiden ennusteiden jälkeen, mutta niin vain tapahtuu tämänkin selityksen myötä.

Vertaisarviointia ei voi tehdä julkaisemattomasta materiaalista, eikä päätöksentekoa tue mitenkään kuukausia tai vuosia jälkeenpäin tehty vertaisarviointi. Laadukkuus on se mikä se on päätöksentekohetkellä, mutta se ei ole mikään peruste olla noudattamatta avoimmuusperiaatetta.

Julkaiskaa ne lähdekoodit.

Ihmettelen itselleni täysin uutta tapaa käyttää syntaksi-sanaa. Sehän tarkoittaa ohjelmointikielen sääntöjä komennon kirjoittamisen suhteen, kuten tuleeko valinnaiset määreet tavuviivalla vai jollain muulla välimerkillä ja mihin väliin, että komento toimisi kuten tarkoitettu.

No, en kiellä etteikö syntaksi-sanan käyttötapaa voisi uudistaa, niinhän kieli kehittyy.

Tämä ei kuitenkaan ole oikea rako, koska se lähinnä antaa kuvan, että pyritte hämmentämään käyttämällä epämääräistä sanaa, jonka merkitys ei liene kansan syville riveille tuttu.

Haluaisin toki itsekin tietää, millainen on syntaksi joka muuttuu. Oppia voi aina uutta.

Antero Kulju

30.06.2020 11:15

Tämä on paljolti puhdasta sivuasiaa, suoranaista höpötystä, kun tarkastellaan päätöksenteon avoimuutta. Kun päätöksen teoksi on annettu suositus, sen suosituksen perusteet ovat avointa tietoa. Kun suositus syntyy mallinnuksesta, mallinnus on avointa tietoa. Kun suositetaan vajaan mallinnuksen pohjalta, on vajaa mallinnus avointa tietoa. Kun on useita suosituksia, joiden välillä vajaa mallinnus on muuttunut, on jokaisen erillisen suosituksen taustalla oleva vajaan mallinnuksen vaihe erillistä avointa tietoa.

Tekstissä käytetyt perusteet liittyvät mahdollisesti uuden tiedon vapaaseen kehitykseen vaikkapa yliopistoissa, eivät päätöksen teon tukemiseen. Kun suositus on annettu, on se viimeistään sillä samalla sekunnilla julkista tietoa. Tämä ei muutu. Näin ollen ei olisi pitänyt antaa suosituksia keskeneräisen mallinnuksen pohjalta. Tätä vaihtoehtoa ei ollut, eikä siten myöskään ole vaihtoehtoa kuin julkaista.

Olkaa hyvät ja lakatkaa selittely sivujuonteista. Julkaiskaa.

Matti Virtanen

30.06.2020 00:57

Kirjoituksenne halventaa avoimen julkisen hallinnon periaatteita ja osoittaa, että THL:n tutkijat ovat unohtaneet laitoksen viranomaistehtävät.

Julkisen sektorin päätöksenteon näkökulmasta laskelmia tuottava malli on valmis viimeistään silloin, kun sillä tuotetaan aineistoa päätöksenteon tueksi. Tästä näkökulmasta ei ole mitään väliä sillä, kuinka keskeneräinen malli on esimerkiksi jonkin tieteellisen julkaisun näkökulmasta. Mallia voi hinkata mielin määrin sen jälkeen, kun sillä on tuotettu laskelmia päätöksentekijöille, mutta tämä on täysin irrelevanttia päätöksenteon näkökulmasta.

On täysin käsittämätöntä, että käsittelette kirjoituksessanne vain tieteellisen julkaisemisen näkökulmaa ja unohdatte poliittisen päätöksenteon. Kansalaisilla on oikeus saada tietää, mihin laskelmiin ja oletuksiin perusoikeuksia rajoittaneet päätökset ovat perustuneet. Nyt ei voi välttyä tulkinnalta, että THL:n tutkijoiden uratavoitteet ovat menneet laitoksen lakisääteisten tehtävien edelle. On täysin ymmärrettävää, että tutkijat haluavat edetä urallaan ja karttavat siksi mallien julkaisemista, mutta jos tämän polun valitsee, ei voi osallistua päätöksentekoa tukevan tiedon tuottamiseen. Tutkijan ura ja viranomaistehtävät täytyy kyetä erottamaan toisistaan.

Ei myöskään ole THL:n tehtävä arvioida tai kysyä, mihin syntakseja tarvitaan. THL:n tehtävä on kertoa, miten sen päätöksentekijöille tuottama aineisto on syntynyt. Päätöksentekijät ja kansalaiset tekevät itse päätökset siitä, onko tämä tieto heille tarpeellista vai ei.

Lisäksi kirjoituksenne on ristiriitainen. Väitätte, että toistettavuuden näkökulmasta kaikki olennainen tieto on julkaistu. Jos tämä pitäisi paikkaansa, teillä ei olisi mitään syytä olla julkistamatta loppujakin tietoja.

Ossi Mäntylahti

29.06.2020 23:42

Hyvä THL,

Suomen hallitus on tehnyt ennen kaikkea THL:n keräämän datan, laskelmien ja näiden analysointiin käytettyjen algoritmien kannalta erittäin oleellisia päätöksiä. Näihin kuuluu muun muassa täysin poikkeuksellinen valmiuslain käyttöönotto ja monien kansalaisten perustuslain takaamien perusoikeuksien rajoittaminen.

Suomalaisilla on oikeus arvoida jälkikäteen THL:n toimintaa ja sitä, miten hyvin Te olette onnistuneet työssänne. Teidän on ehdottomasti siis julkaistava kaikki laskelmien perusteet, joiden perusteella olette antaneet hallitukselle ja ministeriölle asiantuntijalausuntoja. Näihin kuuluvat aivan ehdottomasti myös ohjelmistojen lähdekoodit.

Erehtyminen on toki inhimillistä. Tämä ei saa kuitenkaan olla esteenä sille, että jäkikäteen arvioidaan minkälaisen tiedon varassa te olette suosituksia antaneet.

Esa Palosaari

29.06.2020 19:39

Kiva, että syntaksit on joskus tarkoitus julkaista. Ymmärsinkö oikein, että ne syntaksit, joiden perusteella on tehty perusoikeuksiin kajoavia päätöksiä, julkaistaan jos ja vain jos ne läpäisevät vertaisarvioinnin tieteellisessä lehdessä? Ja luultavimmin julkaistavat syntaksit muokataan toisenlaisiksi kuin ne olivat päätöksiä tehtäessä?

Olen Suomen kansalainen ja läpinäkyvistä tieteellisistä käytännöistä kiinnostut tutkija. Kommentoin vain paria asiaa.

(1) Jos mallit ja syntaksi kehittyvät siten, ettei niitä ole tarkoituskaan julkaista tieteellisissä lehdissä, mutta niiden pohjalta tehdään päätöksiä, eikö olisi yhteiskunnan edun mukaista julkaista keskeneräiset syntaksit päätöksenteon aikaan, jotta niistä voitaisiin löytää yhdessä virheitä ja kehittää niistä parempia? ”Esimerkiksi kesäkuun aikana tilanteet ovat muuttuneet useita kertoja – ja ennustemallien syntaksit samalla.” Kun syntakseista saadaan lopulta julkaisukelpoisia, on saattanut mennä monta vuotta eikä alkuperäisillä ole mitään tieteellistä merkitystä, mutta syntaksien julkaisu päätöksenteon aikaan voi auttaa kritiikin kautta kehittämään ketterämmin parempia ja virheettömämpiä ennusteita sekä päätöksiä. Parantaa sitä kautta sekä kansalaisten oikeuksien toteutumista että taloudellista tilannetta.

(2) ”Paras palkkio tutkijan työstä tulee useimmiten hyvän julkaisun muodossa.” Tämä näyttää nyt minun silmiini olevan se tärkein syy olla julkaisematta yhteiskunnan kannalta tärkeitä tietoja: yksittäisten tutkijoiden yksityinen urakehitys. Itse en omastani ole nyt niin paljoa välittänyt, mutta otetaan oletukseksi, että se olisi hyvä lähtökohta lainsäädännölle ja -tulkinnalle. Teksti on suurelta osin virheellinen väittäessään, että ”tieteelliset julkaisusarjat eivät julkaise jo aiemmin muualla julkaistuja tuloksia”. Tekstin kirjoittajan omalla alalla eli taloustieteessä on kai tavallista julkaista käsikirjoitus ensin työpaperina ilman vertaisarviointia ja sitten vasta lehdessä (https://econpapers.repec.org/paper/). Tietääkseni myös kaikki fysiikan ja matematiikan lehdet hyväksyvät arXiv.org:ssa julkaissut pre-print -paperit. Tässä lista lehdistä ja kustantamoista julkaisupolitiikkansa mukaan: https://en.wikipedia.org/wiki/List_of_academic_journals_by_preprint_policy. Päinvastoin kuin kirjoittaja väittää, tieteelliset julkaissarjat pääasialliset julkaisevat jo aiemmin muualla kuin vertaisarvioiduissa lehdissä julkaistuja tuloksia.

(3)”Tutkijat muotoilevat syntaksia siihen saakka, kunnes tutkimustulos raportoidaan tieteellisellä foorumilla.” Kannattaako julkaista myös välituloksia ja kehitteillä olevia malleja? On totta, että syntaksin muotoilua tapahtuu, ja on ongelma, jos se ei ole läpinäkyvää! Omalla alallani on ilmeisesti ollut tapana kokeilla erilaisia malleja, kunnes saadaan tilastollisesti merkitseviä tuloksia, joita sitten voidaan julkaista ja esittää totuutena maailmasta. Sitä kutsutaan p-hakkeroinniksi. Julkaisua voi saada vielä paremmaksi keksimällä hypoteesit jälkikäteen siten, että ne muka ennustavat p-hakkeroituja tuloksia. Se on ilmeisesti tuottanut valtavan määrän julkaisuja ja luonut uria, mutta nettohyöty tieteelle ja yhteiskunnalle lienee negatiivinen. Tämän vuoksi on otettu käyttöön julkaistapoja, kuten rekisteröidyt raportit (Registered Reports), missä analyysisyntaksiakin määritellään etukäteen ennen datan hankkimista, jotta voidaan tietää mikä todella oli suunniteltua ja ennustettua ja mikä dataan jälkikäteen sovitettua. Sen vuoksi minä ja jotkut tuntemani tutkijat käyttävät nykyään versionhallintajärjetelmiä kuten git:iä koko syntaksihistorian dokumentoimiseen ja julkaisuun. Uskon että se tekee tutkimuksesta luotettavampaa ja uskottavampaa.

Lisäksi kohtaan (2) liittyen: ’At first glance, going ”open” would seem like a serious career risk — years of work could be for nothing if a competitor uses your work to beat you to publication — but many practitioners of openness say the benefits outweigh those risks. The benefits include increased opportunities for collaboration, more feedback from colleagues, and a greater likelihood that the research will get to the people who can use it. Counterintuitively, practitioners say that being open supports their claims of priority and relieves their anxiety about getting ripped off.’ https://www.sciencemag.org/careers/2010/04/scientists-embrace-openness

×
×
×

Vastaa

Käsitellään kommentteja...

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *