4 Näin alkuun datan avaamisessa
Oppimistavoitteet: Tutustumme datan avaamisen vaiheisiin, joiden yksityiskohtia syvennetään seuraavissa luvuissa.
Aineistoa täydentävä ja vapaaehtoisesti katsottavissa oleva puheenvuoro vuoden 2014 Avoin julkishallinnon data -mestarikurssilta.
Antti Poikola: Datan avaamisen prosessi from Open Knowledge Finland on Vimeo.
Valtion tasolla datan avaaminen on useissa maissa nopeutunut merkittävästi, kun riittävän vakuuttava taho, kuten presidentti tai pääministeri, on esittänyt julkilausuman, joka tukee hallinnon läpinäkyvyyden kehitystä ja avoimen datan politiikkaa. Tämän jälkeen rakennetaan avoimen datan portaalit sekä kehitetään ja aktivoidaan avoimen datan yhteisöjä, kilpailuja ja ryhmiä edistämään avoimen datan liikettä. Ennen korkean tason julkilausumia ovat kuitenkin yksittäiset edelläkävijäorganisaatiot jo tehneet työtä datan avaamisen eteen ja luoneet pohjaa yleisen linjauksen toteutumiselle.
Organisaation tietojärjestelmäluettelo auttaa alkuun datan avaamisessa. Suomessa julkisuuslaki edellyttää ylläpitämään kuvauksia kaikista käytössä olevista tietojärjestelmistä. Useimmiten tiedot on koottu tietojärjestelmäluetteloksi joko virastoittain tai kunnan tasolla. Kun tiedetään, mitä tietojärjestelmiä organisaatiossa on, tiedetään myös, missä järjestelmissä dataa tuotetaan ja ylläpidetään.
Datan avaaminen organisaatiossa on yhteinen oppimismatka. Se on syklinen prosessi, joka ei pääty datan avaamiseen vaan etenee jatkuvana oppimisprosessina; kierros kierrokselta asioita tehdään yhä paremmin, kenties eri kierroksilla eri tavoin. Syklinen prosessi muodostuu seuraavista vaiheista:
- Avattavan aineiston valitseminen
- Datan valmistelu avaamista varten
- Datan julkaisu
- Tiedottaminen ja datan päivittäminen
- Dokumentointi
- Uuden avattavan aineiston valitseminen, jne.
KUVATEKSTI: Datan avaaminen on syklinen prosessi, joka toistuu jokaisen tietoaineiston kohdalla.
Kukin näistä työvaiheista kuvataan seuraavassa tarkemmin. Datan avaamisprosessia kannattaa jatkuvasti dokumentoida, jotta se voidaan myöhemmin vakinaistaa osaksi organisaation toimintakulttuuria.
Avattavan aineiston valitseminen
Ensin kartoitetaan organisaation tietoaineistot yhdessä ja ryhmitellään ne avattuihin, avattavissa oleviin, lisäselvitystä vaativiin ja salassa pidettäviin.
Avattavissa olevat ja salassapidettävät tiedot saattavat olla organisaation tietojärjestelmissä sekaisin. Avaajan pitää huolehtia siitä, että yksityisyyden suojaa rikkovia aineistoja ei julkaista edes vahingossa. Yksityisyyden suojasta kerrotaan lisää luvussa 8, Lait ja säädökset.
Jos aluksi vaikuttaa siltä, että organisaation kaikki tietoaineistot ovat salassa pidettäviä, niin niihin syventymällä löydetään yleensä aineistoja, jotka ovat turvallisesti avattavissa. Tarvittaessa aineistoa aggregoidaan riittävästi niin, että henkilötiedot poistetaan eikä yksilöitä voida enää tunnistaa.
Hyvä aloitustapa on julkaista luettelo kaikista organisaation tietojärjestelmistä ja olemassa olevista tietovarannoista. Tämän rekisterin voi ainakin julkaista avoimena datana, vaikka kaikki tietovarannot eivät olisikaan julkaistavissa.
Jokaisesta avatusta aineistosta ilmoitetaan nimi, lyhyt kuvaus sen sisällöstä sekä tieto aineiston nykyisestä avoimuudesta ja käytettävyydestä.
Dataa avaavan organisaation kannattaa alusta asti viestiä mahdollisten hyödyntäjien ja avoimen datan yhteisön kanssa. Näin avaaja saa tietää, millaisille tietovarannoille olisi kysyntää, ja avoimen datan yhteisö saa helposti tiedon avatuista tietovarannoista.
Datan valmistelu avaamista varten
Aina tietoaineistoja ei voida avata sellaisinaan vaan niitä pitää valmistella ja parannella. Ne esitetään jossakin koneluettavassa formaatissa (esimerkiksi CSV, TSV, XML ja TDP). Tietoaineistot tarkistetaan ja mahdolliset virheet korjataan, jotta julkaistavat aineistot olisivat niin siistejä kuin mahdollista.
Tietoaineistoihin lisätään metatietoja, jotka kuvailevat avattua dataa niin, että sitä ei vahingossa tulkita tai käytetä väärin. Hyvät kuvailutiedot auttavat datan hyödyntäjiä ja antavat heille varmuuden siitä, että data on aitoa ja oikean organisaation tuottamaa.
Ennen julkaisua valitaan lisenssi eli käyttölupa, jolla muille annetaan käyttöoikeus dataan. Joulukuussa 2014 hyväksytyn JHS-suosituksen mukaan Suomen julkishallinnon tietoaineistot tulisi avata CC BY -lisenssillä, jonka mukaan datan omistaja pitää mainita käytön yhteydessä. Vaihtoehtoisesti dataa voi avata lisenssillä CC0, jolloin datan jatkokäytölle ei aseteta minkäänlaisia ehtoja. CC0 suositellaan käytettäväksi erityisesti metadatan yhteydessä.
Datan muodoista kerrotaan lisää luvussa 5, Erilaiset datan muodot ja lisensseistä luvussa 7, Lisensointi.
Datan julkaisu
Yleensä data julkaistaan organisaation omassa verkkopalvelussa, mutta se voidaan myös julkaista yleisissä datakatalogeissa tai ainakin linkittää niihin. Yleisestä datakatalogista data löydetään helposti, mikä lisää datan hyödyntämisen ja jatkokäytön todennäköisyyttä. Datakatalogeista kerrotaan lisää luvussa 6, Datan julkaisualustat.
Metatiedot julkaistaan datan yhteydessä, ja molempien käyttöehdot ilmoitetaan selkeästi. Näin datan jatkokäyttäjä tietää, mihin ja millä tavoin dataa voidaan hyödyntää ja miten datan omistajaorganisaation tiedot ilmaistaan.
Datan avaajan tarkistuslista (luvun lopussa) tukee systemaattisuutta; sitä käyttäen datan avaaja ei unohda mitään olennaista.
Ison-Britannian Open Data Institute'lla on Open Data Certificate -palvelu, jossa omaan avaukseen voi liittää avoimen datan sertifikaatin. Sertifikaatti määräytyy sen mukaan, miten palvelussa vastataan dataa koskeviin kysymyksiin. Datan avaaja voi käyttää palvelua myös muistilistanaan, sillä siinä on kymmeniä yksityiskohtaisia kysymyksiä, jotka hyvässä avauksessa on otettava huomioon.
Tiedottaminen ja datan päivittäminen
Miten avatusta aineistosta tiedotetaan? Miten sen käyttöä edistetään? Miten kerätään tietoa avauksen vaikutuksista?
Avattu data on parhaimmillaan raaka-ainetta, jota organisaatiot voivat hyödyntää esimerkiksi yhdistämällä sitä omaan dataansa. Sovelluskehittäjät voivat tuottaa datasta kansalaisille hyödyllisiä sovelluksia tai uutta liiketoimintaa ja datajournalistit hyödyntää dataa artikkeleihinsa sekä verkkolehtien kyselyihin ja peleihin. Datan jatkokäyttö ja hyödyntäminen edellyttävät kuitenkin tiedottamista ja vuorovaikutusta datan käyttäjien kanssa. Avauksesta tiedotetaan sekä organisaation sisällä että ulospäin esimerkiksi organisaation nettisivuilla.
Viestintä datasta ja sen jatkokäytöstä alkaa viimeistään siinä vaiheessa, kun aineisto on julkaistu. Mahdollisuuksien mukaan datan käyttäjät ja muu paikallinen avoimen datan yhteisö kannattaa osallistaa jo ennen datan avaamista, jolloin näiden osaamisesta ja kokemuksista on hyötyä organisaatiolle jo datan avaamisen aikana.
Datan metatiedoissa kerrotaan, kuinka usein aineistoa on tarkoitus päivittää. Dokumentoitu ja automatisoitu päivitys varmistavat, että aineisto päivittyy säännöllisin välein tai tarvittaessa, esimerkiksi organisaation tietokannan muuttuessa. Myös datassa havaitut virheet pitää korjata; kun joku huomaa virheen ja ilmoittaa siitä organisaatiolle, korjaa organisaatio virheen ja ilmoittaa korjauksesta datan metatiedoissa.
Avatusta datasta tiedottamisesta ja avoimen datan yhteisöstä voit lukea lisää luvusta 9, Osallistumiskulttuurin edistäminen.
Aineistoa täydentävä ja vapaaehtoisesti katsottavissa oleva puheenvuoro vuoden 2014 Avoin julkishallinnon data -mestarikurssilta.
Johanna Kotipelto: Datan avaamisen dokumentointi ja viestintä from Open Knowledge Finland on Vimeo.
Raportointi ja reflektointi
Datan avausprosessi raportoidaan ja reflektoidaan. Siitä on hyötyä organisaatiolle itselleen, mutta myös muille. Seuraavassa datan avausprosessissa raportti palauttaa mieleen, miten edettiin ja mitä opittiin. Raportti auttaa myös selvittämään sidosryhmille tai uusille työntekijöille, mitä dataa on avattu ja miten.
Mitä raportissa kannattaa kertoa? Mistä voisi olla hyötyä seuraavissa datan avauksissa? Avatun datan tietojen lisäksi raportissa voidaan kertoa kohdatuista ongelmista ja siitä, miten ne ratkaistiin, miten dataa siivottiin ja millaista apua koko prosessiin tarvittiin. Raportissa voidaan myös reflektoida avaamisprosessia ja miettiä, miten se olisi sujunut vielä paremmin.
Raportti kannattaa mahdollisuuksien mukaan julkaista organisaation omassa verkkopalvelussa tai blogissa, jolloin se on kenen tahansa nähtävissä ja lisää organisaation toiminnan läpinäkyvyyttä.
Hyvä esimerkki datan avaamisen raportoinnista ja reflektoinnista on Avaa dataa! -blogi, joka kuvaa kirjoittajan, Verohallinnon Johanna Kotipellon, mukaan "yhden virkamiehen kokemuksia datan avaamisen matkalta".
Datan avaajan tarkistuslista
Seuraavaa luetteloa voidaan käyttää tarkistuslistana datan avaamisessa. Kun organisaatiolla on lukuisia tietoaineistoja, kannattaa tarkistuslista muotoilla taulukoksi, jossa joka rivillä on erillinen tietoaineisto.
Tutustu myös Helsinki Region Infosharen datan avaajan tarkistuslistaan.
Tiivistelmä
Datan avaaminen on syklinen prosessi, joka muodostuu seuraavista vaiheista:
- Avattavan aineiston valitseminen
- Datan valmistelu avaamista varten
- Datan julkaisu
- Tiedottaminen ja datan päivittäminen
- Dokumentointi
- Uuden avattavan aineiston valitseminen