Näin alkuun datan avaamisessa

Oppimistavoitteet: Tutustumme datan avaamisen vaiheisiin, joiden yksityiskohtia syvennetään seuraavissa luvuissa.

Video. Datakoulu 10.4.2014 Johanna Kotipelto: Datan avaus organisaatiossa (45 minuuttia)

Valtion tasolla datan avaaminen on useissa maissa nopeutunut merkittävästi, kun riittävän vakuuttava taho, kuten presidentti tai pääministeri, on esittänyt julkilausuman, joka tukee hallinnon läpinäkyvyyden kehitystä ja avoimen datan politiikkaa. Tämän jälkeen rakennetaan avoimen datan portaalit, joista kansalaiset löytävät avointa dataa, ja kehitetään avoimen datan yhteisöjä, kilpailuja ja ryhmiä edistämään avoimen datan liikettä. Ennen korkean tason julkilausumia ovat kuitenkin yksittäiset edelläkävijäorganisaatiot jo tehneet työtä datan avaamisen eteen ja luoneet pohjaa yleisen linjauksen toteutumiselle.

Datan avaaminen organisaatiossa on yhteinen oppimismatka. Se on syklinen prosessi, joka ei pääty datan avaamiseen vaan etenee jatkuvana oppimisprosessina; kierros kierrokselta asioita tehdään yhä paremmin, kenties eri kierroksilla eri tavoin. Syklinen prosessi muodostuu seuraavista vaiheista:

  • Avattavan aineiston valitseminen

  • Datan valmistelu avaamista varten

  • Datan julkaisu

  • Tiedottaminen ja datan päivittäminen

  • Dokumentointi

  • Uuden avattavan aineiston valitseminen

  • jne.

KUVATEKSTI: Datan avaaminen on syklinen prosessi, joka toistuu jokaisen tietoaineiston kohdalla.

Kukin näistä työvaiheista kuvataan seuraavassa tarkemmin. Datan avaamisprosessia kannattaa jatkuvasti dokumentoida, jotta se voidaan myöhemmin vakinaistaa osaksi organisaation toimintakulttuuria.

Avattavan aineiston valitseminen

Ensin kartoitetaan organisaation tietoaineistot yhdessä ja ryhmitellään ne avattuihin, avattavissa oleviin, lisäselvitystä vaativiin ja salassa pidettäviin.

Avattavissa olevat ja salassapidettävät tiedot saattavat olla organisaation tietojärjestelmissä sekaisin. Avaajan pitää huolehtia siitä, että yksityisyyden suojaa rikkovia aineistoja ei julkaista edes vahingossa. Yksityisyyden suojasta kerrotaan lisää luvussa Lait ja säädökset.

Jos aluksi vaikuttaisi siltä, että organisaation kaikki tietoaineisto olisi salassa pidettävää, niin syventymällä löydetään yleensä aineistoja, joita voidaan avata henkilötietosuojaa vaarantamatta - tarvittaessa aggregoimalla riittävästi niin, ettei yksilöitä voida enää tunnistaa, vaikka aineisto olisi alunperin sisältänytkin henkilötietoa.

Hyvä aloitustapa on julkaista luettelo kaikista organisaation tietojärjestelmistä ja olemassa olevista tietovarannoista. Tämän rekisterin voi ainakin julkaista avoimena datana, vaikka kaikki tietovarannot eivät olisikaan julkaistavissa.

Jokaisesta avatusta aineistosta ilmoitetaan nimi, lyhyt kuvaus sen sisällöstä sekä tieto aineiston nykyisestä avoimuudesta ja käytettävyydestä.

Dataa avaavan organisaation kannattaa alusta asti viestiä mahdollisten hyödyntäjien ja avoimen datan yhteisön kanssa. Näin avaaja saa tietää, millaisille tietovarannoille olisi kysyntää, ja avoimen datan yhteisö saa tiedon avatuista tietovarannoista ja voi hyödyntää niitä.

Datan valmistelu avaamista varten

Aina tietoaineistoja ei voida avata sellaisinaan vaan niitä pitää valmistella ja parannella. Ne esitetään jossakin koneluettavassa formaatissa, joita nykyään ovat CSV, TSV, XML ja TDP. Tietoaineistot tarkistetaan ja mahdolliset virheet korjataan, jotta julkaistavat aineistot olisivat niin siistejä kuin mahdollista.

Tietoaineistoihin lisätään metatietoja, jotka kuvailevat avattua dataa niin, että sitä ei vahingossa tulkita tai käytetä väärin. Hyvät kuvailutiedot auttavat datan hyödyntäjiä ja antavat heille varmuuden siitä, että data on aitoa ja oikean organisaation tuottamaa.

Ennen julkaisua valitaan lisenssi eli käyttölupa, jolla muille annetaan käyttöoikeus dataan. Datan omistaja pitää mainita, mutta muuten avoimen datan käyttöä ei saa rajoittaa. Sopiva lisenssi on yleensä Creative Commons -lisenssi CC BY 4.0.

Datan muodoista kerrotaan lisää luvussa Datan erilaiset muodot ja lisensseistä luvussa Lisensointi.

Datan julkaisu

Yleensä data julkaistaan organisaation omassa verkkopalvelussa, mutta se voidaan myös julkaista yleisissä datakatalogeissa tai ainakin linkittää niihin. Yleisestä datakatalogista data löydetään helposti, mikä lisää datan hyödyntämisen ja jatkokäytön todennäköisyyttä. Datakatalogeista kerrotaan lisää luvussa Datan julkaisualustat.

Metatiedot julkaistaan datan yhteydessä, ja molempien käyttöehdot ilmoitetaan selkeästi. Näin datan jatkokäyttäjä tietää, mihin ja millä tavoin dataa voidaan hyödyntää ja miten datan omistajaorganisaation tiedot ilmaistaan.

Datan avaajan tarkistuslista (katso luvun loppu) tukee systemaattisuutta; sitä käyttäen datan avaaja ei unohda mitään olennaista.

Ison-Britannian Open Data Institute'lla on Open Data Certificate -palvelu, jossa omaan avaukseen voi liittää avoimen datan sertifikaatin. Sertifikaatti määräytyy sen mukaan, miten palvelussa vastataan dataa koskeviin kysymyksiin. Datan avaaja voi käyttää palvelua myös muistilistanaan, sillä siinä on kymmeniä yksityiskohtaisia kysymyksiä, jotka hyvässä avauksessa on otettava huomioon.

Tiedottaminen ja datan päivittäminen

Miten avatusta aineistosta tiedotetaan? Miten sen käyttöä edistetään? Miten kerätään tietoa avauksen vaikutuksista?

Avattu data on parhaimmillaan raaka-ainetta, jota organisaatiot voivat hyödyntää vaikka yhdistämällä sitä omaan dataansa, josta sovelluskehittäjät voivat tuottaa kansalaisille hyödyllisiä sovelluksia tai uutta liiketoimintaa, tai jota datajournalistit voivat jalostaa artikkeleihinsa sekä verkkolehtien kyselyihin ja peleihin. Datan jatkokäyttö ja hyödyntäminen edellyttävät kuitenkin tiedottamista ja vuorovaikutusta datan käyttäjien kanssa. Avauksesta tiedotetaan sekä organisaation sisällä että ulospäin esimerkiksi organisaation nettisivuilla.

Viestintä datasta ja sen jatkokäytöstä alkaa viimeistään siinä vaiheessa, kun aineisto on julkaistu. Mahdollisuuksien mukaan datan käyttäjät ja muu paikallinen avoimen datan yhteisö kannattaa osallistaa jo ennen datan avaamista, jolloin näiden osaamisesta ja kokemuksista on hyötyä organisaatiolle jo datan avaamisessa.

Datan metatiedoissa kerrotaan, kuinka usein aineistoa on tarkoitus päivittää. Dokumentoitu ja automatisoitu päivitys varmistavat, että aineisto päivittyy säännöllisin välein tai tarvittaessa, esim. organisaation tietokannan muuttuessa. Myös datassa havaitut virheet pitää korjata; kun joku huomaa virheen ja ilmoittaa siitä organisaatiolle, tämä korjaa virheen ja ilmoittaa korjauksesta datan metatiedoissa.

Avatusta datasta tiedottamisesta ja avoimen datan yhteisöstä voit lukea lisää luvusta Osallistumiskulttuurin vahvistaminen.

Raportointi ja reflektointi

Datan avausprosessi raportoidaan ja reflektoidaan, mistä on hyötyä organisaatiolle itselleen ja muille. Seuraavassa datan avausprosessissa raportti palauttaa mieleen, miten edettiin ja mitä opittiin. Raportti auttaa myös selvittämään sidosryhmille tai uusille työntekijöille, mitä dataa on avattu ja miten.

Mitä raportissa kannattaa kertoa? Mistä voisi olla hyötyä seuraavissa datan avauksissa? Avatun datan tietojen lisäksi raportissa voidaan kertoa kohdatuista ongelmista ja siitä, miten ne ratkaistiin, miten dataa siivottiin ja millaista apua koko prosessiin tarvittiin. Raportissa voidaan myös reflektoida avaamisprosessia ja miettiä, miten se olisi sujunut vielä paremmin.

Raportti kannattaa mahdollisuuksien mukaan julkaista verkossa esimerkiksi organisaation omassa verkkopalvelussa tai blogissa, jolloin se on kenen tahansa nähtävissä ja lisää organisaation toiminnan läpinäkyvyyttä.

Hyvä esimerkki datan avaamisen raportoinnista ja reflektoinnista on Avaa dataa! -blogi, joka kuvaa kirjoittajan, Verohallinnon Johanna Kotipellon, mukaan "yhden virkamiehen kokemuksia datan avaamisen matkalta".

Datan avaajan tarkistuslista

Dataa avatessa voidaan käyttää seuraavaa luetteloa tarkistuslistana. Kun organisaatiolla on lukuisia tietoaineistoja, kannattaa tämä muotoilla taulukoksi, jossa joka rivillä on erillinen tietoaineisto.

  1. Tietoaineiston nimi

  2. Tietoaineiston lyhyt kuvaus

  3. Onko data julkaistavissa eli avattavissa?

  4. Voidaanko data julkaista joidenkin muutosten jälkeen?

  5. Mitä tietoaineiston avaamisella tavoitellaan?

  6. Valittu avoin lisenssi

  7. Valittu avoin ja koneluettava dataformaatti

  8. Datan laatu on tarkistettu, data siivottu ja virheet korjattu mahdollisuuksien mukaan

  9. Yksityiskohtainen datan kuvaus yhteystiedoilla tehty hyödyntäjiä varten

  10. Datan ensisijainen sijoituspaikka

  11. Muita valittuja metadatan sijoituspaikkoja

  12. Datan päivityksen aikataulu suunniteltu

  13. Datan viestintä avaamisen jälkeen suunniteltu

  14. Data julkaistu

Tutustu myös Helsinki Region Infosharen datan avaajan tarkistuslistaan.

Tiivistelmä

Datan avaaminen on syklinen prosessi, joka muodostuu seuraavista vaiheista:

  • Avattavan aineiston valitseminen

  • Datan valmistelu avaamista varten

  • Datan julkaisu

  • Tiedottaminen ja datan päivittäminen

  • Dokumentointi

  • Uuden avattavan aineiston valitseminen

  • jne.

Tehtävä

Tehtävä 8. Suunnitelma datan avaamiseksi


Comments

comments powered by Disqus