6 Datan julkaisualustat
Oppimistavoitteet: Tutustumme erilaisiin tapoihin ja palveluihin, joissa tietoaineistoja ja metadataa voidaan julkaista. Käsittelemme datakatalogin ja dataportaalin eroja sekä tiedostojen ja ohjelmointirajapintojen soveltuvuutta eri tilanteisiin.
KUVATEKSTI: Tietoaineistoille, ohjelmointirajapinnoille ja metadatalle sopivat eri julkaisualustat. Tietoja voidaan julkaista useissa paikoissa, joskin itse datatiedosto kannattaa pitää ensisijaisesti yhdessä paikassa.
Datan avaaminen on yksinkertaisesti ajateltuna tiedoston luomista. Tiedoston luomisen jälkeen pitää valita, mihin se tallennetaan ja missä se julkaistaan. Julkaisualusta riippuu siitä, avataanko yksittäisiä datapaketteja vai luodaanko kokonainen ohjelmointirajapinta.
Datan avaaminen tiedostona
Mikäli tarkoituksena on avata harvoin päivittyvää dataa, riittää sen julkaisemiseksi tiedosto, joka on netissä vapaasti ja maksutta ladattavissa. Esimerkkejä tällaisesta datasta ovat tiedot valtion istuneista presidenteistä hallintokausineen tai tietyn vuoden budjettitiedot.
Linkit yksittäisiin tiedostoihin laitetaan yleensä ainakin avaajan omille verkkosivuille. Mikäli mahdollista kannattaa organisaation nettisivujen hakemistorakennetta muuttaa siten, että avatulle datalle on olemassa oma sivu esimerkiksi "organisaatio.fi/data" tai "data.organisaatio.fi" riippuen hakemistorakenteesta. Nettisivujen hakemistorakenteen tai tiedoston nimen muutos jälkikäteen rikkoo siihen asti käytetyt tiedostoviittaukset. Kannattaa siis miettiä hyvä osoiterakenne etukäteen ja pitäytyä siinä.
Avattava tiedosto kannattaa nimetä alusta asti tarpeeksi informatiivisella tavalla, jotta sitä ei tarvitse jälkeenpäin muuttaa. Ei siis "verotiedot.csv" vaan esimerkiksi “verotiedot_suomi_2014_yksityishenkilot.csv” Tiedoston URL:ää ei pitäisi muuttaa jälkeenpäin. Jos sitä jostain syystä joudutaan muuttamaan, uudesta osoitteesta pitää ilmoittaa tietovarannon yhteydessä.
Organisaation sisällöntuotannossa käytettävä sovellus voi rajoittaa siihen ladattavien tiedostojen kokoja, jolloin suurikokoiset tietoaineistot eivät välttämättä mahdu organisaation omille palvelimille. Ratkaisuna voi olla jonkinlaisen lisäpalvelun ostaminen. Vaihtoehtoisesti organisaation nettisivuille voi laittaa linkin erilliseen dataportaaliin tai muuhun datan sijaintipaikkaan. Jos kaikki organisaation tietoaineistojen tiedot julkaistaan tietyssä dataportaalissa, niin organisaation sivustolla voi olla linkki sinne.
Suuresta tai monimutkaisesta tietoaineistosta voidaan tarjota myös pieni ladattavissa oleva osa, jotta datan hyödyntäjät saavat käsityksen, mistä datassa on kyse ilman, että heidän tarvitsee ladata koko tiedostoa.
Ohjelmointirajapinta eli API
Jatkuvasti päivittyvän datan kuten säädatan avaukselle on hyvä rakentaa ohjelmointirajapinta. Rajapinta eli API (application programming interface) sijoitetaan aina organisaation omalle palvelimelle, koska se ”keskustelee” tietojärjestelmänsä kanssa. Rajapinnasta saatava data on yhtä varmasti ajantasaista kuin tietojärjestelmässä oleva data.
Rajapinnan päälle tai rinnalle on helppo rakentaa sovelluksia, joten se palvelee hyvin sovelluskehittäjiä ja edistää datan hyödyntämistä. Rajapintojen kautta on mahdollista valita vain osa datasta hyödynnettäväksi, kun taas avattu tiedosto pitää ladata kokonaisuudessaan.
Rajapintapalvelun rakentaminen ja ylläpitäminen vaatii enemmän resursseja kuin datan avaaminen tiedostona. Jos rajapinta rakennetaan, pitää miettiä myös organisaation ylläpitovastuuta. Jos organisaatio jossakin vaiheessa vaihtaa rajapintaa tai joutuu esimerkiksi budjettileikkausten takia lakkauttamaan sen, lakkaavat myös kaikki sitä käyttävät sovellukset toimimasta. Rajapinnan muuttuminen tai lakkaaminen voi yllättää sovelluksen laatijan ikävästi, jos sovelluksesta maksaneet asiakkaat haluavat rahansa takaisin ja operaattori veloittaa omankin osuutensa. Ilmaisissa sovelluksissa tämä ei ole ongelma, mutta niillä ei synnytetä liiketoimintaa.
Ladattava datatiedosto ei synnytä tämänkaltaista riippuvuutta datan hyödyntäjän ja avaajaorganisaation välille. Datatiedostoa on myös rajapintaa helpompi muuntaa muuhun formaattiin tai yhdistää muihin datalähteisiin.
Datakatalogit
Mikäli tietoaineisto julkaistaan ainoastaan organisaation omilla verkkosivuilla riskinä on, että kukaan ei sitä sieltä löydä. Jatkokäyttäjän voi olla vaikea löytää esimerkiksi tietoa siitä, onko tietoaineisto päivitetty ja ajan tasalla. Tästä syystä tietoaineiston metadata pitäisi lisätä organisaation omien verkkosivujen lisäksi myös johonkin datakatalogiin.
Mikäli data on julkaistu ensisijaisesti organisaation omilla verkkosivuilla, datakatalogiin lisätään datan metatiedot ja linkki itse dataan. Datan hallinnoijan kannattaa julkaista data aina vain yhdessä paikassa, jolloin sen käyttäjät voivat olla varmoja siitä, että kyseinen data on ajantasainen, eikä siitä ole olemassa useita versioita, joista jotkut voivat olla virheellisiä. Tällöin myös datan omistajalla on vain yksi paikka päivitettävänä, ja datan jatkokäyttöä on helppo seurata.
Dataportaali on hyvä vaihtoehto silloin, kun dataa syystä tai toisesta ei voida laittaa omille verkkosivuille. Tällöin valittuun, yhteen dataportaaliin lisätään myös itse data. Dataportaalit keräävät yhteen aiheesta kiinnostuneita ihmisiä, joten niiden avulla voidaan parantaa datan näkyvyyttä ja löydettävyyttä sekä lisätä keskustelua dataa avaavan organisaation ja datan käyttäjien välillä.
Datakatalogien eräs tärkeä ominaisuus on kommentointimahdollisuus, jossa voidaan antaa palautetta esimerkiksi rikkinäisestä linkistä. Kommentointimahdollisuus olisi hyvä tarjota myös organisaation omilla nettisivuilla.
Katalogeja on monenlaisia. Osa on yleisiä, jonne voidaan viedä erilaista dataa ympäri maailmaa. Jotkut katalogit taas ovat keskittyneet jonkin tietyn aihepiirin ympärille.
Dataa voidaan julkaista esimerkiksi Githubissa, mikäli data-aineiston koko ei ole kovin suuri (useampi gigatavu). Githubia voidaan luonnehtia nörttien Facebookiksi; siellä voidaan jakaa, kommentoida ja muokata koodeja. Github on nykypäivän avoimen lähdekoodin maailman keskus, josta löytyvät kaikki maailman merkittävimmät avoimet lähdekoodit. Datan betajulkaisussa Github toimii hyvin, sillä palvelu osaa automaattisesti esittää mm. CSV-taulukoita ja geodataa visualisoidussa muodossa. Githubin toimintojen avulla muut käyttäjät voivat kommentoida, antaa palautetta tai keskustella esimerkiksi datan käyttökokemuksista. Käyttökulttuuri on ystävällinen ja rohkaiseva.
DataHub on kansainvälinen datakatalogi ja -varasto, josta löytyy data-aineistoja ympäri maailman. Sivusto palvelee sekä dataa avaavia yksilöitä ja organisaatioita että datan hyödyntäjiä datan löytämisessä.
EU:lla on oma dataportaalinsa, joka kokoaa yhteen Euroopan alueen data-aineistoja.
Petri Kola: Github from Open Knowledge Finland on Vimeo.
Metadatan julkaisu
Myös dataa kuvaileva metadata julkaistaan. Metadata julkaistaan ainakin datan yhteydessä yleensä organisaation omalla palvelimella ja verkkosivuilla. Lisäksi on olemassa erilaisia datakatalogeja julkaisua varten.
Metadata kannattaa näkyvyyden ja löydettävyyden edistämiseksi laittaa mahdollisimman moneen paikkaan. Sen yhteyteen laitetaan aina linkki sen kuvailemaan dataan, joka on julkaistu mielellään yhdessä paikassa, jossa sitä myös päivitetään
Suomessa keskeisin metadataluettelo on avoindata.fi. Kulttuuriorganisaatioiden keskeiset yhteiset metadataluettelot ovat Euroopan laajuinen Europeana ja suomalainen Finna. Näissä metadataluetteloissa voidaan julkaista suoraan pieniä tietoaineistoja.
Tiivistelmä
Datatiedostoja, metadataa ja ohjelmointirajapintoja voidaan julkaista organisaation omassa infrastruktuurissa tai ulkoisissa datakatalogeissa tai dataportaaleissa. Paras ratkaisu on harkittava tilannekohtaisesti. Yleensä tietoaineisto kannattaa julkaista yhdessä, mutta sen metadata kaikissa relevanteissa paikoissa.