Datan julkaisualustat

Oppimistavoitteet: Tutustumme erilaisiin tapoihin ja palveluihin, joissa tietoaineistoja ja metadataa voidaan julkaista. Käsittelemme datakatalogin ja dataportaalin erot sekä tiedostojen ja ohjelmointirajapintojen soveltuvuuden eri tilanteisiin.

Video. Datakoulu 27.3.2014 Tove Ørsted: SLS Flickr Commons -Manuaali (16 minuuttia)

Eri julkaisualustojen soveltuvuus eri tilanteisiin.

KUVATEKSTI: Eri julkaisualustat sopivat tietoaineistolle, ohjelmointirajapinnalle ja metadatalle. Tietoja voidaan julkaista useissa paikoissa, joskin itse datatiedosto kannattaa pitää ensisijaisesti yhdessä paikassa.

Datan avaaminen on yksinkertaisesti ajateltuna tiedoston luomista. Tiedoston luomisen jälkeen pitää valita, mihin se tallennetaan ja missä se julkaistaan. Julkaisualusta riippuu jälleen siitä, avataanko yksittäisiä datapaketteja vai luodaanko kokonainen ohjelmointirajapinta.

Datan avaaminen tiedostona

Mikäli tarkoituksena on avata harvoin päivittyvää dataa, riittää sen julkaisemiseksi tiedosto, joka on netissä vapaasti ja maksutta ladattavissa. Esimerkkejä tällaisesta datasta ovat tiedot valtion istuneista presidenteistä hallintokausineen tai tietyn vuoden budjettitiedot.

Linkit yksittäisiin tiedostoihin laitetaan yleensä ainakin avaajan omille verkkosivuille. Mikäli mahdollista kannattaa organisaation nettisivujen hakemistorakennetta muuttaa siten, että avatulle datalle on olemassa oma sivu esimerkiksi organisaatio.fi/data tai data.organisaatio.fi riippuen hakemistorakenteesta. Nettisivujen hakemistorakenteen tai tiedoston nimen muutos jälkikäteen rikkoo siihen asti käytetyt tiedostoviittaukset. Kannattaa siis miettiä hyvä osoiterakenne etukäteen ja pitäytyä siinä.

Avattava tiedosto kannattaa nimetä alusta asti tarpeeksi informatiivisella tavalla, jotta sitä ei tarvitse jälkeenpäin muuttaa. Ei siis "verotiedot.csv" vaan esimerkiksi “verotiedot_suomi_2014_yksityishenkilot.csv” Tiedoston URL:ää ei pitäisi muuttaa jälkeenpäin. Jos sitä jostain syystä joudutaan muuttamaan, uudesta osoitteesta pitää ilmoittaa tietovarannon yhteydessä.

Organisaation sisällöntuotannossa käytettävä sovellus voi rajoittaa siihen ladattavien tiedostojen kokoja, jolloin suurikokoiset tietoaineistot eivät välttämättä mahdu organisaation omille palvelimille. Ratkaisuna voi olla jonkinlaisen lisäpalvelun ostaminen. Vaihtoehtoisesti organisaation nettisivuille voi laittaa linkin erilliseen dataportaaliin tai muuhun datan sijaintipaikkaan. Jos kaikki organisaation tietoaineistojen tiedot julkaistaan tietyssä dataportaalissa, niin organisaation sivustolla voi olla sen linkki.

Suuresta tai monimutkaisesta tietoaineistosta voidaan tarjota myös pieni ladattavissa oleva osa, jotta datan hyödyntäjät saavat käsityksen, mistä datassa on kyse ilman, että heidän tarvitsee ladata koko tiedostoa.

Ohjelmointirajapinta eli API

Avaukselle, joka perustuu jatkuvasti päivittyvälle datalle, kuten esimerkiksi säädatalle, on hyvä rakentaa ohjelmointirajapinta. Rajapinta eli API (application programming interface) tulee aina organisaation omalle serverille, koska se niin sanotusti "juttelee" sen tietojärjestelmän kanssa. Rajapinnasta saatava data on yhtä varmasti ajantasaista kuin tietojärjestelmässä oleva data.

Rajapinnan päälle tai rinnalle on helppo rakentaa erilaisia sovelluksia, joten se palvelee hyvin sovelluskehittäjiä ja edistää datan hyödyntämistä. Rajapintojen kautta on mahdollista valita vain osa datasta hyödynnettäväksi, kun taas avattu tiedosto pitäisi ladata kokonaan.

Rajapintapalvelun rakentaminen ja ylläpitäminen vaatii enemmän resursseja kuin datan avaaminen tiedostona. Mikä on organisaation vastuu rajapinnan ylläpidossa, jos sellainen rakennetaan? Jos organisaatio jossakin vaiheessa päättää vaihtaa rajapintaa tai joutuu esimerkiksi budjettileikkausten takia lakkauttamaan rajapinnan, lakkaavat kaikki sitä käyttävät sovellukset toimimasta?

Rajapinnan muuttuminen tai lakkaaminen voi yllättää sovelluksen laatijan ikävästi, kun sovelluksesta maksaneet asiakkaat haluavat rahansa takaisin ja operaattorikin saattaa veloittaa oman osuutensa. Ilmaisissa sovelluksissa tämä ei ole ongelma, mutta ei niillä suurta liiketoimintaakaan synnytetä.

Ladattava datatiedosto ei synnytä tämänkaltaista riippuvuutta datan hyödyntäjän ja avaajaorganisaation välille. Datatiedostoa on myös rajapintaa helpompi muuntaa muuhun formaattiin tai yhdistää muihin datalähteisiin.

Datakatalogit

Mikäli tietoaineisto julkaistaan ainoastaan organisaation omilla verkkosivuilla on riskinä, että kukaan ei sitä sieltä löydä. Jatkokäyttäjän voi myös olla vaikea löytää tietoa esimerkiksi siitä, onko tietoaineisto päivitetty ja ajan tasalla. Tästä syystä tietoaineiston metadata on hyvä lisätä organisaation omien verkkosivujen lisäksi myös johonkin datakatalogiin.

Mikäli data on julkaistu ensisijaisesti omilla verkkosivuilla, lisätään datakatalogiin linkki dataan sekä sen metatiedot. Datan hallinnoijan kannattaa julkaista data aina vain yhdessä paikassa, jolloin sen käyttäjät voivat olla varmoja siitä, että kyseinen data on ajantasainen, eikä siitä ole olemassa useita versioita, joista jotkut voivat olla virheellisiä. Tällöin myös datan omistajalla on vain yksi paikka päivitettävänä, ja datan jatkokäyttöä on helppo seurata.

Dataportaali on hyvä vaihtoehto tilanteessa, jossa dataa ei syystä tai toisesta voida laittaa omille verkkosivuille. Tällöin valittuun, yhteen dataportaaliin lisätään myös itse data. Dataportaalit keräävät yhteen aiheesta kiinnostuneita ihmisiä, ja niiden avulla voidaan datan näkyvyyttä ja löydettävyyttä parantaa sekä keskustelua organisaation ja käyttäjien välillä lisätä.

Datakatalogien eräänä tärkeänä ominaisuuteena on kommentointimahdollisuus, jossa voidaan antaa palautetta esimerkiksi rikkinäisestä linkistä. Kommentointimahdollisuus olisi hyvä myös organisaation omilla nettisivuilla.

Katalogeja on monenlaisia. Osa on yleisiä, jonne voidaan viedä hyvin erilaista dataa ympäri maailman. Jotkut katalogit taas ovat keskittyneet jonkin tietyn aihepiirin ympärille.

Dataa voi julkaista esimerkiksi Githubissa, mikäli se ei ole kooltaan kovin suurta (useampi gigatavu). Githubia voidaan luonnehtia nörttien Facebookiksi: siellä voi jakaa, kommentoida ja muokata koodeja. Github on nykypäivän avoimen lähdekoodin maailman keskus, josta on löydettävissä kaikki maailman merkittävimmät avoimet lähdekoodit. Github on hyvä työkalu esimerkiksi datan betajulkaisuun. Se ymmärtää esimerkiksi CSV:tä sekä geodataa, joten data on palvelussa hyvin visualisoidussa muodossa. Lisäksi palvelussa on toiminto, jonka avulla muut käyttäjät voivat kommentoida, antaa palautetta tai keskustella esimerkiksi datan käyttökokemuksista. Käyttökulttuuri on ystävällinen ja rohkaiseva.

DataHub on kansainvälinen datakatalogi ja -varasto, josta löytyy datasetteja ympäri maailman. Sivusto palvelee hyvin sekä dataa avaavia yksilöitä ja organisaatioita että hyödyntäjiä datan löytämisessä.

Kaupungeilla tai valtioilla voi olla omia katalogeja. Valtion ylläpitämään katalogiin on hyvä ja helppo laittaa julkishallinnon avoimet tietoaineistot, ja siellä tietoaineistot ovat myös keskitetysti helposti löydettävissä. Mikäli omassa osavaltiossasi, valtiossasi tai vastaavassa tällaista ei vielä ole, on järkevää julkisesti ehdottaa sellaisen pystyttämistä. Edistävänä voimana voi toimia esimerkiksi jokin julkishallinnon tietohallinnon palveluja tarjoava organisaatio tai osasto. On olemassa vapaita avoimen lähdekoodin ohjelmistoja, joita voidaan helposti hyödyntää katalogin perustamisessa. Esimerkiksi CKAN on monessa valtion katalogissa jo käytössä. Ei siis tarvitse lähteä tyhjästä rakentamaan uutta. Datavarastot ovat datakatalogeja, joihin sijoitetaan metadatan lisäksi itse data tiedostoina.

Myös esimerkiksi Euroopan Unionilla sekä Afrikan mantereella on omat dataportaalinsa, jotka toimivat oman alueensa keskitettyinä datasettien alustoina.

Metadatan julkaisu

Myös dataa kuvaileva metadata julkaistaan. Metadata julkaistaan ainakin itse datan yhteydessä eli monesti siis organisaation omalla palvelimella ja verkkosivuilla. Tämän lisäksi on olemassa erilaisia datakatalogeja, joissa metadatan voi julkaista.

Metadata kannattaa näkyvyyden ja löydettävyyden edistämiseksi laittaa mahdollisimman moneen paikkaan. Sen yhteyteen laitetaan aina linkki sen kuvailemaan dataan, joka on julkaistu mielellään yhdessä paikassa, jossa sitä myös päivitetään

Suomessa keskeisin metadataluettelo on avoindata.fi. Kulttuuriorganisaatioiden puolella keskeiset yhteiset metadataluettelot ovat Euroopan laajuinen Europeana sekä suomalainen Finna. Näissä metadataluetteloissa voi olla mahdollista julkaista suoraan pieniä tietoaineistoja.

Tiivistelmä

Datatiedostoja, metadataa ja ohjelmointirajapintoja voidaan julkaista organisaation omassa infrastruktuurissa tai ulkoisissa datakatalogeissa tai dataportaaleissa. Paras ratkaisu on tilannekohtaisesti harkittava. Yleensä tietoaineisto kannattaa julkaista yhdessä paikassa, mutta sen metadata kaikissa relevanteissa paikoissa.

Tehtävät


Comments

comments powered by Disqus