Mitä on avoin data?
Oppimistavoitteet: Tässä luvussa tutustumme aihealueen alkeisiin ja peruskäsitteisiin kuten dataan ja avoimeen dataan, metadataan, linkitettyyn dataan ja avoimen datan laatuun. Näiden peruskäsitteiden pitää olla selkeitä ennen seuraavia moduuleita.
Mitä data on?
Datalla tarkoitetaan digitaalisesti tallennettua merkeistä ja symboleista koostuvaa sekä koneellisesti luettavissa olevaa informaatiota, joka voi muodostaa esimerkiksi dokumentteja, tietokantoja, kuulemisten transkripteja sekä audiotallenteita. Se voidaan ymmärtää raaka-aineena, jota jalostamalla syntyy merkityksellistä informaatiota. (Lisätietoja: Infogineering: The Differences Between Data, Information and Knowledge.)
KUVA: venn-diagrammi tai käsitekaavio keskeisistä käsitteistä: data, avoin data, tietoaineisto, tietovaranto, datakatalogi, dataportaali
Datan ja informaation ero ei aina ole selkeä: käsitelty, "jalostettu" data voi jollekin toiselle olla edelleen hyödynnettävää raakadataa. Informaatiosta muodostuu tulkinnan ja merkityksenannon seurauksena tietoa, joka muuttaa vastaanottajan käsityksiä tai ymmärrystä kyseisestä aiheesta.
Avoimen datan määritelmä
Dataa voidaan julkaista, mikäli se ei sisällä yksityisyydensuojan piiriin kuuluvaa henkilötietoa tai muusta syystä arkaluonteista tai salassapidettävää aineistoa kuten liikesalaisuuksia tai kansalliseen turvallisuuteen liittyviä aineistoja.
Kun data julkaistaan uudelleenkäytön sallivalla lisenssillä maksutta ja koneluettavassa muodossa, voidaan puhua avoimesta datasta. Kaikki julkaistavissa oleva data voidaan avata, mutta kaikki verkon kautta julkaistu aineisto ei välttämättä täytä avoimen datan kriteerejä.
Avoin data voidaan määritellä Open Knowledgen ylläpitämän avoimen tiedon määritelmää mukaillen seuraavasti:
-
Avoin data on löydettävissä ja saatavilla Internetistä kokonaisena ja maksutta käyttökelpoisessa ja muokattavassa (siis koneluettavassa) muodossa.
-
Avoin data on kaikkien vapaasti katseltavissa, ladattavissa, kopioitavissa, muokattavissa, jaettavissa ja käytettävissä missä tahansa lainmukaisessa toiminnassa ilman taloudellisia, juridisia, teknisiä, sosiaalisia tai käytännöllisiä rajoitteita.
-
Avoimen datan käyttöehdot ja lisenssit takaavat datan tuottajalle oikeuden tulla asianmukaisesti nimetyksi ja käyttäjälle varmuuden datan alkuperästä. Muunlaisia käyttöä rajoittavia ehtoja ei ole.
Aineistojen kuvailu ja metadatan julkaiseminen
Kaikki julkaistu aineisto on kuvailtava, jotta yleisö tietää, mistä siinä on kyse. Metadata on dataan liitettyä kuvailutietoa, joka selittää, paikallistaa tai muulla tavoin helpottaa informaation hakemista, käyttämistä tai hallinnointia (Lisätietoja: NISO 2004. Understanding Metadata. Bethesda, MD: NISO Press).
Hyödyntäjän näkökulmasta avoin data löytyy netistä eikä ole tilauksesta toimitettua, joten datan luotettavuus ja merkitys on osoitettava. Avoimen datan metatiedot kertovat käyttäjälle, mistä tiedossa on kyse, kuka sen on kerännyt ja julkaissut, mikä sen laatu on, miten sitä saa käyttää ja mitä sitä käytettäessä pitää ottaa huomioon. Mitään dataa ei kannata avata ilman metadataa. Kuvailutieto on tärkeää tietokantojen ja muun datan julkaisussa, koska itse sisältö ei välttämättä ole ymmärrettävissä ilman kuvailutiedoissa kerrottua kontekstia. Esimerkiksi: Minkä vuoden tilastotiedoista on kyse avoimessa datassa?
Kuvailutieto voidaan kirjoittaa määrämuotoisesti sopivia metadatastandardeja käyttäen. Tällöin kuvailutietokin on koneluettavassa muodossa, mikä helpottaa tietojärjestelmien välisiä tiedonsiirtoja ja sisältöjen yhdistämistä sekä parantaa informaation löydettävyyttä niin, että hakukoneet pystyvät etsimään tietoa tarkasti ja monipuolisesti.
Tarvittavat kuvailutiedot riippuvat datan sisällöstä ja luonteesta, mahdollisesti sovellettavista metadatastandardeista sekä organisaation näkemyksistä siitä, mitä avattavasta datasta muidenkin pitäisi tietää. Metadata voi sisältää esimerkiksi dokumentin tai tietoaineiston nimen, omistajan, aihealueen, julkaisupäivämäärän, lisenssin ja versionumeron.
Organisaatioiden tietokannoissa dataan lisätään usein kuvailutietoja, jolloin julkaistava metadata voidaan saada tietojärjestelmästä automaattisesti datan kanssa. Monesti metadataa pitää täydentää ja parannella ennen julkaisua; organisaation järjestelmän kuvailutiedot on laadittu sisäiseen käyttöön, mutta nyt dataa pitää kuvailla ulkopuolisille. Monissa tapauksissa metadatan julkaiseminen on mahdollista ja hyödyllistä sellaisissakin tapauksissa, joissa itse dataa ei voida esimerkiksi tekijänoikeussyistä julkaista.
Linkitetty avoin data
Mitä pidemmälle datan ja sen metadatan rakenne on standardoitu, sitä helpompaa on niiden automaattinen käsittely ja yhdistäminen. Kun metadata standardoidaan riittävän pitkälle, puhutaan linkitetystä datasta (linked data), jossa jokaisella tiedon palasella on oma yksilöllinen osoite sekä sen tietomuoto määriteltynä. Lisätietoja linkitetystä datasta Linked Data - Connect Distributed Data across the Web tai linkitetyn datan julkaisusta How To Publish Linked Data.
Linkitetyn datan avulla sovelluskehittäjät voivat helposti yhdistää tietoja eri lähteistä ja laajoja aineistoja voidaan automaattisesti yhdistellä ja jatkohyödyntää. Yksittäinen datan avaaja huomaa tämän merkityksen viimeistään silloin, kun alalle syntyy tietoaggregaatteja kuten hintavertailupaketteja.
Tietosisältö ja tietojen luokitus julkaistaan linkitettynä datana RDF-muodossa (Resource Description Framework, W3C:n standardoima käsitemalli). Tietokohteet nimetään yksikäsitteisten tunnisteiden (URI, Uniform Resource Identifier) avulla ja asetetaan saataville http-protokollaa käyttäen.
Datan laatu
Datan julkaiseminen avoimessa ja yleisesti tunnetussa tiedostoformaatissa, sekä kattava metadata helpottavat datan jatkokäyttöä ja automaattista hyödyntämistä. World Wide Webin kehittäjä Tim Berners-Lee on kehittänyt avoimen datan laadun arviointimallin kriteereineen. Tässä mallissa avoimeen dataan vaaditaan vähintään kolme viidestä tähdestä.
-
Yhden tähden aineisto on saatavilla verkossa jossain muodossa avoimella lisenssillä. Tiedosto voi olla esimerkiksi PDF-muotoinen tai html-muotoinen ja sitä voi katsella, sen voi ladata ja sitä voi jakaa vapaasti. Esimerkki: Temperature forcast for Galway, Ireland PDF-tiedostona.
-
Kahden tähden aineisto on avoimesti saatavilla rakenteisessa muodossa, tyypillisesti laskentataulukkona, vaikkapa Excel-tiedostona. Esimerkkejä Excel-tiedostoista: Temperature forcast for Galway, Ireland, Kauniaisten lukioiden yhteishaun tulokset ja Helsingin kaupungin tulot ja menot.
-
Kolmen tähden aineisto on avoimella ja koneluettavalla formaatilla julkaistu, esimerkiksi CSV-muodossa tai uudemmassa Linked-CSV-muodossa. Käyttäjän on helppo muokata ja hyödyntää dataa haluamallaan tavalla eikä sen käyttö ole sidottu tiettyihin ohjelmistoihin (toisin kuin esimerkiksi xls-muoto). Esimerkkejä CSV-tiedostoista: Temperature forcast for Galway, Ireland ja Pysäköintivirheet Helsingissä.
-
Neljän tähden aineiston tietoalkioilla on URI (Uniform Resource Identifier), johon voidaan viitata. Tietoaineiston osiin voidaan tällöin linkittää suoraan myös muualta. Esimerkki: Temperature forcast for Galway, Ireland.
-
Viiden tähden aineistossa kaikki tietoalkiot on kytketty johonkin tietomalliin. Tällainen aineisto on linkitettyä dataa ja sen sisältämä tieto voidaan ymmärtää koneellisesti. Se voidaan myös yhdistää mihin tahansa muihin verkossa oleviin tietoaineistoihin, jotka käyttävät samoja malleja. Esimerkkejä: Temperature forcast for Galway, Ireland ja The Linked Open British National Bibliography.
Verkkosivustolle avatun datan yhteyteen voi liittää vakiomuotoisen tähtileiman, joka kertoo, kuinka monen tähden tunnusmerkit data täyttää.
Yllä esitellyn viiden tähden -mallin laajennukseksi on ehdotettu lisäksi vielä kahta tähteä (Hyvönen ym. 2014):
-
Kuuden tähden aineistossa ei voida käyttää itse keksittyjä tietomalleja vaan ainoastaan kunnollisia skeemoja, jotka on julkaistu netissä ja ainakin kevyesti standardoitu. Esimerkki: The British National Bibliography as Linked Open Data.
-
Seitsemän tähden aineistossa tietoaineiston vastaavuus siinä viitattuihin tietomalleihin on koneellisesti varmistettu. Jatkohyödyntäjä voi luottaa siihen, että tietoaineisto on tietomallien mukainen eikä sisällä rakenteisia virheitä.
Esitetyn linkitettyä dataa korostavan laatuluokituksen lisäksi on hyvä ottaa huomioon kullakin alalla yleisesti käytetyt julkaisuformaatit. Esimerkiksi Pohjoismaiden tilastokeskukset julkaisevat tilastonsa yhteisellä formaatilla, jota ei kannata korvata toisella formaatilla, jos tilastokeskusten tietojärjestelmät eivät sitä käsittelisi. Samoin julkisen liikenteen aikataulutietojen julkaisussa kannattanee käyttää yleisiä tiedostoformaatteja kuten GTFS:ää, jota muut alan toimijat jo käyttävät. Tietoaineiston voi toki julkaista useammassa formaatissa, eri kohderyhmien tarpeiden mukaan.
Mihin avointa dataa voidaan käyttää?
Avoin data on koneluettavaa tietoa, usein taulukko- tai rakenteisessa muodossa. Avoimen datan lisäksi eri organisaatiot julkaisevat avointa tietoa kuten kulttuuriaineistoja, valokuvia, avoimia oppiresursseja ja tieteellisiä artikkeleita. Nämä aineistot eivät yleensä ole koneluettavassa muodossa, mutta jos ne ovat avoimesti lisensoituja, niitä voi vapaasti käyttää. Koneluettavaa dataa ja muuta avointa sisältöä voi yhdistää uusissa tuotoksissa.
Avointa dataa voidaan käyttää mm. visualisointeihin, uutisointiin, koulutukseen, tutkimukseen, tuotekehitykseen, prosessien automatisointiin, käyttäjälähtöisiin, yhteistoiminnallisiin tuotantoihin ja yhdistelmäpalveluihin.
Esimerkki: Tukholman Karoliinisen Instituutin professorin Hans Roslingin kehittämä Gapminder murtaa myyttejä havainnollistamalla faktoihin perustuvaa kuvaa maailmasta.
Esimerkkejä avoimen datan käyttötavoista
-
Visualisoinnit
-
Uutisointi
-
Yhdistelmäpalvelut (mashup)
-
ChicagoCrimes, 30 eri kategoriaan luokiteltuja rikoksia alueittain Chicagossa
-
Mapumental-palvelu Britanniassa tarjoaa asuntojen ostajille kartalla visualisoituja työmatka-aikoja ja asuntojen hintoja
-
Tilannehuone.fi, yhdistetty Hälytyskeskuksen tilannetiedotus Google Mapsiin
-
Hilmappi, työ- ja elinkeinoministeriön hankintailmoitukset kartalle
-
-
Koulutus
-
Times Educational Supplement (TES), yli 800 000 Britannian avointa oppiresurssia (opettajat jakavat aineistoja keskenään)
-
Avoimen datan oppilaitosverkosto pohtii eri tapoja tuoda dataa formaaliin opetukseen.
-
-
Käyttäjälähtöiset, yhteistoiminnalliset tuotannot (crowdsourcing, talkoot)
Tiivistelmä
-
Avoin data on koneluettavassa muodossa olevaa, avoimella lisenssillä varustettua tietoa.
-
Metadata kuvailee tietoaineistoja ja on tarpeen niiden löydettävyyden vuoksi.
-
Data voi olla laadukasta tai huonolaatuista. 5 tähden luokittelu (joka voidaan laajentaa 7-tähtiseksi) on eräs tapa kuvata tietoaineiston laatua.
-
Linkitetty data on muodostettu siten, että tietoaineiston yksittäisiin tietoelementteihin voidaan viitata. Linkitetty data mahdollistaa tietoaineistojen yhdistelyn ja käsittelyn.
-
Avointa dataa voidaan käyttää mm. koulutukseen, tutkimukseen, tuotekehitykseen, prosessien automatisointiin, käyttäjälähtöisiin, yhteistoiminnallisiin tuotantoihin ja yhdistelmäpalveluihin.
Tehtävä
Tehtävä 1. Avoin data