1 Mitä on avoin data?

Oppimistavoitteet: Tutustumme avoimen datan taustaan ja ensiaskeliin Suomessa, datan avaamisen peruskäsitteisiin kuten dataan, avoimeen dataan, metadataan ja linkitettyyn dataan sekä avoimeen julkishallinnon dataan ja avoimen datan liiketoimintaan liittyviin kysymyksiin.


Aineistoa täydentävä ja vapaaehtoisesti katsottavissa oleva puheenvuoro vuoden 2014 Avoin julkishallinnon data -mestarikurssilta.

Antti Rainio: Datan avaamisen ensiaskeleita Suomessa Case Maanmittauslaitos from Open Knowledge Finland on Vimeo.


Avoimen datan taustaa

Avoimen datan juuret ovat 1980- ja 1990-luvulla syntyneissä vapaita ohjelmistoja ja avointa lähdekoodia edistävissä liikkeissä. Tänä päivänä avoimuus on eräänlainen yhteiskuntaa läpileikkaava megatrendi, joka näyttää vahvistuvan monilla aloilla. Hyvän käsityksen eri näkökulmista avoimuuteen saa kansainvälisen Open Knowledge -verkoston työryhmissä, jotka kokoavat yhteen aiheesta kiinnostuneita eri alojen ja ammattiryhmien edustajia.

Suomessa datan avaaminen alkoi kiihtyä vuonna 2009 Euroopan Unionin PSI-direktiivin (Julkisen sektorin tiedon uudelleenkäytön helpottaminen 2003 ja uudistus 2013) ja etenkin Britannian ja Yhdysvaltojen esimerkkien vauhdittamana. Kansallisen avoimen tiedon politiikan kehittäminen alkoi vuonna 2011, kun Suomen hallitus julkisti periaatepäätöksen julkishallinnon digitaalisten tietoaineistojen saatavuudesta. Sen mukaan:

"tietoaineistojen tulee olla avoimesti saatavilla ja uudelleenkäytettävissä yhtenäisin, selkein ja kaikille tasapuolisin ehdoin, pääsääntöisesti maksutta.”

Tämän jälkeen Kataisen hallitusohjelmaan kirjattiin julkisten tietovarantojen määrätietoinen avaaminen, joka edistää avointa tiedettä ja luo mahdollisuuksia uudenlaiselle yrittäjyydelle ja palveluinnovaatioille.

Ensimmäiset merkittävät kansalliset tietoaineistot avattiin toukokuussa 2012, kun Maanmittauslaitos avasi maastotietojaan. Tätä ennen oli jo avattu lukuisia paikallistason aineistoja muun muassa pääkaupunkiseudulla vuonna 2010 käynnistyneen Helsinki Region Infosharen toimesta. Vuoteen 2016 mennessä valtiollisessa avoindata.fi-katalogissa on avattu yli 1800 julkishallinnollista tietoaineistoa.

Avoimen tiedon aikajana

2003: Euroopan Unionin PSI-direktiivi julkaistaan (=Julkisen sektorin tiedon uudelleenkäytön helpottaminen).

2004: Creative Commons 1.0 -lisenssit sovitetaan Suomen lainsäädäntöön.

2009: Innovaatiokilpailu Apps for Democracy (myöhempinä vuosina Apps4Finland) järjestetään ensimmäistä kertaa. / Mm. Internet-tietosanakirja Wikipediaa sekä avoimia sisältöjä Suomessa edistävä Wikimedia Suomi ry perustetaan.

2010: Liikenne- ja viestintäministeriö julkaisee oppaan Julkinen data – johdatus tietovarantojen avaamiseen. / Helsinki Region Infoshare (HRI) -toiminta käynnistyy.

2011: Valtioneuvosto julkaisee periaatepäätöksen julkishallinnon digitaalisten tietoaineistojen saatavuudesta. / Kataisen hallitusohjelmaan kirjataan julkisten tietovarantojen määrätietoinen avaaminen, joka edistää avointa tiedettä ja luo mahdollisuuksia uudenlaiselle yrittäjyydelle ja palveluinnovaatioille.

2012: Valtionvarainministeriö julkaisee raportin Julkishallinnon tietoluovutusten periaatteet ja käytännöt. / Maanmittauslaitos avaa maastotietojaan toukokuussa 2012. / Kansainvälisen avoimen tiedon yhteisö kokoontuu Helsingissä Open Knowledge Festivalilla syksyllä 2012. / Avoimuutta laajalti yhteiskunnassa edistävä Open Knowledge Finland ry. perustetaan joulukuussa 2012.

2013: Valtiovarainministeriö käynnistää kaksivuotisen avoimen tiedon ohjelman vauhdittamaan julkisen hallinnon tiedon avaamista ja käytön lisäämistä.

2014: Maailmanlaajuisesti yhteensovitettavat Creative Commons 4.0 -lisenssit Suomennetaan ensimmäinenä virallisena käännöksenä maailmassa. / Valtioneuvoston kanslian johdolla järjestetään Avoin Suomi -messut syyskuussa 2014. / Valtion datakatalogi avoindata.fi julkaistaan Avoin Suomi -messuilla.

2015: Apps4Finland-innovaatiokilpailusta tulee Open Finland Challenge, ja osallistuvia töitä ennätykselliset yli 150 viidessä eri kategoriassa.

Mitä data on?

Datalla tarkoitetaan digitaalisesti tallennettua, merkeistä ja symboleista koostuvaa koneellisesti luettavissa olevaa informaatiota, joka voi muodostaa esimerkiksi dokumentteja, tietokantoja, kuulemisten transkripteja ja audiotallenteita. Se voidaan ymmärtää raaka-aineena, jota jalostamalla syntyy merkityksellistä informaatiota. (Lisätietoja: Infogineering: The Differences Between Data, Information and Knowledge.)

Kuva: Käsitekaavio keskeisistä käsitteistä: data (Data), avoin data (Open Data), tietoaineisto (Data set), tietovaranto (Information pool), datakatalogi (Data catalog), dataportaali (Data portal)

Kuva: Käsitekaavio keskeisistä käsitteistä: data (Data), avoin data (Open Data), tietoaineisto (Data set), tietovaranto (Information pool), datakatalogi (Data catalog), dataportaali (Data portal)

Datan ja informaation ero ei aina ole selkeä: käsitelty, "jalostettu" data voi jollekin toiselle olla edelleen hyödynnettävää raakadataa. Kun informaatiota tulkitaan ja sille annetaan merkityksiä, siitä muodostuu tietoa, joka muuttaa vastaanottajan käsityksiä tai ymmärrystä kyseisestä asiasta.

Avoimen datan määritelmä

Dataa voidaan julkaista, mikäli se ei sisällä yksityisyydensuojan piiriin kuuluvaa henkilötietoa tai muusta syystä arkaluonteista tai salassapidettävää aineistoa kuten liikesalaisuuksia tai kansalliseen turvallisuuteen liittyviä aineistoja.

Kun data julkaistaan uudelleenkäytön sallivalla lisenssillä maksutta ja koneluettavassa muodossa, voidaan puhua avoimesta datasta. Kaikki julkaistavissa oleva data voidaan avata, mutta kaikki verkon kautta julkaistu aineisto ei välttämättä täytä avoimen datan kriteerejä.

Avoin data voidaan määritellä Open Knowledgen ylläpitämän avoimen tiedon määritelmää mukaillen seuraavasti:

  • Avoin data on löydettävissä ja saatavilla Internetistä kokonaisena ja maksutta käyttökelpoisessa ja muokattavassa (siis koneluettavassa) muodossa.

  • Avoin data on kaikkien vapaasti katseltavissa, ladattavissa, kopioitavissa, muokattavissa, jaettavissa ja käytettävissä missä tahansa lainmukaisessa toiminnassa ilman taloudellisia, juridisia, teknisiä, sosiaalisia tai käytännöllisiä rajoitteita.

  • Avoimen datan käyttöehdot ja lisenssit takaavat datan tuottajalle tämän halutessa oikeuden tulla asianmukaisesti nimetyksi ja käyttäjälle varmuuden datan alkuperästä. Muunlaisia käyttöä rajoittavia ehtoja ei ole.

Aineistoa kuvaileva metadata

Kaikki julkaistava aineisto on kuvailtava, jotta yleisö tietää, mistä on kyse. Metadata on dataan liitettyä kuvailutietoa, joka selittää, paikallistaa tai muulla tavoin helpottaa informaation hakemista, käyttämistä tai hallinnointia (Lisätietoja: NISO 2004. Understanding Metadata. Bethesda, MD: NISO Press).

Avoin data löytyy netistä eikä ole tilauksesta toimitettua, joten hyödyntäjän näkökulmasta datan luotettavuuden ja merkityksen osoittaminen on tärkeää. Kuvailutieto on tärkeä tietokantojen ja muun datan julkaisussa, koska itse sisältö ei välttämättä ole ymmärrettävissä ilman kuvailutiedoissa kerrottua kontekstia. Avoimen datan metatiedot kertovat käyttäjälle, mistä tiedossa on kyse, minkä aikavälin tiedosta on kyse, kuka sen on kerännyt ja julkaissut, mikä sen laatu on, miten sitä saa käyttää ja mitä sitä käytettäessä pitää ottaa huomioon.

Kuvailutieto voidaan kirjoittaa määrämuotoisesti sopivilla metadatastandardeilla. Tällöin kuvailutietokin on koneluettavassa muodossa, mikä helpottaa tietojärjestelmien välisiä tiedonsiirtoja ja sisältöjen yhdistämistä sekä parantaa informaation löydettävyyttä niin, että hakukoneet pystyvät etsimään tietoa tarkasti ja monipuolisesti.

Tarvittavat kuvailutiedot riippuvat datan sisällöstä ja luonteesta, mahdollisesti sovellettavista metadatastandardeista sekä organisaation näkemyksistä siitä, mitä muidenkin pitäisi tietää avattavasta datasta. Metadata voi sisältää esimerkiksi dokumentin tai tietoaineiston nimen, omistajan, aihealueen, julkaisupäivämäärän, lisenssin ja versionumeron.

Organisaatioiden tietokannoissa dataan lisätään usein kuvailutietoja, jolloin julkaistava metadata voidaan saada tietojärjestelmästä automaattisesti datan kanssa. Monesti metadataa pitää kuitenkin täydentää ja parannella ennen julkaisua. Organisaation järjestelmässä kuvailutiedot on laadittu sisäiseen käyttöön, mutta kun dataa avataan, sitä pitää kuvailla ulkopuolisille. Monissa tapauksissa metadatan julkaiseminen on mahdollista ja hyödyllistä sellaisissakin tapauksissa, joissa itse dataa ei voida esimerkiksi tekijänoikeussyistä julkaista.

Linkitetty avoin data

Mitä pidemmälle datan ja sen metadatan rakenne on standardoitu, sitä helpompaa niiden automaattinen käsittely ja yhdistäminen on. Kun metadata standardoidaan riittävän pitkälle, puhutaan linkitetystä datasta (linked data), jossa jokaisella tiedon palasella on oma yksilöllinen osoite ja määritelty tietomuoto. Lisätietoja linkitetystä datasta: Linked Data - Connect Distributed Data across the Web tai linkitetyn datan julkaisusta How To Publish Linked Data.

Linkitetyn datan avulla sovelluskehittäjät voivat helposti yhdistää tietoja eri lähteistä ja automaattisesti yhdistellä ja jatkohyödyntää laajoja aineistoja. Yksittäinen datan avaaja huomaa tämän merkityksen viimeistään silloin, kun alalle syntyy tietoaggregaatteja kuten hintavertailupaketteja.

Tietosisältö ja tietojen luokitus julkaistaan linkitettynä datana RDF-muodossa (Resource Description Framework, W3C:n standardoima käsitemalli). Tietokohteet nimetään yksikäsitteisten tunnisteiden (URI, Uniform Resource Identifier) avulla ja asetetaan saataville HTTP-protokollalla.

Datan laatu

Datan julkaiseminen avoimessa ja yleisesti tunnetussa tiedostoformaatissa sekä kattava metadata helpottavat datan jatkokäyttöä ja automaattista hyödyntämistä. World Wide Webin kehittäjä Tim Berners-Lee on kehittänyt avoimen datan laadun arviointimallin kriteereineen. Tässä mallissa avoimeen dataan vaaditaan vähintään kolme viidestä tähdestä.

Verkkosivustolle avatun datan yhteyteen voi liittää vakiomuotoisen tähtileiman, joka kertoo, kuinka monen tähden tunnusmerkit data täyttää.

Yllä esitellyn viiden tähden -mallin laajennukseksi on ehdotettu vielä kahta tähteä (Hyvönen ym. 2014):

  • Kuuden tähden aineistossa ei voida käyttää itse keksittyjä tietomalleja vaan ainoastaan kunnollisia skeemoja, jotka on julkaistu netissä ja ainakin kevyesti standardoitu. Esimerkki: The British National Bibliography as Linked Open Data.

  • Seitsemän tähden aineistossa tietoaineiston vastaavuus siinä viitattuihin tietomalleihin on koneellisesti varmistettu. Jatkohyödyntäjä voi luottaa siihen, että tietoaineisto on tietomallien mukainen eikä sisällä rakenteellisia virheitä.

Esitetyn linkitettyä dataa korostavan laatuluokituksen lisäksi on hyvä ottaa huomioon kullakin alalla yleisesti käytetyt julkaisuformaatit. Esimerkiksi Pohjoismaiden tilastokeskukset julkaisevat tilastonsa yhteisellä formaatilla. Sitä ei kannata korvata toisenlaisella, koska tilastokeskusten nykyiset tietojärjestelmät eivät välttämättä osaisi käsitellä toisenlaista formaattia. Samoin julkisen liikenteen aikataulutietojen julkaisussa kannattanee käyttää yleisiä tiedostoformaatteja kuten GTFS:ää, jota muut alan toimijat jo käyttävät. Tietoaineiston voi toki julkaista useassa formaatissa kohderyhmien tarpeiden mukaan.

Avoin julkishallinnon data

Suomen nykyinen julkisuuslainsäädäntö (1999) määrittelee avoimuuden periaatteen, jonka mukaan viranomaisten tiedot ovat lähtökohtaisesti julkisia ja viranomaisilla on aktiivinen tiedottamisvelvoite. Avoimen datan edistäminen voidaan nähdä modernina avoimen hallinnon strategiana.

Julkishallinto kerää toimintansa tueksi verovaroin jatkuvasti valtavia määriä dataa, jonka tulisi olla julkista, ellei osia siitä ole erikseen säädetty salassapidettäviksi. Oikeudenmukaista olisi, että kenellä tahansa olisi pääsy tähän dataan. Kun puhutaan julkishallinnon datan avaamisesta, niin aineiston avoimuutta ja julkisuutta ei pidä sekoittaa keskenään. Avoimella datalla tarkoitetaan aineistoja, jotka ovat kenen tahansa uudelleen käytettävissä ilman teknisiä, juridisia tai taloudellisia esteitä. Lainsäädännön mukaan julkisella datalla tarkoitetaan puolestaan sellaisia aineistoja, jotka eivät kuulu yksityisyydensuojan piiriin (esimerkiksi henkilörekisterit kuuluvat) tai ole muusta syystä laissa arkaluontoisiksi tulkittavia (esimerkki arkaluontoisesta aineistoista ovat kansalliseen turvallisuuteen liittyvät aineistot). Luonnollisesti aineisto, joka ei ole julkista, ei voi myöskään olla avointa.

Nykyisin julkishallinnollisilla organisaatioilla on paljon julkisuuslain mukaista julkista aineistoa, joka ei kuitenkaan vielä ole avointa. Data saattaa olla organisaatioiden omissa tietokannoissa vaikeasti löydettävissä tai saavutettavissa. Kansalaiset pääsevät tällaisiin aineistoihin käsiksi ainoastaan vierailemalla asianomaisen viraston konttorissa tai lähettämällä tietopyynnön. Datan julkaiseminen verkossa ja sen avaaminen helpottavat datan saavutettavuutta ja parantavat kansalaisten mahdollisuuksia selata ja hyödyntää sitä.

Avoimen datan lajeja

KUVA: Avointa dataa (sininen) on muuallakin kuin julkishallinnossa, esimerkiksi Wikipediassa. Hallinnossa syntyy paljon dataa (harmaa), josta suuri osa on julkisuuslain mukaisesti julkista, mutta ei kuitenkaan vielä avointa (vihreä) niin, että se olisi saatavilla verkossa koneluettavassa muodossa avoimesti lisensoituna. Julkishallinnon datan avaaminen pyrkii siihen, että mahdollisimman suuri osa julkisesta datasta olisi myös avointa (tumman sininen) niin, että sen käyttö olisi mahdollisimman helppoa ja vaivatonta.'

Julkishallinnossa avoimen datan ajattelutapa liittyy jälkiteollisten demokraattisten yhteiskuntien kehitykseen, jossa hallinnon tuottamaa dataa luovutetaan yhä enemmän avoimesti kaikkien käytettäväksi ja julkisia palveluja rakennetaan digitaalisille alustoille. Julkishallinnon avoin data jatkaa tiedon vapauden ja julkisuuslainsäädännön (Freedom Of Information Law) viitoittamaa tietä. Julkisuuslaki tarkoittaa, että kenellä tahansa on halutessaan oikeus päästä käsiksi julkishallinnon dataan. Kansalaista voivat kiinnostaa esimerkiksi verovarojen käyttökohteet, työllistymismahdollisuudet alueittain tai kotikaupungin ilmanlaatu.

Avoimen datan tavoitteet ovat kuitenkin julkisuuslainsäädännön lähtökohtia laajemmat ja painotukset voivat vaihdella paljon. Datan avaamista perustellaan muun muassa hallinnon läpinäkyvyydellä, tilivelvollisuudella ja korruption ehkäisyllä, julkisten organisaatioiden toiminnan tehostamisella, liiketoiminnan tukemisella sekä mahdollisuudella nykyistä parempiin päätöksiin niin ihmisten arjessa kuin yrityksissäkin. Mikäli tieto ymmärretään poliittisena oikeutena, voidaan julkishallinnon datan avaamista perustella kansalaisten oikeuksien näkökulmasta.

Läpinäkyvä organisaatio tai yritys osallistaa asiakkaita tai kuluttajia toimintaansa sekä dialogin että datan avulla. Esimerkiksi jos kunnassa toimitaan läpinäkyvästi, viralliset päätöksenteon asiakirjat, joista luottamukselliset tiedot on poistettu, ovat kaikkien asukkaiden saatavilla. Avointen tietojen myötä asukkaat voivat entistä paremmin osallistua keskusteluun ja päätöksiin yhteisistä asioista. Osallistumisen korkeimmalla tasolla on yhteistyö, jossa asukkaat toimivat aktiivisesti yhteistyössä kunnan viranomaisten kanssa.

Avoimen organisaation pyramidi

KUVA: Organisaation avoimuutta voidaan kuvata pyramidilla, jonka pohjan muodostaa läpinäkyvyys. Läpinäkyvyys luo puitteet ihmisten osallistumiselle. Pyramidin huipulla on yhteistoiminta, jossa ihmiset osallistuvat tekemällä ja tuottamalla, eivät vain kommentoimalla tai äänestämällä.

Tulevaisuudessa avointen tietovarantojen ja big datan avulla saadaan entistä parempaa tietoa päätöksenteon ja ongelmanratkaisun tueksi esimerkiksi kansalaisten ja kuluttajien toiminnasta, bussien sijainneista, sääennusteista, terveydenhoidosta sekä yrittäjyydestä. Kansalaisista ja heidän toiminnastaan kerätty data voidaan antaa takaisin kansalaisille, jolloin heitä kohdellaan aktiivisina toimijoina, ei pelkkinä toiminnan kohteina. Resurssien niukkeneminen saattaa hidastaa datan avaamista, mutta sen ei pitäisi muodostaa perustavanlaatuista estettä. Datan avaaminen vaatii joskus merkittäviä resursseja, mutta avoimen datan ylläpitäminen huomattavasti vähemmän. Jos datan avoimuus otetaan huomioon jo järjestelmien hankinnassa ja prosessien suunnittelussa, datan avaamisen kustannuksia voidaan edelleen pienentää.


Aineistoa täydentävä ja vapaaehtoisesti katsottavissa oleva puheenvuoro vuoden 2014 Avoin julkishallinnon data -mestarikurssilta.

Tanja Lahti: Avoin data kunnissa from Open Knowledge Finland on Vimeo.


Avoin data ja liiketoiminta

Avoimen datan saatavuus edistää liiketoiminnan kasvua. Esimerkiksi Etlan tutkimuksen (Does Marginal Cost Pricing of Public Sector Information Spur Firm Growth?) mukaan avoin maksuton paikkatieto on yhteydessä nopeasti kasvaneeseen paikkatietoalan yritystoimintaan. Odotukset avoimen datan synnyttämästä liiketoiminnasta ovatkin suuret. Avoimen datan sovelluskilpailuissa ympäri maailmaa (Apps4Gov, Apps4USA, Apps4Finland, Open Finland Challenge) on palkittu useita avoimen datan innovaatioita, mutta toistaiseksi niistä ei ole kehittynyt kovin monia kasvuyrityksiä.

Yleensä menestyvään liiketoimintaan tarvitaan muutakin kuin avointa dataa. On epärealistista odottaa, että datan avaukset yksin johtaisivat lukuisten uusien dataa jalostavien yritysten syntymiseen. Todennäköisesti merkittävimmät avoimen datan liiketoimintahyödyt ovat epäsuoria: avointa dataa käytetään esimerkiksi osana laajempaa palvelua tai tuotetta tai sen avulla tuetaan yritysten päätöksentekoa tai prosessien automatisointia. Yleinen metafora, jossa avointa dataa verrataan öljyyn, voidaan ymmärtää toisaalta niin, että data on raaka-ainetta, josta voidaan jalostaa monia tuotteita. Toisaalta voidaan ajatella, että avoin data on öljyä, joka voitelee yhteiskunnan rattaat pyörimään entistä sujuvammin.

Julkishallinnon ohella myös yritysten datan avaaminen lisääntynee tulevaisuudessa. Yritykset voivat muun muassa ruokkia brändiuskollisuutta avaamalla kohderyhmäänsä kiinnostavia tietovarantoja. Tietoja avaava yritys toimii läpinäkyvästi ja viestii vastuullisuudestaan. Tuotteiden läpinäkyvät tuotantoketjut kertovat, että yritys toimii puhtaasti ja haluaa osoittaa toimintansa eettisyyden.

Keskeinen datan avaamisen motiivi yrityksille on siirtyminen niin sanottuun API-talouteen, jossa yritykset keskittyvät omaan ydinliiketoimintaansa ja tarjoavat koneluettavan rajapinnan kautta dataa myös muiden käytettäväksi. Näin toimivat esimerkiksi Twitter, Amazon ja Facebook. Avoimien rajapintojen avulla muut tahot voivat kehittää yrityksen datan päälle uusia palveluja, jotka yhdessä yrityksen palvelujen kanssa tuottavat asiakkaille kattavan kokonaisuuden. Yritysten data mahdollistaa usein niin paljon erilaisia sovelluksia ja palvelumalleja, että yrityksen on mahdotonta toteuttaa niitä yksin. Rajapintojen yleistymisen myötä kehitetään niiden käyttöä helpottavia yhteisiä standardeja.


Tiivistelmä

  • Datan avaaminen on yhteiskuntaa läpileikkaava liike, joka on edennyt Suomessa nopeasti vuodesta 2009 lähtien.
  • Avoin data on koneluettavassa muodossa olevaa, avoimella lisenssillä varustettua tietoa.
  • Metadata kuvailee tietoaineistoja ja helpottaa niiden löytymistä.
  • Data voi olla laadukasta tai huonolaatuista. 5 tähden luokittelu (joka voidaan laajentaa 7-tähtiseksi) on eräs tapa kuvata tietoaineiston laatua.
  • Linkitetty data on muodostettu siten, että tietoaineiston yksittäisiin tietoelementteihin voidaan viitata. Linkitetty data mahdollistaa tietoaineistojen yhdistelyn ja käsittelyn.
  • Avoin julkishallinnon data on modernin avoimen hallinnan strategia, joka jatkaa Suomen nykyisen julkisuuslainsäädännön viitoittamaa tietä.
  • Avoin data on liiketoiminnan uusi "öljy", joka mahdollistaa tiedon kitkattoman kulun paikasta toiseen.

Tehtävä 1. Datan avaamisen hyötyjä


Comments

comments powered by Disqus