Avaamisen prosessi

Datan avaaminen voidaan hahmottaa monin eri tavoin. Yksi tapa on nähdä se syklisenä prosessina, joka täydentyy ja täydellistyy jokaisen avaamisen myötä. Antti Poikola on kuvannut prosessia seuraavanlaisen kaavion avulla.

Datan avaamisen prosessi

Hieman tarkemmin eroteltuna, datan avaamisen prosessi koostuu seuraavista vaiheista:

  • Avattavan aineiston valitseminen
  • Avauksen valmistelu
  • Lisenssin ja julkaisuehtojen valinta
  • Aineiston julkaisu
  • Vuoropuhelu
  • Aineiston päivittäminen
  • Dokumentointi, joka kulkee läpi prosessin.

Avaaminen on oppimisprosessi, sillä jokaisella avaamiskerralla kokemukset karttuvat ja prosessista voidaan tehdä jalostuneempi. Prosessia rikastaa myös avattuja kulttuuri- aineistoja käyttävä yhteisö. Vuoropuhelu on elintärkeää ja auttaa pitämään avatun aineiston käytettävänä.

Kun päätös kulttuuriaineistojen avaamisesta ja sen tarpeellisuudesta on tehty, voidaan itse avaamisen prosessi aloittaa. On hyvä aloittaa harjoitusavauksella, jossa avataan pieni rajattu aineisto jollekin tietylle kohderyhmälle.

Harjoitusavauksen kokemusten jälkeen on suositeltavaa luoda organisaatiolle selkeä strategia, jonka perusteella avauksia toteutetaan jatkossa järjestelmällisemmin. Pidemmän aikavälin strategiassa tulisi huomioida muun muassa:

  • Työtehtävien ja roolien päivit­täminen: keiden työtehtäviin avaamisprosessi vaikuttaa? Mitä koulutusta ja perehdytystä työntekijät tarvitsevat?
  • Avaamisprosessin aikataulu 
ja syklisyys: milloin aineistoja avataan? Mikä on kokonaistavoite ja -aikataulu avaamiselle?
  • Resursointi: kuka organisaatiossa osallistuu avaamisprosessiin ja millä resursseilla se toteutetaan?

On hyvä muistaa myös, että kulttuuriaineistojen avaaminen on vasta alku vuoropuhelulle eri yleisöjen kanssa. Strategiaa kannattaa päivittää kokemusten myötä, jolloin se vastaa aidosti nykyhetken tarpeisiin ja haasteisiin.

Seuraavaksi käydään läpi hieman yksityikohtaisemmin datan avaamisen prosessi kohta kohdalta.

Avattavan aineiston valitseminen

Avattavan aineiston valintaan vaikuttavat useat tekijät organisaatiossa. Aineiston arvo tai kulttuurinen merkittävyys tai esimerkiksi tuleva merkkipäivä tai juhlavuosi voivat ohjata valintaa. Tekijänoikeudet ja taloudelliset seikat vaikuttavat usein merkittävästi siihen, mitä ylipäänsä voidaan avata.

Harjoitusavausta varten on hyvä valita aineistoja, joiden tekijänoikeudet ovat rauenneet tai joita on mahdollista lisensoida avoimin lisenssein. Lisäksi kannattaa aloittaa teknisesti helpoiten saatavilla olevista aineistoista. Avaaminen kannattaa siis aloittaa ns. “alhaalla roikkuvilla hedelmillä”.

Liikkeelle voi lähteä myös siitä, että kartoittaa organisaation olemassa olevia aineistoja ja jaottelee ne jo avattuhin, avattavissa oleviin, lisäselvitystä kaipaaviin sekä salassa pidettäviin. Tämän jälkeen voi esimerkiksi kysyä aineistojen mahdollisilta jatkokäyttäjiltä ja/tai laajemmalta avoimen datan yhteisöltä, mitkä aineistot olisivat kiinnostavimpia.

Avauksen valmistelu

Vaikka kyseessä olisi “pelkän” datan (esimerkiksi teoksen kuvailu- ja metatietojen) avaaminen, ei sitä usein voida avata sellaisenaan vaan dataa pitää ensin muokata. Data tulee muuntaa koneluettavaan muotoon eli esittää se jossakin koneluettavassa formaatissa – esimerkiksi CSV, TSV, XML ja TDP.

Data pitää myös käydä huolellisesti läpi, ja mahdolliset erheet tulee korjata, jotta julkaistava data on niin virheetöntä kuin mahdollista. Lisäksi on hyvä pyytää etukäteen palautetta ja ehdotuksia datan käyttäjiltä. Pelko datan virheellisyydestä ei kuitenkaan saisi estää datan avaamista kokonaan - virheet voidaan korjata aina myöhemminkin.

Avattavien sisältöjen kohdalla on varmistettava niiden korkea laatu: esimerkiksi valokuvien jatkohyödyntämistä haittaa liian matalaresoluutioiset, huonolaatuiset kuvat. Lisäksi vesileimat ynnä muut merkit tulee poistaa.

Avattavaan dataan ja sisältöön on tärkeää lisätä meta- eli kuvailutietoja, jotka kertovat, mistä aineistossa on kyse. Hyvät kuvailutiedot helpottavat kulttuuriaineistojen hyödyntäjien työtä. Ne tuovat hyödyntäjille varmuutta siitä, että aineisto on aitoa ja oikean organisaation tuottamaa. Hyvien kuvailutietojen avulla datan omistajat voivat myös varmistaa, että dataa ei vahingossa tulkita tai käytetä väärin.

Lisenssin ja julkaisuehtojen valinta

Jos avattavaan aineistoon kohdistuu tekijänoikeuksia, on ennen julkaisua valittava vielä lisenssi eli käyttölupa. Lisenssi antaa yleisen käyttöoikeuden avattuun kulttuuriaineiston. Avattavan aineiston yhteyteen tulee merkitä selkeästi ne tekijänoikeudet, joita siihen sovelletaan. Oleellista on tehdä käyttäjille selväksi, mitä aineistolla voi ja mitä ei voi tehdä.

Käyttäessäsi Creative Commons -lisenssiä, varmista että tekstin joukosta löytyy myös linkki viralliseen lisenssikohtaiseen asiakirjaan. Lisensseistä tarkemmin tämän kurssin seuraavassa osiossa.

Aineiston julkaisu

Aineisto julkaistaan ennalta päätetyllä alustalla. Yleensä avattu aineisto sijoitetaan organisaation omille verkkosivuille. Se lähettää selkeän viestin aineiston alkuperäisestä tarjoajasta. Lisäksi aineiston hyödyntämistä voidaan seurata paremmin.

Metatiedot julkaistaan myös aineiston yhteydessä, ja molempien käyttöehdot ilmoitetaan selkeästi. Näin datan jatkokäyttäjä tietää, mihin ja millä tavoin dataa voidaan hyödyntää ja miten datan omistajaorganisaation tiedot ilmaistaan.

Omien verkkosivujen lisäksi aineisto voidaan lisätä erilaisiin datakatalogeihin tai muille avoimia aineistoja sisältäville sivustoille, mikä puolestaan edistää avatun aineiston löydettävyyttä ja jatkokäyttöä.

Esimerkiksi OpenGLAM-verkosto esittelee sivustollaan avattuja kulttuuriaineistoja. Lisäksi useat avoimen datan kilpailut ja tapahtumat julkaisevat sivuillaan kokoelmia avatuista aineistoista.

Suomessa myös useilla kaupungeilla on omat avoimien aineistojen verkkosivut, esimerkiksi Helsinki Region Infoshare osoitteessa www.hri.fi sekä Tampereen kaupungin Avoin data -sivusto. Lisäksi on olemassa Suomen kansallinen metadatakatalogina toimiva avoimen datan portaali.

Monet kulttuuriperintöorganisaatiot ovat suosineet Flickr-kuvapalvelua sekä Wikimedia Commonsia sellaisten kuva-aineistojen avaamisessa, joiden lisääminen organisaation omille verkkosivuille ei ole mahdollista.

Vuoropuhelu

Aineiston avaaminen on vuoropuhelun aloittamista, ja siksi se mitä tapahtuu avaamisen jälkeen on yhtä tärkeää kuin itse avaaminen. Kulttuuriaineiston avaamisen jälkitöitä onkin hyvä miettiä jo etukäteen:

  • Miten avatusta aineistosta viestitään?
  • Miten sen käyttöä edistetään?
  • Miten kerätään tietoa 
avauksen vaikutuksista?

Avauksesta kannattaa tiedottaa mahdollisimman montaa kanavaa hyödyntäen, jotta tieto siitä saavuttaa mahdollisimman monen. Sosiaalinen media on tässä hyvä apuväline. Twitterissä avatusta kulttuuridatasta voi viestiä käyttämällä hashtageja #avoindata, #kulttuuridata ja #avoinglam kotimaisen yleisön saavuttamiseksi sekä #opendata ja #openglam kansainvälisessä viestinnässä.

Facebookissa käydään aktiivista keskustelua Open Knowledge Finlandin ryhmässä Finnish Open Data Ecosystem (FODE) sekä AvoinGLAM -verkoston ryhmässä.

Parhaimmillaan avattu aineisto voi toimia hyödyllisenä raaka-aineena organisaatiolle itselleen esimerkiksi datan rikastamisen (erilaisten datojen yhdistäminen) ja luovan jatkokäytön kautta. Aineistojen hyödyntäminen mahdollisimman laajasti edellyttää avauksesta tiedottamista ja vuoropuhelua käyttäjien kanssa. Avauksesta tulisi viestiä sekä organisaation sisällä että sen eri yleisöille eri viestintäkanavia käyttäen.

Keskustelu avatusta aineistosta ja sen jatkokäytöstä tulisi alkaa viimeistään siinä vaiheessa, kun aineisto on julkaistu. Mahdollisuuksien mukaan organisaatio voi myös kutsua potentiaalisia jatkokäyttäjiä ja muuta avoimen tiedon yhteisöä avausprosessiin jo sen alkuvaiheessa. Näin organisaatio voi saada hyviä ehdotuksia esimerkiksi avattavista aineistoista ja dataformaateista tai ideoita miten avattuja aineistoja voisi hyödyntää.

Aineiston päivittäminen

Avatun kulttuuriaineiston päivittämistä ei pidä myöskään unohtaa. Kuvailutiedoissa on hyvä kertoa, kuinka usein aineiston odotetaan päivittyvän, mikäli tämä on aineiston kohdalla aiheellista. Myös mahdollisia datassa olevia virheitä tulee korjata. Apua tähänkin voi saada aineiston jatkokäyttäjiltä: joku voi huomata virheen ja ilmoittaa tästä organisaatiolle, jonka tehtävä on korjata virhe ja ilmoittaa tehdystä korjauksesta datan yhteydessä. Tätä prosessia varten on tärkeää luoda jatkokäyttäjiä ja muita yleisöjä varten palaute- ja keskustelukanavia.

Dokumentointi ja raportointi

Avaamisen prosessin dokumentointi on erittäin hyödyllistä ja suositeltavaa. Vaiheiden kuvaaminen ei ole turhaa, sillä siitä on hyötyä seuraavissa avauksissa. Omat kokemukset ja opit voivat olla myös suunnaton apu muille aineistojen avaamista vasta sunnitteleville organisaatioille!

Dokumentointia tehdessä on hyvä miettiä, mitkä asiat voisivat olla erityisen hyödyllisiä jälkeenpäin luettaessa. Tällaisia ovat esimerkiksi kohdatut haasteet ja ongelmat sekä niiden ratkaisut. Hyödyllistä voi olla myös tieto siitä, miten datan siivoaminen on toteutettu käytännössä ja minkälaista organisaation ulkopuolista apua on hyödynnetty koko prosessissa.

Prosessin raportointi ja reflektointi kannattaa mahdollisuuksien mukaan julkaista verkossa. Alustaksi käy esimerkiksi organisaation omat verkkosivut tai blogi. Verkossa dokumentaatio on kenen tahansa nähtävissä, joka itsessään lisää myös prosessin ja organisaation toiminnan läpinäkyvyyttä.

Hyvä esimerkki avaamisen raportoinnista ja reflektoinnista on suomalainen Avaa dataa! -blogi, joka kuvaa sen kirjoittajan mukaan “yhden virkamiehen kokemuksia datan avaamisen matkalta”.

Mikäli koko avaamisen prosessia ei haluta raportoida julkisesti, on suositeltavaa kuitenkin julkaista niin kutsuttu datablogi. Datablogissa esitellään avattua aineistoa sekä sen hyödyntämismahdollisuuksia- ja ehtoja mahdollisimman yksityiskohtaisesti. Sen tulisi sisältää ainakin seuraavat asiat:

  • Selostus siitä, mistä avatussa aineistossa on kyse, mitä se sisältää ja missä formaatissa aineisto on tarjolla (dataformaatti, kuvatiedosto ja sen resoluutio).
  • Metadatan kuvaus, josta ilmenee mitä tietoa metadata aineistosta tarjoaa sekä missä formaatissa metadata on saatavilla.
  • Suora linkki itse aineistoon.
  • Selkeästi ilmaistut käyttäehdot ja aineistoa määrittävät lisenssit. Mikäli käytössä on Creative Commons -lisenssi tulee tekstiin sisällyttää myös linkki viralliselle lisenssisivustolle.
  • Odotuksia ja toiveita aineiston jatkokäytölle sekä perusteluita sille, miksi aineisto on kiinnostava.
  • Yhteystiedot mahdollisia yhteydenottoja ja kyselyitä varten.

Lisäksi datablogi on hyvä paikka ilmaista myös muut mahdolliset huomioon otettavat seikat.

Avaajan tarkistulista

Avaajan tarkistuslista on hyvä apuväline aineistojen avaamisen prosessissa: sen avulla voidaan tarkistaa, ettei mitään oleellista ole päässyt unohtumaan.

Avaajan tarkistuslista

Lähteet ja lisätietoja

Esimerkkejä avointen kulttuuriaineistojen sivustoista:

Esimerkkejä ja kokemuksia avaamisen prosessista:

Muut:

Tehtävä

Tee oma avaamisen suunnitelmasi. Jos avattavaa aineistoa ei ole vielä valittu niin tee se kuvitteellisen aineiston kanssa. Käy läpi suunnitelmassa läpi ainakin seuraavia seikkoja:

  • Mitä dataa/sisältöä on tarkoitus avata? Mitä se on ja mistä se on peräisin? Onko kyse sisällöstä (esim. kuvat, äänitiedostot) vai metadatasta (sisältöjen kuvailutiedot, kuten päivämäärä ja tekijä)?
  • Miten tätä aineistoa on mahdollista käyttää/hyödyntää? Mitä konkreettisia odotuksia/toiveita aineiston hyödyntämisen suhteen mahdollisesti tässä vaiheessa on? (on hyvä pitää mielessä, että kaikki odotukset eivät välttämättä täyty - mitä sitten?)
  • Onko mahdollista ottaa jälleenkäyttäjät tai sovellusten tekijät/koodarit mukaan avaamisen prosessiin testaamaan ja kommentoimaan esim. datan käytettävyyttä?
  • Minkälaista muuta yhteistyötä on mahdollista ja/tai tarkoitus tehdä eri yhteisöjen kanssa?

Comments

comments powered by Disqus