Lait ja säädökset
Oppimistavoitteet: Luomme yleiskatsauksen erilaisiin säädöksiin, jotka sääntelevät datan julkaisemista ja avaamista. Tärkein näistä on yksityisyydensuoja.
Pelkän julkaisemisen ja avaamisen ero liittyy pääasiassa tekijänoikeuksiin. Avaaminen (eli avoimen lisenssin liittäminen aineistoon) antaa muille käyttöoikeuksia aineistoon. Jos datan julkaisija ei omista kaikkia oikeuksia dataan, avaaminen voi vaatia lisälupia oikeuksienhaltijoilta. Muista näkökulmista julkaiseminen ilman käyttölupaa ja julkaiseminen avoimella lisenssillä ovat varsin samankaltaisia prosesseja. Kaikki julkinen data voidaan periaatteessa julkaista netissä vastikkeetta ja avoimesti.
Tärkein datan avaamista määrittävä ehto on, että se ei saa rikkoa kenenkään yksityishenkilön yksityisyyden suojaa. Jokaisella on oikeus päättää itseään koskevien henkilökohtaisten asioiden julkisuuden tilasta. Käytännössä tämä tarkoittaa sitä, että sellaista tietoa tai dataa ei voida julkaista, jonka perusteella joku yksittäinen henkilö on tunnistettavissa. Periaatteessa henkilötietoja sisältäviä aineistoja on mahdollista julkaisua varten anonymisoida ja aggregoida niin, ettei yksityisyydensuojaa vaaranneta, mutta käytännössä tämä on monesti haastavaa, sillä kukaan ei myöskään saa olla tunnistettavissa eri tietoja yhdistelemällä.
Erilaisten de-anonymisointitekniikoiden kehitys ja lisääntyneet mahdollisuudet yhdistää dataa useista lähteistä ovat siirtämässä ja hämärtämässä rajoja yksilöivän henkilötiedon ja anonyymin tiedon välillä. Tämä on johtanut kiivaaseen keskusteluun, jossa toiset hyvin perustein väittävät, ettei aukoton anonymisointi ylipäätään ole mahdollista, ja että kaikkea alunperin yksilöihin liittyvää tietoa pitää käsitellä henkilötietona lain säätämällä tavalla. Toiset taas väittävät yhtä lailla hyvin perustein, että näin tiukka tulkinta rajoittaisi monia nimettömien tietojen käyttötapoja, joissa hyödyt ovat selvästi suurempia kuin yksityisyyden suojan menetyksestä aiheutuvat haitat.
Esimerkki: Netflix julkaisi vuonna 2007 tietoaineiston, joka käsitti 500 000 käyttäjän tekemät elokuva-arviot ilman käyttäjien identiteettitietoja. Teksasin yliopiston tutkijat demonstroivat, että he pystyivät IMDb elokuvatietokantaan taustatietonaan käyttäen kuitenkin identifioimaan joitain käyttäjiä niin sanotusti anonymisoidusta aineistosta.
Esimerkki: Kun AOL-hakukone julkaisi laajan anonymisoidun tietokannan hakukyselyistä vuonna 2006, kävi ilmi, että tietojen perusteella pystyttiin tunnistamaan yksittäisiä ihmisiä ja heidän tekemiään hakukyselyitä. Henkilötietojen ja ip-osoitteiden poistaminen ei siis tässä tapauksessa riittänyt aineiston anonymisoimiseksi, koska laajasta tietoaineistosta voi kehittyneillä analyysimenetelmillä löytää yhteyksiä, jotka voivat johtaa yksityistietojen paljastumiseen ja henkilöiden identiteetin selviämiseen.
Joskus yksityisyydensuoja voi olla myös tulkinnanvaraista. Jos esimerkiksi avataan tietoja, joiden avulla voidaan laskea metsän arvo, loukkaako se metsänomistajan yksityisyyden suojaa, kun tiedämme, kuka minkäkin metsäalan omistaa? Suomen Metsäntutkimuslaitos Metla joutui pohtimaan tätä avatessaan puustodataa.
Eri maissa on erilaisia datan julkisuuteen ja salassapitoon liittyviä lakeja ja säädöksiä. Joissain tilanteissa laki edellyttää datan julkaisemista tai jopa avaamista, ellei sitä jokin estä. Data on julkista, mikäli se ei sisällä yksityisyydensuojan piiriin kuuluvaa tietoa kuten henkilörekistereitä, tai muuta aineistoa, joka tulkitaan arkaluontoiseksi tai salassapidettäväksi, kuten maan turvallisuuteen ja maanpuolustukseen liittyvät asiakirjat, sekä esimerkiksi uhanalaisten kasvien esiintymisalueet. On tärkeää muistaa, että rajoitukset, mitä saa julkaista ja mitä ei, vaihtelevat oikeusalueittain. Ennen datan avaamista on syytä selvittää, mitä oman maan lainsäädäntö aiheesta määrää. Jos on pienintäkään epäilystä datan julkaisukelpoisuudesta, kannattaa kysyä lainsäädäntöä tuntevalta taholta apua, sillä julkaisua voivat rajoittaa yllättävätkin lait ja tilanteet, jotka eivät maallikolle välttämättä tule mieleen.
Esimerkki: Uhanalaisten lajien esiintymistiedot pidetään monissa maissa salaisina, koska riskinä on, että näitä eläimiä aletaan tietojen perusteella metsästää. Tämä salassapitovelvoite ei välttämättä lue laissa suoraan, vaan asianomainen virasto on tehnyt päätöksen sille annetun tehtävän (luonnonsuojelu) kannalta välttämättömänä harkinnanvaraisena julkisuuden rajauksena.
Datan avaamisella voi olla myös yllättäviä tai kyseenalaisia seurauksia, joihin datan julkaisijan on hyvä varautua. Tilanteissa, joissa data periaatteessa olisi avattavissa, mutta sen voidaan arvella johtavan ikäviin seurauksiin, on käytettävä harkintaa.
Esimerkki: Britanniassa avattiin geotagattu tietokanta antisosiaalisista rikoksista (ASBO). Tämän päälle rakennettiin suosittu sovellus Asborometer, joka laski eri alueiden antisosiaalisen indeksin. Sovellus tuli niin suosituksi, että se alkoi vaikuttaa asuntojen jälleenmyyntihintoihin. Tästä seurasi, että asukkaiden tekemät rikosilmoitukset alkoivat vähentyä, koska he halusivat välttää oman asuntonsa arvon laskua.
Esimerkki: Mitä helpommin koulujen suoriutumisindikaattorit standardoiduissa testeissä ovat saatavilla, sitä enemmän ne vaikuttavat vanhempien päätöksiin lastensa koulupaikasta. Jos koulua ei saa valita, vaikuttavat nämä tulokset asuinpaikan valintaan. Tästä seuraa, että huonosti menestyneet koulut saavat yhä heikommassa asemassa olevia uusia oppilaita, hyvämaineiset koulut taas oppilaita, joiden opiskelua tuetaan kotoa. Hyvien koulujen tulokset parantuvat entisestään, huonojen taas laskevat. Kyse ei usein ole opetuksen tasosta vaan oppilasaineksen epätasaisesta jakautumisesta. Kansallisten testien tulokset ovat itseään vahvistava kierre.
Tietosuojan lisäksi henkilötietojen ja salassapidettävien aineistojen osalta on panostettava myös tietojärjestelmien tietoturvaan, etteivät aineistot päädy vääriin käsiin esimerkiksi tietomurrossa. Avoimen datan tietoturvavaatimukset ovat usein tavallista kevyemmät, koska aineisto on joka tapauksessa kaikkien saatavilla, joten sitä ei tarvitse suojata luvattomilta katsojilta. Kuitenkin myös avoimeen dataan voi liittyä tietoturvariskejä kuten aineiston tahallista vääristelyä. Esimerkiksi joku voisi haluta vääristellä huomaamattomasti yllä mainittua ASBO-tietokantaa paremman asunnon myyntihinnan motivoimana. Tällaisista avoimen datan vääristelyistä ei kuitenkaan ole ennakkotapauksia eikä riski ole merkittävä.
Tässä on kerättynä Suomessa keskeiset lait, jotka on otettava datan julkaisussa huomioon. Muitakin, alakohtaisia säännöksiä voi toki olla.
Tiivistelmä
Julkiseksi säädetyn datan voi myös avata, mutta on hyvä ymmärtää, että avaaminen voi muuttaa toimintakulttuuria ja aiheuttaa yllättäviä seurauksia. Jotkin tietoaineistot ovat yksityisyydensuojan tai muun säädöksen vuoksi salassapidettäviä, joten niitä ei voida julkaista lainkaan. Salassapitovelvollisuus voi koskea jotain tietoaineistoa käytännössä, vaikka mikään säädös ei sitä suoraan sanoisi. Siksi uusien tietoaineistojen julkistamista harkitessa on hyödynnettävä alan ammattilaisten ja lakimiesten neuvoja.
Tehtävä
Tehtävä 13. Yksityisyydensuoja ja muut säädökset