Datan laadun ja luotettavuuden alkeet
Oppimistavoitteet: Tässä luvussa opitaan, miten löydetyn avoimen datan laatua ja luotettavuutta voidaan arvioida.
Harhaanjohtavaa tietoa julkaistaan jatkuvasti monista syistä, joten aineiston käyttäjän on muistettava, että mihinkään ei voi luottaa varmasti. Kun tuntee verkkojulkaisemisen periaatteet ja toimintakulttuurin sekä datan käytön perusasiat, niin maalaisjärjellä pääsee pitkälle.
Kun löydät kiinnostavan, aiheeseesi sopivan tietoaineiston, tarkista sen metatiedoista ainakin aineiston julkaisija, aineiston tarkka aihe sekä päiväys. Tarkista, missä itse datatiedosto sijaitsee. Jos se sijaitsee julkaisijana mainitun organisaation omalla palvelimella, tilanne on hyvä. Jos organisaatio on sinulle vieras, kannattaa tarkistaa saman verkko-osoitteen pääsivu ja katsoa, näyttääkö se uskottavalta. Sivuston maineen voit tarkistaa Web of Trust -palvelussa. Arvioi myös julkaisijan uskottavuus, asiantuntijuus ja puolueettomuus aiheeseen liittyen. Jos on mahdollista, että datan julkaisijalla on poliittinen tai muu motiivi vääristää tietoa, dataan ei pidä luottaa ainakaan ainoana lähteenä. Oikeastaan minkä tahansa kiistanalaisen aiheen tietoja pitäisi hakea useasta lähteestä.
Jos datatiedosto sijaitsee muualla kuin julkaisijan palvelimella, sen luotettavuus kannattaa tarkistaa vielä tarkemmin. Jos tiedosto sijaitsee jollakin uskottavalla palvelimella, esimerkiksi kansallisessa datavarannossa, tilanne on parempi kuin silloin, kun tiedosto on jossain epämääräisessä tiedostonjakopalvelussa. Jälkimmäisessäkin tilanteessa tiedosto voi olla oikea, joku vain on kopioinut sen muualle jakaakseen sen verkostolleen. Tällöinkin jaetun tiedoston yhteydessä pitäisi olla linkki paikkaan, josta se alunperin on kopioitu.
Jos aineistosta on jatkojalostettu versioita, kannattaa olla tarkkana. Jatkojalostuksessa data on kenties saatu helpommin hyödynnettäväksi, mutta se on saattanut tahallisesti tai tahattomasti vääristyä. Tarkista, että jalostettuihin versioihin on merkitty asiallisesti, kuka on muutokset tehnyt, kuka tai mikä organisaatio on tehnyt alkuperäisen datatiedoston ja mistä se on löydetty. Linkkejä seuraamalla sinun pitäisi päästä alkuperäiseen tiedostoon.
Yleensä on varminta, että haet alkuperäisen datan kerääjän julkaiseman tiedoston ja käytät sitä. Jos päädyt käyttämään jalostettua versiota, tarkista ainakin datan eheys perustunnuslukujen avulla. Tosin suureen datasettiin voi piilottaa virheitä, jotka eivät vaikuta tunnuslukuihin. Tilastollisin menetelmin voidaan tunnistaa tarkoituksellisia tietojen vääristelyjä.
Esimerkki: Venäjän vuoden 2012 presidentinvaalien tuloksissa oli tilastollisella analyysillä näkyvää vilppiä, eli tietyissä vaalipiireissä on lisättyjä tuhansia ääniä tietylle ehdokkaalle.
Tiivistelmä
Löydetyn avoimen aineiston metatiedot ja sijainti kertovat paljon aineistosta. Sivuston maineen voi tarkistaa Web of Trust -palvelusta. Onko aineiston julkaisijalla poliittinen tai muu motiivi vääristää tietoa? Onko aineisto jatkojalostettu? Olisi hyvä päästä käsiksi alkuperäiseen aineistoon ja arvioida aineistoa tilastollisten perustunnuslukujen avulla.