Kolumnit 21.3.2017

Neljä tähteä avoimesta datasta

Melko tarkkaan neljä vuotta sitten, 1.3.2013, Ilmatieteen laitos avasi avoimen datan portaalinsa beta-version. Nyt on hyvä aika pysähtyä hetkeksi tutkimaan, miten hyvin onnistuimme.

Portaali sisältää merkittävän määrän usein päivittyvää dataa sisältäen lukuisia ympäristön tilaa mallintavia havaintoja ja ennusteita. Jaettavat aineistot ovat suuria (jopa 3oG) ja päivittyvät usein (päivitysväli 1 min – 6 h), mikä luo erityishaasteita datan jakamiselle ja hyödyntämiselle.  Ilmatieteen laitoksen toteutus perustuu INSPIRE-direktiivin määritelmiin. Tämä tarkoittaa, että metadatat ovat saatavilla katalogi-palvelun kautta (CSW), dataan voi tutustua katselupalvelun avulla (WMS) ja dataa voi ladata latauspalvelun avulla (WFS). Päätös INSPIRE-määritelmien noudattamisesta oli Ilmatieteen laitokselle melko ilmeinen. INSPIRE-palvelut oli toteutettava joka tapauksessa, ja toisaalta INSPIRE tarjosi hyvin määritellyn kansainvälisesti yhteentoimivan standardin rajapinnoille.

Miten avointa dataa tulisi jaella? Berner Leen luoman 5 tähden mallin mukaan datan täytyy olla:

  1. saatavilla,
  2. rakenteellista,
  3. avointa,
  4. yksilöityä (URI),
  5. linkitettyä.

Steven Adler, IBM Chief Data Strategist, on laajentanut listaa myös koneluettuudella, spatiaalisella linkitettävyydellä, löydettävyydellä sekä hyvällä hallinnoinnilla.

Näitä kriteerejä vasten tarkasteltuna Ilmatieteen laitoksen ratkaisu on suhteellisen hyvä. INSPIRE tarjoaa ratkaisun rakenteellisiin ja teknisiin kysymyksiin sekä jossain määrin löydettävyyteen. Säädata on luonnostaan georeferoitua ja hyvin hallinnoitua. Data on saatavilla ja sitä on markkinoitu melko aktiivisesti. Paljon on siis saatu “ilmaiseksi”. Muutama asia ansaitsee kuitenkin tarkempaa tarkastelua.

Rajapinnan helppous. On huomattava, että käytön helppous ei ollut Leen eikä Adlerin listalla. Helppous on tietenkin tavoiteltava asia mutta ei itseisarvo. Hyvin tunnetun ohjeen mukaanhan asioita tulee yksinkertaistaa niin paljon kuin mahdollista, mutta ei yhtään enempää. Käyttöä oltaisiin tietenkin voitu helpottaa tarjoamalla yksinkertainen REST API hyvin yksinkertaisella tietomallilla. Tällöin oltaisiin kuitenkin menetetty kokonaan tai osittain rakenteellisuus, metatiedot, linkitettävyys, yksilöivät tunnisteet, jne. Ja ennen kaikkea ratkaisu ei olisi perustunut standardiin; jokaisen käyttäjän olisi pitänyt kehittää ohjelmistoja mittatilaustyönä  Ilmatieteen laitoksen rajapintaa varten.

Kulttuurimuutos on yksi tärkeimmistä ja haastavimmista asioista, joita dataa julkaiseva organisaatio joutuu kohtaamaan. Yhtäkkiä ihmiset joutuvat työskentelemään parrasvaloissa. Heidän työnsä on avointa kommenteille ja kritiikille. (On huomattava, että myös itse avaamisprosessin pitäisi olla avoin ja altis palautteille.) Muutosjohtamista ei voi alleviivata riittävästi. Ilmatieteen laitoksella avointa dataa on ollut neljä vuotta ja kulttuurimuutos on vasta alkamassa.

Linkitettävyys. Sekä Lee että Adler pitävät linkitettävyyttä tärkeänä ominaisuutena. INSPIRE varmistaa, että tietotuotteet ja niiden osat ovat linkitettäviä. Ilmatieteen laitos vaatii kuitenkin käyttäjän rekisteröintiä (sähköpostilla) ja autentikointia (api-avaimella), mikä katkaisee linkitettävyyden ja rikkoo avoimen datan periaatteita. Rekisteröinti vaaditaan, jotta voidaan varmistaa tasapuolinen palvelu kaikille käyttäjille sekä, jotta voidaan analysoida riittävällä tarkkuudella rajapinnan käyttöä. Erityisesti kun tasapuolisen käytön takaaminen ei näytä olevan relevantti huoli, hinta tarkemmasta käytön analytiikasta on kova.

Entäpä vaikutukset? VNK:n raportti “Avoimen datan hyödyntäminen ja vaikuttavuus” osoittaa, miten hankala avoimen datan vaikuttavuutta on arvioida – erityisesti datan julkaisijan suunnalta. Joitakin huomioita voidaan kuitenkin tehdä.

Portaalissa on yli 10 000 rekisteröitynyttä käyttäjää.

Luvut ovat melko hyviä. Portaalissa on yli 10 000 rekisteröitynyttä käyttäjää, jotka tekevät keskimäärin yli 5 datakyselyä joka sekunti. Tähän mennessä  datan latauksia on tehty yli 300 miljoonaa kertaa. Luvut peittävät alleen kuitenkin myös joitakin rumia piirteitä. Ainoastaan 40 – 50 prosenttia rekisteröityneistä käyttäjistä oikeasti lataa dataa. Syitä tähän voi lähinnä arvailla. Osa käyttäjistä on voinut käyttää dataa kertaluonteiseen tutkimukseen tai tuotekehitykseen. Käyttäjät ovat saattaneet vain olla kiinnostuneita kurkistamaan, mitä rekisteröinnin takana on. Jotkut käyttäjät ovat olettaneet saavansa käyttöliittymän koneluettavan rajapinnan sijaan. Osa käyttäjistä on saattanut lannistua WFS-palvelun ja INSPIREssä käytettävän O&M-tietomallin korkeaan aloituskynnykseen.

Vaikuttavuus. Luvut itsessään eivät kerro paljoakaan datan vaikuttavuudesta. Käyttäjät voivat ladata dataa käyttämättä sitä tai yksi käyttäjä voi jaella uudelleen dataa sadoille käyttäjille. Avointa dataa julkaisevalle organisaatiolle onkin hyvin haastava pitää yllä ymmärrystä miten tämän dataa käytetään. Riittävä jalkautuminen, hyvä palautekanava sekä läheiset yhteydet asiakkaisiin ja käyttäjiin ovatkin elintärkeitä tukitoimintoja datan jakeluun. Miksei datan käyttäjiä voisi myös kutsua istumaan saman katon alle?

Kaiken kaikkiaan Ilmatieteen laitoksen avoin data on mielestäni varsin onnistunut kokonaisuus. Parannettavaa on erityisesti rajapinnan helppokäyttöisyydessä, mutta parannukset tulee tehdä OGC-standardien  ja INSPIRE-määritelmien kehittämisen kautta. Ilmatieteen laitos on aktiivinen myös tällä saralla.

Roope Tervo: http://roopetervo.com/

ps. Ilmatieteen laitos on julkaisemassa datan tuotantoon käytettäviä ohjelmistoja avoimena lähdekoodina. Näin kehittäjien on helpompaa käsitellä ja prosessoida haastavia aineistoja.

Teksti:
Kuvat:

Tero Pajukallio