Kaip naudotis atvirais duomenimis: praktinis vadovas pradedantiesiems tyrėjams ir žurnalistams

Kas tie atviri duomenys ir kodėl jie svarbūs

Atviri duomenys – tai informacija, kurią valdžios institucijos, mokslo organizacijos ar kitos struktūros skelbia viešai ir leidžia naudoti be apribojimų. Lietuvoje tokių šaltinių yra pakankamai: data.gov.lt, Statistikos departamento portalas, Registrų centras. Europos Sąjungos lygmeniu veikia data.europa.eu, kuriame kaupiami duomenys iš visų valstybių narių.

Tyrėjui ar žurnalistui tai reiškia vieną paprastą dalyką – nereikia laukti atsakymo į prašymą gauti informaciją, nereikia mokėti. Duomenys jau ten. Klausimas tik, kaip juos rasti ir ką su jais daryti.

Pirmieji žingsniai: kaip orientuotis duomenų jūroje

Pradėti reikia nuo konkretaus klausimo, o ne nuo duomenų. Jei ieškosite „kažko įdomaus”, tikėtina, kad paskęsite failų sąrašuose ir nieko nerasite. Geriau suformuluoti aiškų klausimą – pavyzdžiui, kaip kito savivaldybių biudžetų išlaidos švietimui per pastaruosius penkerius metus.

Dauguma duomenų portalų leidžia filtruoti pagal temą, instituciją ar formatą. Dažniausiai pasitaikantys formatai:

  • CSV – paprasčiausias, tinka „Excel” ar „Google Sheets”
  • JSON – labiau tinka programuotojams
  • XLSX – standartinis „Excel” failas
  • API – leidžia gauti duomenis tiesiogiai į savo programą ar įrankį

Pradedantiesiems rekomenduojama rinktis CSV arba XLSX – juos galima atidaryti be jokių specialių žinių.

Duomenų tikrinimas: žingsnis, kurio negalima praleisti

Čia daugelis daro klaidą – atsisiuntę duomenis iš karto pradeda juos analizuoti. Tačiau atviri duomenys ne visada būna tvarkingi. Pasitaiko trūkstamų reikšmių, klaidingai suvestų skaičių, pasenusios informacijos.

Prieš pradedant analizę verta patikrinti kelis dalykus: kada duomenys paskutinį kartą atnaujinti, ar yra aprašymas, ką reiškia kiekvienas stulpelis, ir ar duomenys sutampa su kitais žinomais šaltiniais. Jei kažkas atrodo keistai – pavyzdžiui, vieno miesto gyventojų skaičius staiga padvigubėja – tai signalas sustoti ir patikrinti.

Įrankiai, kurie tikrai padeda

Nereikia mokėti programuoti, kad galėtumėte dirbti su atvirais duomenimis. Keletas įrankių, kurie tinka ir be techninių žinių:

  • Google Sheets – tinka bazinei analizei ir vizualizacijai
  • Datawrapper – puikus grafikų kūrimui, nereikalauja kodavimo
  • OpenRefine – padeda sutvarkyti netvarkingus duomenis
  • Flourish – interaktyvių vizualizacijų kūrimas

Jei ateityje norėsite eiti giliau, verta pažiūrėti į Python su pandas biblioteka arba R – abu plačiai naudojami duomenų žurnalistikoje.

Nuo duomenų iki istorijos – tai ir yra esmė

Duomenys patys savaime nėra istorija. Jie tik suteikia pagrindą jai pasakoti. Geras tyrėjas ar žurnalistas naudoja duomenis kaip vieną iš įrodymų, o ne kaip galutinę tiesą. Skaičiai gali rodyti tendenciją, tačiau priežastis visada reikia ieškoti papildomuose šaltiniuose – dokumentuose, ekspertų komentaruose, žmonių patirtyse.

Atviri duomenys Lietuvoje dar nėra tobuli – kai kurios institucijos skelbia informaciją nereguliariai, formatai kartais nenuoseklūs. Tačiau situacija gerėja, o kompetencija dirbti su šiais duomenimis tampa vis vertingesniu įgūdžiu tiek žurnalistikoje, tiek akademiniame pasaulyje. Pradėti galima šiandien – pasirinkti vieną klausimą, vieną duomenų rinkinį ir tiesiog pabandyti.