Kas tie atviri duomenys ir kodėl jie svarbūs
Atviri duomenys – tai informacija, kurią valdžios institucijos, mokslo organizacijos ar kitos struktūros skelbia viešai ir leidžia naudoti be apribojimų. Lietuvoje tokių šaltinių yra pakankamai: data.gov.lt, Statistikos departamento portalas, Registrų centras. Europos Sąjungos lygmeniu veikia data.europa.eu, kuriame kaupiami duomenys iš visų valstybių narių.
Tyrėjui ar žurnalistui tai reiškia vieną paprastą dalyką – nereikia laukti atsakymo į prašymą gauti informaciją, nereikia mokėti. Duomenys jau ten. Klausimas tik, kaip juos rasti ir ką su jais daryti.
Pirmieji žingsniai: kaip orientuotis duomenų jūroje
Pradėti reikia nuo konkretaus klausimo, o ne nuo duomenų. Jei ieškosite „kažko įdomaus”, tikėtina, kad paskęsite failų sąrašuose ir nieko nerasite. Geriau suformuluoti aiškų klausimą – pavyzdžiui, kaip kito savivaldybių biudžetų išlaidos švietimui per pastaruosius penkerius metus.
Dauguma duomenų portalų leidžia filtruoti pagal temą, instituciją ar formatą. Dažniausiai pasitaikantys formatai:
- CSV – paprasčiausias, tinka „Excel” ar „Google Sheets”
- JSON – labiau tinka programuotojams
- XLSX – standartinis „Excel” failas
- API – leidžia gauti duomenis tiesiogiai į savo programą ar įrankį
Pradedantiesiems rekomenduojama rinktis CSV arba XLSX – juos galima atidaryti be jokių specialių žinių.
Duomenų tikrinimas: žingsnis, kurio negalima praleisti
Čia daugelis daro klaidą – atsisiuntę duomenis iš karto pradeda juos analizuoti. Tačiau atviri duomenys ne visada būna tvarkingi. Pasitaiko trūkstamų reikšmių, klaidingai suvestų skaičių, pasenusios informacijos.
Prieš pradedant analizę verta patikrinti kelis dalykus: kada duomenys paskutinį kartą atnaujinti, ar yra aprašymas, ką reiškia kiekvienas stulpelis, ir ar duomenys sutampa su kitais žinomais šaltiniais. Jei kažkas atrodo keistai – pavyzdžiui, vieno miesto gyventojų skaičius staiga padvigubėja – tai signalas sustoti ir patikrinti.
Įrankiai, kurie tikrai padeda
Nereikia mokėti programuoti, kad galėtumėte dirbti su atvirais duomenimis. Keletas įrankių, kurie tinka ir be techninių žinių:
- Google Sheets – tinka bazinei analizei ir vizualizacijai
- Datawrapper – puikus grafikų kūrimui, nereikalauja kodavimo
- OpenRefine – padeda sutvarkyti netvarkingus duomenis
- Flourish – interaktyvių vizualizacijų kūrimas
Jei ateityje norėsite eiti giliau, verta pažiūrėti į Python su pandas biblioteka arba R – abu plačiai naudojami duomenų žurnalistikoje.
Nuo duomenų iki istorijos – tai ir yra esmė
Duomenys patys savaime nėra istorija. Jie tik suteikia pagrindą jai pasakoti. Geras tyrėjas ar žurnalistas naudoja duomenis kaip vieną iš įrodymų, o ne kaip galutinę tiesą. Skaičiai gali rodyti tendenciją, tačiau priežastis visada reikia ieškoti papildomuose šaltiniuose – dokumentuose, ekspertų komentaruose, žmonių patirtyse.
Atviri duomenys Lietuvoje dar nėra tobuli – kai kurios institucijos skelbia informaciją nereguliariai, formatai kartais nenuoseklūs. Tačiau situacija gerėja, o kompetencija dirbti su šiais duomenimis tampa vis vertingesniu įgūdžiu tiek žurnalistikoje, tiek akademiniame pasaulyje. Pradėti galima šiandien – pasirinkti vieną klausimą, vieną duomenų rinkinį ir tiesiog pabandyti.