Duomenys – ne tik statistams
Dar prieš dešimtmetį žodžių junginys „atviri duomenys” žurnalistams skambėjo kaip kažkas iš IT pasaulio – sudėtinga, nuobodu, ne jiems. Šiandien situacija pasikeitė. Investigaciniai žurnalistai visame pasaulyje kasdien naudoja viešai prieinamus duomenų rinkinius, kad atskleistų korupciją, aplinkos taršą, biudžeto švaistymą. Ir geriausia – didelė dalis šio darbo nereikalauja programavimo žinių.
Atviri duomenys – tai informacija, kurią valstybės institucijos, savivaldybės ar tarptautinės organizacijos skelbia viešai ir laisvai. Lietuvoje tai galima rasti data.gov.lt portale, Registrų centro duomenų bazėse, Valstybės kontrolės ataskaitose. Europos Sąjungos lygmeniu veikia data.europa.eu. Visa tai – legaliai prieinama, nemokama ir dažnai neįtikėtinai informatyvi.
Nuo klausimo iki failo
Kiekvienas geras tyrimas prasideda ne nuo duomenų, o nuo klausimo. „Ar savivaldybė tinkamai naudoja ES fondų lėšas?” arba „Kodėl tam tikrame rajone daugiau eismo įvykių?” – tokie klausimai nurodo, kokių duomenų ieškoti. Klaida, kurią daro daugelis pradedančiųjų, yra priešinga seka: randa kažkokį duomenų rinkinį ir bando iš jo išspausti istoriją. Taip gimsta nuobodūs straipsniai apie procentus be konteksto.
Kai klausimas suformuluotas, einama ieškoti. Lietuvos atveju verta pradėti nuo institucijų svetainių – finansų ministerija, aplinkos agentūra, Sodra skelbia reguliarius ataskaitas. Dažnai duomenys būna .xlsx arba .csv formatais – tai reiškia, kad juos galima atidaryti „Excel” ar „Google Sheets” ir pradėti analizuoti be jokių specialių įrankių.
Ką daryti su tuo failu
Gavus duomenis, pirmiausia reikia juos suprasti – ne skaičiuoti, o skaityti. Kas čia matuojama? Kokiu laikotarpiu? Ar yra akivaizdžių spragų? Vienas iš dažniausių duomenų problemų – trūkstamos reikšmės arba nevienoda metodologija skirtingais metais. Tai nėra kliūtis tyrimui, tai gali būti pati istorija.
Paprasčiausi veiksmai „Google Sheets”: rūšiavimas pagal stulpelius, filtravimas, sumos ir vidurkių skaičiavimas. Jei norite palyginti du duomenų rinkinius – pavyzdžiui, savivaldybių biudžetus su gyventojų skaičiumi – reikia sujungti lenteles pagal bendrą lauką. Tai skamba sudėtingai, bet „VLOOKUP” funkcija su keliomis pamokų valandomis „YouTube” tampa įprastu įrankiu.
Vizualizacijai puikiai tinka Datawrapper – nemokamas įrankis, leidžiantis per kelias minutes sukurti žemėlapius, grafikus, diagramas. Lietuvos žiniasklaidoje jis vis dar naudojamas per retai, nors užsienio redakcijos juo naudojasi kasdien.
Tikroji kliūtis – ne technika
Kalbantis su žurnalistais, kurie pradėjo dirbti su duomenimis, dažniausiai girdimas tas pats: techninė dalis buvo lengvesnė, nei tikėjosi. Tikroji kliūtis – patikrinimas. Prieš publikuojant bet kokį skaičių, reikia suprasti, iš kur jis atsirado. Ar institucija naudojo tą pačią metodologiją visais metais? Ar lyginami palyginami dalykai?
Čia neišvengiamai reikia ekspertų. Duomenų analitikas ar atitinkamos srities specialistas gali per penkias minutes paaiškinti, kodėl vienas skaičius atrodo keistai – ir ar tai yra klaida, ar tikra anomalija, verta tyrimo. Duomenys be žmogaus komentaro dažnai lieka neišaiškinti.
Kai skaičiai tampa istorija
Geriausias duomenimis pagrįstas žurnalizmas niekada nesibaigia prie lentelės. „The Guardian”, „Delfi”, „15min” – redakcijos, kurios reguliariai naudoja atvirus duomenis, visada randa žmones, kuriuos tie skaičiai liečia. Statistika parodo modelį, žmogus parodo prasmę.
Pradedantiesiems verta išbandyti nedidelį projektą: paimti vieną duomenų rinkinį – tarkime, savivaldybės viešųjų pirkimų sąrašą – ir pabandyti rasti vieną įdomų faktą. Ne dešimt, ne visą tyrimą. Vieną. Šis pratimas greičiau nei bet kokia teorija parodo, kaip duomenys „kalba”, kai jiems užduodami teisingi klausimai. O kai tai pavyksta pirmą kartą, sunku sustoti.