Kodėl atviri duomenys dažnai lieka dulkėti virtualiosiose lentynose
Atvirumo kultūra ir skaidrumas tapo beveik privalomu politinės retorikos elementu. Vyriausybės skelbia apie naujus atvirų duomenų portalus, organizuoja konferencijas ir džiaugiasi statistika apie publikuotų duomenų rinkinių skaičių. Tačiau realybė dažnai yra kur kas liūdnesnė – didžioji dalis šių duomenų lieka nepanaudota, o tie, kurie bando juos naudoti, susiduria su tokiu chaoso lygiu, kad norisi viską mesti ir grįžti prie senų gerų telefoninių skambučių pareigūnams.
Problema ne tik Lietuvoje, nors mūsų atveju ji ypač akivaizdi. Duomenys skelbiami įvairiausiais formatais – nuo PDF failų (taip, rimtai!) iki keistų XML struktūrų, kurias suprasti gali tik tas, kas jas kūrė. Metaduomenys dažnai neegzistuoja arba yra tokie neaiškūs, kad reikia daktaro laipsnio biurokratinėje kalboje, kad suprastum, ką iš tikrųjų reiškia konkretus stulpelis duomenų lentelėje.
Verslo atstovai ir žurnalistai, kurie galėtų paversti šiuos duomenis vertingais įžvalgomis, dažnai paprasčiausiai neturi laiko ar techninių gebėjimų kovoti su šiuo chaosu. O tai reiškia, kad milijonai eurų, investuoti į atvirų duomenų iniciatyvas, tiesiog išgaruoja be jokios naudos.
Kur ieškoti ir kaip nesusigėsti pirmose minutėse
Pradėkime nuo praktinių dalykų. Lietuvoje pagrindinis atvirų duomenų šaltinis yra data.gov.lt portalas. Skamba gerai, bet kai atidarai šį puslapį, dažnai užplūsta prieštaringi jausmai. Paieškos funkcionalumas veikia… kaip sakant, veikia. Kartais randi tai, ko ieškai, kartais – ne. Dažnai lengviau naudoti Google paiešką su „site:data.gov.lt” parametru nei paties portalo paieškos laukelį.
Kitas svarbus šaltinis – Registrų centras, kuris teikia prieigą prie įvairių registrų duomenų. Čia jau reikia mokėti, nes dalis duomenų yra mokami, o kainodara kartais atrodo kaip sugalvota mėtant kauliukus. Tačiau jei rimtai užsiimate verslo analize ar tyrimais, investicija gali atsipirkti.
Statistikos departamentas turi savo duomenų bazę, kuri yra gana solidžiai sutvarkyti. Čia galima rasti makroekonominius rodiklius, demografinius duomenis, socialinės statistikos informaciją. Problema ta, kad šie duomenys dažnai yra per daug agregoti – matyti miško, bet ne medžių. Jei reikia detalesnės informacijos apie konkrečią sritį, tenka kreiptis tiesiogiai į atitinkamas institucijas.
Savivaldybės taip pat skelbia duomenis, bet čia jau tikras laukinių vakarų pasaulis. Kiekviena savivaldybė turi savo sistemą, savo formatą, savo požiūrį į tai, kas yra „atviri duomenys”. Vilnius šioje srityje yra gana pažengęs, o kai kurios mažesnės savivaldybės vis dar mano, kad PDF failas su nuskenuota lentele yra visiškai priimtinas atvirų duomenų formatas.
Techninis arsenal, kurio tikrai reikės
Pamirškit mintį, kad atvirų duomenų naudojimui pakaks Excel programos. Teoriškai galima, bet praktiškai greitai atsiremsite į Excel’io limitus ir keiksite dieną, kai nusprendėte šį kelią pasirinkti. Jums reikės kiek rimtesnių įrankių.
Python su pandas biblioteka yra faktinis standartas duomenų analizei. Taip, reikia mokėti programuoti, bet nebūtinai būti programavimo guru. Pagrindinės operacijos – duomenų įkėlimas, filtravimas, grupavimas, sujungimas – yra gana paprastos, o internete rasite tūkstančius pavyzdžių. Investuokite savaitę laiko į Python mokymąsi, ir atsipirks šimteriopai.
OpenRefine yra puikus įrankis duomenų valymui. Kai gaunate duomenis, kuriuose įmonių pavadinimai rašomi dešimčia skirtingų būdų, arba datos formatuojamos chaotiškai, šis įrankis tampa gelbėjimo ratu. Jis nemokamas, turi grafinę sąsają, tad nereikia būti techniniu genijumi.
Jei dirbate su geografiniais duomenimis, QGIS yra būtinybė. Lietuvos institucijos mėgsta skelbti duomenis su koordinatėmis arba administraciniais vienetais, ir gebėjimas vizualizuoti tai žemėlapyje dažnai atskleidžia įžvalgas, kurių niekada nematytumėte skaičių lentelėse.
Duomenų bazių valdymo sistemą, pavyzdžiui, PostgreSQL, verta turėti, jei dirbate su dideliais duomenų kiekiais. Excel’is pradeda lėtėti su keliais šimtais tūkstančių įrašų, o SQL duomenų bazė tokius kiekius apdoroja akimirksniu.
Duomenų kokybės realybė ir kaip su ja gyventi
Štai čia prasideda tikrasis iššūkis. Atvirų duomenų kokybė Lietuvoje yra… įvairi. Tai švelniai tariant. Susidursite su trūkstamomis reikšmėmis, keistomis koduotėmis, netikėtais formato pasikeitimais tarp skirtingų metų duomenų rinkinių, ir mano favoritas – duomenimis, kurie akivaizdžiai yra klaidingi, bet niekas jų netaisė metų metus.
Pirmasis žingsnis visada turi būti duomenų kokybės įvertinimas. Atidarėte duomenų rinkinį? Puiku. Dabar praleiskite valandą ar dvi tiesiog žiūrėdami į duomenis. Tikrinkite:
– Ar yra akivaizdžių anomalijų (pvz., gimimo datos ateityje, neigiami kiekiai ten, kur jų negali būti)?
– Ar trūkstamų reikšmių pasiskirstymas yra sistemingas (galbūt tam tikrais metais ar tam tikrose kategorijose duomenų tiesiog nerinko)?
– Ar skirtingose vietose tas pats dalykas pavadintas vienodai?
– Ar metaduomenys atitinka faktinį turinį?
Dažnai atrasite, kad oficialiai deklaruojami duomenys apie, tarkime, 2015-2023 metus iš tikrųjų turi didžiulius trūkumus 2015-2017 metų duomenyse, nes tada naudota kita apskaitos metodika. Tai svarbu žinoti prieš darydami išvadas.
Kitas dažnas reiškinys – duomenų granuliarumo pasikeitimai. Pavyzdžiui, naujesni duomenys gali būti pateikti mėnesių lygmeniu, o senesni – tik metiniai. Arba geografinis detalumas skiriasi. Tai riboja jūsų galimybes daryti ilgalaikę analizę.
Verslo galimybės, apie kurias niekas nekalba
Kalbant apie verslo pritaikymą, dauguma pavyzdžių, kuriuos išgirsite konferencijose, yra gana paviršutiniški. „Panaudokite atvirų duomenų API savo aplikacijoje!” – skamba gražiai, bet realybėje daugelis įdomių duomenų rinkinių neturi jokio API, o jei ir turi, jis veikia nestabiliai.
Tačiau yra realių galimybių. Nekilnojamojo turto sektorius gali daug ką išgauti iš teritorijų planavimo dokumentų, statybos leidimų duomenų, infrastruktūros projektų informacijos. Problema ta, kad šie duomenys yra išsibarstę po dešimtis šaltinių ir formatų. Kas sugeba juos sujungti į vieną sistemą ir paversti suprantama informacija, turi konkurencinį pranašumą.
Finansų sektorius gali naudoti viešųjų pirkimų duomenis klientų kreditingumo vertinimui. Jei įmonė laimi didelius viešuosius konkursus, tai geras signalas. Jei staiga nebedalyvauja konkursuose, kuriuose anksčiau dalyvaudavo – galbūt vertėtų pasiteirauti kodėl.
Logistikos ir transporto įmonės gali optimizuoti maršrutus naudodamos kelių būklės, eismo intensyvumo, oro sąlygų duomenis. Bet vėlgi – šie duomenys dažnai yra ne realaus laiko, o istoriniai, ir jų kokybė įvairi.
Marketingo agentūros gali segmentuoti rinkas naudodamos demografinius, socialinius, ekonominius duomenis apie skirtingas teritorijas. Kur gyvena jūsų tikslinė auditorija? Kokie yra jų pajamų lygiai, amžiaus struktūra, vartojimo įpročiai? Dalis šios informacijos yra vieša.
Bet štai ko niekas jums nepasakys: dažniausiai didžiausia vertė slypi ne pačiuose atviruose duomenyse, o jų sujungime su jūsų turimais vidiniais duomenimis. Atviri duomenys suteikia kontekstą, leidžia palyginti, padeda pamatyti bendrą vaizdą.
Žurnalistinių tyrimų specifika ir spąstai
Žurnalistams atviri duomenys turėtų būti kaip aukso kasykla. Turėtų. Realybė tokia, kad daugelis žurnalistų vis dar bijo Excel’io, nekalbant apie sudėtingesnius įrankius. Tai problema, nes šiuolaikinis žurnalizmas be duomenų analizės gebėjimų yra kaip chirurgija be skalpelių.
Viešieji pirkimai – klasikinis žurnalistinių tyrimų objektas. Kas perka, iš ko, už kiek, kaip dažnai? Ar yra įtartinų tendencijų? Problema ta, kad viešųjų pirkimų duomenys, nors ir vieši, yra pateikti tokiu būdu, kad sistemingai juos analizuoti yra tikras iššūkis. CVP IS sistema turi duomenų eksportavimo funkciją, bet ji ribota. Rimtesniam tyrimui teks rašyti scraper’ius arba naudoti trečiųjų šalių sprendimus.
Politinių partijų finansavimo duomenys – kitas įdomus šaltinis. Kas finansuoja partijas? Kaip tai koreliuoja su vėlesniais sprendimais? Bet čia vėlgi – duomenys yra fragmentiški, skirtingais metais skelbiami skirtingai, o ryšių tarp juridinių asmenų ir realių savininkų atskleisti nepadės jokie atviri duomenys, reikės gilintis į registrus.
Sveikatos statistika, švietimo duomenys, nusikalstamumo statistika – visa tai gali būti įdomių istorijų šaltinis. Bet būkite atsargūs su interpretacijomis. Statistinė koreliacija nereiškia priežastinio ryšio, o duomenų kontekstas yra kritiškai svarbus. Jei nusikalstamumo statistika rodo augimą, galbūt pasikeitė apskaitos metodika, o ne realiai padaugėjo nusikaltimų?
Vienas svarbiausių žurnalistinių tyrimų principų – visada patikrinkite duomenis keliuose šaltiniuose. Jei institucija skelbia vienus skaičius savo ataskaitoje, kitus – atvirų duomenų portale, o trečius – Eurostat’ui, tai jau savaime yra istorija. Kodėl skaičiai nesutampa?
Teisiniai aspektai, apie kuriuos verta pagalvoti
Atviri duomenys teoriškai yra laisvi naudoti, bet praktika kartais sudėtingesnė. Lietuvoje dauguma vyriausybinių duomenų skelbiami su Creative Commons licencijomis, dažniausiai CC BY (reikia nurodyti šaltinį) arba panašiomis. Tai reiškia, kad galite juos naudoti komerciniais tikslais, bet turite nurodyti, iš kur gavote duomenis.
Tačiau būkite atsargūs su asmens duomenimis. Tai, kad duomenys yra vieši, dar nereiškia, kad galite juos naudoti bet kokiu būdu. BDAR taisyklės galioja ir atvirų duomenų kontekste. Jei duomenų rinkinyje yra informacija, kuri leidžia identifikuoti konkrečius asmenis, jūsų naudojimo galimybės gali būti ribotos.
Ypač aktualu tai žurnalistams. Galite publikuoti informaciją apie viešuosius asmenis, bet paprastų piliečių privatumas turi būti saugomas. Jei analizuojate, tarkime, teismo sprendimus, būkite atsargūs su vardais ir kitais identifikuojančiais duomenimis.
Kitas aspektas – duomenų bazių teisės. Jei sukuriate naują duomenų bazę iš atvirų duomenų, jūs turite tam tikras teises į tą naują produktą. Bet jei tiesiog perskelbiate esamą duomenų rinkinį, jūsų teisės yra ribotos.
Ir dar vienas dalykas – kai kurios institucijos bando riboti atvirų duomenų naudojimą per naudojimosi sąlygas. Pavyzdžiui, gali būti parašyta, kad duomenis galima naudoti tik nekomerciniais tikslais, nors tai prieštarauja atvirų duomenų filosofijai. Tokios sąlygos dažnai yra teisiškai abejotinos, bet geriau pasikonsultuoti su teisininku, jei planuojate rimtą komercinį projektą.
Kai duomenų nėra arba jų nepakanka
Dažnai susidursite su situacija, kai reikalingų duomenų tiesiog nėra. Arba jie yra, bet neviešinami. Arba skelbiami tokiu agregacijos lygiu, kad jie beveik nenaudingi. Ką daryti tokiais atvejais?
Pirmasis variantas – oficialus prašymas. Teisė gauti informaciją iš valstybės institucijų yra garantuota įstatymų. Galite pateikti prašymą konkrečiai institucijai, nurodydami, kokių duomenų jums reikia. Institucija privalo atsakyti per 20 darbo dienų. Praktika rodo, kad kartais gaunate tai, ko prašėte, kartais – atsisakymą su įvairiais pagrindimais, kartais – duomenis tokiu formatu, kad norisi verkti.
Jei institucija atsisako pateikti duomenis, galite skųsti sprendimą Vyriausiajam administraciniam teismui. Tai ilgas ir varginantis procesas, bet kartais vienintelis būdas gauti reikalingą informaciją.
Antrasis variantas – alternatyvūs šaltiniai. Galbūt reikalingų duomenų nėra Lietuvos institucijose, bet yra tarptautinėse duomenų bazėse? Eurostat, Pasaulio bankas, OECD, įvairios JT agentūros turi daug duomenų apie Lietuvą. Kartais net detalesnius nei mūsų pačių institucijos skelbia.
Trečiasis variantas – duomenų rinkimas patiems. Jei duomenų nėra, bet jie teoriškai egzistuoja viešoje erdvėje (pavyzdžiui, skelbimai internete, viešai prieinami dokumentai), galite juos surinkti patys. Web scraping yra legali veikla, kol nelaužote techninių apsaugos priemonių ir nepažeidžiate naudojimosi sąlygų. Bet būkite atsargūs – kai kurios svetainės aiškiai draudžia automatinį duomenų rinkimą.
Ketvirtasis variantas – bendradarbiavimas. Galbūt kiti žurnalistai, tyrėjai ar organizacijos jau rinko panašius duomenis? Duomenų žurnalistikos bendruomenė Lietuvoje nėra didelė, bet ji egzistuoja. Verta užmegzti kontaktus, dalintis patirtimi ir, jei įmanoma, duomenimis.
Ką daryti su duomenimis, kai jau juos turite
Tarkime, pavyko – turite duomenų rinkinį, jis yra gana švaraus formato, metaduomenys suprantami. Dabar kas? Čia prasideda tikrasis darbas, ir čia dauguma žmonių daro klaidas.
Pirmoji klaida – iškart šokti į sudėtingas analizes. Prieš darydami bet kokią sudėtingą statistiką, padarykite paprastą aprašomąją analizę. Kokie yra pagrindiniai rodikliai? Vidurkiai, medianos, standartiniai nuokrypiai? Kaip duomenys pasiskirsto? Ar yra išskirtinių reikšmių? Paprasta vizualizacija – histogramos, sklaidos diagramos – dažnai atskleidžia daugiau nei sudėtingi modeliai.
Antroji klaida – ignoruoti kontekstą. Duomenys be konteksto yra bevertės skaičių eilutės. Kas vyksta tuo laikotarpiu, kurį analizuojate? Galbūt buvo pasikeitę įstatymai, metodikos, ekonominė situacija? Visada ieškokite papildomos informacijos, kuri padėtų interpretuoti duomenis.
Trečioji klaida – pernelyg pasitikėti duomenimis. Duomenys nėra objektyvi tiesa, jie yra kažkieno surinkta ir struktūrizuota informacija. Kas nusprendė, ką matuoti? Kaip buvo matuojama? Kas galėjo būti praleista? Kritiškas požiūris į duomenis yra būtinas.
Vizualizacija yra galingas įrankis, bet ji gali ir klaidinti. Netinkamai parinkta diagrama, manipuliuojanti ašių skale, klaidinanti spalvų schema – visa tai gali iškreipti realų vaizdą. Jei kuriate vizualizacijas kitiems, būkite sąžiningi. Jei analizuojate kitų vizualizacijas, būkite skeptiški.
Automatizacija yra jūsų draugas. Jei planuojate reguliariai atnaujinti analizę naujais duomenimis, nuo pat pradžių kurkite automatizuotus procesus. Rašykite skriptus, kurie parsisiunčia duomenis, juos valo, analizuoja ir generuoja ataskaitas. Taip sutaupysite daug laiko ateityje ir sumažinsite klaidų riziką.
Kas toliau: realybė be iliuzijų
Atviri vyriausybės duomenys nėra stebuklingas sprendimas nei verslui, nei žurnalistikai. Jie yra įrankis, ir kaip kiekvienas įrankis, jie turi savo ribotumas ir reikalauja įgūdžių naudoti. Situacija Lietuvoje pamažu gerėja – daugiau duomenų skelbiama, formatai tampa standartizuotesni, kai kurios institucijos net pradeda klausyti naudotojų atsiliepimų. Bet kelias dar ilgas.
Jei esate verslininkas, negalvokite apie atvirų duomenų naudojimą kaip apie atskirą projektą. Integruokite duomenų analizę į savo kasdienius procesus. Pradėkite nuo mažų dalykų – galbūt vieno konkretaus duomenų rinkinio, kuris aktualus jūsų veiklai. Išmokite jį naudoti gerai, tada plėskite toliau.
Jei esate žurnalistas, investuokite laiką į duomenų analizės įgūdžių tobulinimą. Tai nėra pakaitalas tradiciniam žurnalistiniam darbui, bet papildymas. Geriausi tyrimai atsiranda derinant duomenų analizę su klasikiniu žurnalistiniu darbu – pokalbiais, dokumentų tyrimu, konteksto supratimu.
Ir dar vienas dalykas – nekurkite duomenų kultūros tik patys sau. Dalinkitės savo radiniais, metodika, įrankiais. Atvirų duomenų ekosistema tampa stipresnė, kai daugiau žmonių aktyviai ją naudoja ir prisideda prie jos tobulinimo. Jei radote klaidų duomenyse, praneškite institucijai. Jei sukūrėte naudingą įrankį, pasidalinkite juo. Jei atlikote įdomią analizę, publikuokite ne tik išvadas, bet ir metodologiją.
Galiausiai, būkite realistai. Atviri duomenys nepasakys jums visko, ko norite žinoti. Jie nebus tobulos kokybės. Jų gavimas ir analizė pareikalaus laiko ir pastangų. Bet jei esate pasirengę su tuo dirbti, galite gauti įžvalgų, kurių jūsų konkurentai ar kolegos neturi. Ir tai jau yra nemažas pranašumas.