Kodėl atvirų duomenų era jau čia – ir kaip tai keičia žaidimo taisykles
Prisimenu, kaip prieš kelerius metus kalbėjausi su vienu startuolių kūrėju, kuris skundėsi, kad jam reikia rinkos analizės duomenų, bet tyrimų agentūros prašo dešimčių tūkstančių eurų. Jis nė nenutuokė, kad didžioji dalis informacijos, kurios jam reikėjo, jau buvo laisvai prieinama – tereikėjo žinoti, kur ieškoti ir kaip tą informaciją panaudoti.
Atvirų duomenų judėjimas per pastaruosius dešimt metų iš nišinės idėjos tapo realiu verslo įrankiu. Vyriausybės, tarptautinės organizacijos, mokslo institucijos ir net privatūs subjektai dabar skelbia milžiniškas duomenų bazes, kurias galite naudoti visiškai nemokamai. Tai ne tik statistiniai skaičiai – tai geografiniai žemėlapiai, demografiniai duomenys, ekonominiai rodikliai, transporto srautai, oro kokybės matavimai ir dar šimtai kitų kategorijų.
Tačiau štai paradoksas: nors duomenų yra daugiau nei bet kada, daugelis verslininkų ir projektų kūrėjų vis dar nežino, kaip juos panaudoti praktiškai. Duomenys tiesiog guli atvirose duomenų bazėse, laukdami, kol kas nors juos paverstų vertinga įžvalga ar inovatyviu produktu.
Nuo ko pradėti: atvirų duomenų žemėlapis Lietuvoje ir pasaulyje
Pirmasis žingsnis – suprasti, kokios duomenų bazės egzistuoja ir kas jas tvarko. Lietuvoje pagrindinis atvirų duomenų portalas yra opendata.gov.lt, kur rasite tūkstančius duomenų rinkinių iš įvairių ministerijų ir institucijų. Čia galite rasti viską – nuo mokyklų sąrašų iki aplinkos taršos duomenų, nuo viešųjų pirkimų informacijos iki kultūros paveldo objektų koordinačių.
Bet nesustokite ties nacionaliniais portalais. Europos Sąjunga turi savo atvirų duomenų portalą (data.europa.eu), kuriame agregojami duomenys iš visų ES šalių. Jei jūsų verslas ar projektas turi tarptautinį aspektą, tai – aukso kasykla. Čia rasite palyginamuosius duomenis apie įvairias šalis, ekonomikos rodiklius, prekybos statistiką.
Pasauliniu mastu verta atkreipti dėmesį į Pasaulio banko duomenų bazę, Jungtinių Tautų statistikos skyrių, NASA atviruosius duomenis (jei domitės kosmoso ar klimato duomenimis), o JAV vyriausybės data.gov portalas yra vienas didžiausių pasaulyje. Ne veltui daugelis sėkmingų startuolių būtent iš šių šaltinių pradėjo savo veiklą.
Dar vienas dažnai pamirštamas šaltinis – savivaldybių portalai. Daugelis Lietuvos miestų jau skelbia savo atviruosius duomenis. Vilnius, Kaunas, Klaipėda – visi turi atskiras duomenų platformas su labai specifine vietine informacija, kuri gali būti neįkainojama, jei kuriate lokaliai orientuotą paslaugą.
Kaip identifikuoti vertingus duomenis savo verslo kontekste
Dabar prie esmės – kaip iš šios informacijos gausybės atrinkti tai, kas tikrai pravers? Pradėkite nuo klausimo: kokią problemą sprendžiate? Kokios informacijos jums trūksta, kad priimtumėte geresnius sprendimus?
Tarkime, planuojate atidaryti kavinę. Kokių duomenų jums reikėtų? Demografiniai duomenys apie gyventojų skaičių ir amžiaus struktūrą konkrečiame rajone, pėsčiųjų srautai, konkurentų išsidėstymas, viešojo transporto stotelių lokacijos, vidutinės pajamos tame rajone. Visus šiuos duomenis galite rasti atvirose bazėse – nereikia samdyti brangių konsultantų.
Arba kuriate logistikos startuolį? Jums gali praversti duomenys apie kelių būklę, eismo intensyvumą skirtingu paros metu, degalinių išsidėstymą, oro sąlygas, net istoriniai duomenys apie eismo įvykius. Visa tai – viešai prieinama informacija.
Štai praktinis patarimas: sukurkite savo „duomenų pageidavimų sąrašą”. Užsirašykite, kokius sprendimus turite priimti artimiausiu metu, ir prie kiekvieno sprendimo nurodykite, kokia informacija padėtų jį priimti geriau. Tada pradėkite sistemingai ieškoti šių duomenų atvirose bazėse. Būsite nustebinti, kiek daug rasite.
Techniniai aspektai: formatai, įrankiai ir paprasti būdai dirbti su duomenimis
Gerai, radote reikiamus duomenis. Bet jie dažniausiai bus CSV, JSON, XML ar kitais formatais, kurie gali atrodyti bauginančiai techniškai. Nenusiminkite – nebūtina būti programuotoju, kad dirbtumėte su atvirais duomenimis.
CSV failai (tai tiesiog lentelės, panašios į Excel) yra paprasčiausi. Juos galite atidaryti su Google Sheets ar Microsoft Excel ir iš karto pradėti analizuoti. Galite kurti grafikus, skaičiuoti vidurkius, filtruoti informaciją – visa tai neišeinant iš pažįstamos aplinkos.
Jei duomenys sudėtingesni, verta išmokti naudoti keletą nemokamų įrankių. Google My Maps leidžia lengvai vizualizuoti geografinius duomenis – tiesiog įkeliate koordinates ir matote taškus žemėlapyje. Tai puiku, jei analizuojate vietų išsidėstymą ar planuojate logistiką.
Tableau Public – nemokama duomenų vizualizacijos programa, kuri leidžia kurti profesionaliai atrodančias diagramas ir interaktyvius grafikus. Taip, reikia šiek tiek laiko išmokti, bet yra daugybė nemokamų vadovėlių YouTube. Per savaitę jau galėsite kurti įspūdingas vizualizacijas.
Jei esate šiek tiek techniškesni arba turite komandoje žmogų su programavimo įgūdžiais, Python su pandas biblioteka yra aukso standartas duomenų analizei. Bet pakartosiu – tai neprivaloma. Daugelis sėkmingų projektų pradėjo tiesiog su Excel ir gera intuicija.
Realūs panaudojimo atvejai: nuo idėjos iki įgyvendinimo
Teorija gera, bet pažiūrėkime, kaip tai veikia praktikoje. Vienas Lietuvos startuolis sukūrė aplikaciją, kuri padeda rasti laisvą vietą valstybinėse poilsio vietose prie vandens telkinių. Kaip? Panaudojo atviruosius duomenis apie šių vietų koordinates, sujungė su realiu laiku atnaujinama informacija (kurią taip pat teikė valstybinės institucijos) ir pridėjo paprastą vartotojo sąsają. Projektas nesukainavo beveik nieko duomenų prasme – visa informacija buvo laisva.
Kitas pavyzdys – nekilnojamojo turto analizės įmonė, kuri naudoja atviruosius duomenis apie statybos leidimus, demografiją, infrastruktūros plėtrą ir viešojo transporto planus, kad prognozuotų, kuriose miesto dalyse nekilnojamasis turtas brangės greičiausiai. Jie šiuos duomenis sujungia su savo analize ir parduoda ataskaitas investuotojams. Jų pagrindinis turtas – ne unikalūs duomenys, o gebėjimas juos suderinti ir interpretuoti.
Arba paimkite žurnalistikos sritį. Investigatyviniai žurnalistai vis dažniau naudoja atviruosius duomenis apie viešuosius pirkimus, politikų deklaracijas, įmonių ryšius, kad atskleis korupciją ar interesų konfliktus. Tai, kas anksčiau reikalavo mėnesių tyrimų, dabar gali būti padaryta per savaites, nes duomenys jau yra – tereikia mokėti juos susieti.
Netgi labdaros organizacijos naudoja atviruosius duomenis. Viena organizacija, dirbanti su socialiai pažeidžiamais žmonėmis, panaudojo demografinius duomenis ir skurdo statistiką, kad identifikuotų rajonus, kur jų paslaugos reikalingiausios. Tai leido efektyviau paskirstyti ribotus išteklius.
Duomenų kokybė ir patikimumas: į ką atkreipti dėmesį
Ne visi atvirieji duomenys yra vienodai kokybiški. Tai svarbu suprasti iš karto, kad vėliau nepatirtumėte nusivylimo. Kai rasite reikiamų duomenų rinkinį, pirmiausia patikrinkite kelis dalykus.
Kada duomenys paskutinį kartą atnaujinti? Jei matote, kad duomenų bazė nebuvo atnaujinta trejetą metų, ji gali būti neberelevanti. Ypač tai aktualu greitai besikeičiančiose srityse – demografijoje, ekonomikoje, technologijose.
Kas yra duomenų šaltinis? Vyriausybinės institucijos paprastai yra patikimesnės nei atsitiktiniai projektai. Bet net ir tarp oficialių šaltinių kokybė gali skirtis. Pažiūrėkite, ar yra aprašyta metodologija – kaip duomenys buvo renkami, kokia imtis, kokie matavimo metodai naudoti.
Ar duomenys pilni? Dažnai atvirų duomenų rinkiniuose trūksta dalies informacijos – tuščios eilutės, neužpildyti laukai. Tai normalu, bet turite įvertinti, ar trūkstami duomenys nekritiškai paveiks jūsų analizę. Kartais geriau naudoti mažesnį, bet pilnesnį duomenų rinkinį nei didesnį su daugybe spragų.
Dar vienas aspektas – duomenų formatas ir struktūra. Idealiu atveju duomenys turėtų būti gerai struktūruoti, su aiškiais pavadinimais, standartizuotais formatais (pvz., datos visada tame pačiame formate). Deja, realybėje dažnai susiduriate su chaotiškais duomenimis, kuriuos reikia „valyti” prieš naudojant. Įskaičiuokite šiam darbui laiko.
Teisiniai ir etiniai aspektai: ką galima, o ko geriau nedaryti
Atvirieji duomenys yra „atviri”, bet tai nereiškia, kad su jais galite daryti absoliučiai viską be jokių apribojimų. Dažniausiai jie pateikiami su tam tikromis licencijomis, kurios apibrėžia naudojimo sąlygas.
Populiariausios licencijos – Creative Commons šeima. CC0 reiškia, kad duomenys visiškai laisvi, galite daryti ką norite. CC BY reikalauja tik nurodyti šaltinį. CC BY-SA reiškia, kad jūsų sukurtas produktas taip pat turi būti atviras. Prieš naudodami duomenis komerciniams tikslams, būtinai patikrinkite licenciją.
Ypač jautrūs yra asmens duomenys. Net jei rasite atvirą duomenų bazę su asmenine informacija (kas, beje, neturėtų nutikti pagal BDAR), tai nereiškia, kad galite ją naudoti. Lietuvoje ir ES asmens duomenų apsauga yra labai griežta, o baudos už pažeidimus – skaudžios.
Etiškai taip pat verta pagalvoti apie duomenų panaudojimo pasekmes. Tarkime, sukūrėte algoritmą, kuris pagal atviruosius demografinius duomenis identifikuoja „probleminius” rajonus. Kaip tai gali paveikti ten gyvenančius žmones? Ar jūsų analizė nesutvirtins neigiamų stereotipų? Duomenys yra galingi, o su didele galia ateina ir didelė atsakomybė.
Dar vienas praktinis patarimas – visada nurodykite duomenų šaltinį. Tai ne tik teisinis reikalavimas daugeliu atvejų, bet ir geros praktikos klausimas. Jei jūsų analizė ar produktas grindžiamas atvirais duomenimis, skaidrumas apie šaltinius didina patikimumą.
Iš duomenų į vertę: kaip paversti informaciją verslo privalumu
Turėti duomenis – viena, o sukurti iš jų vertę – visai kas kita. Čia daugelis ir suklysta. Jie parsisiunčia milžiniškas duomenų bazes, praleidžia valandas jas analizuodami, bet galiausiai nesupranta, ką su tuo daryti.
Raktas – pradėti nuo klausimo, o ne nuo duomenų. Ne „kokie duomenys man prieinami?”, o „kokį klausimą noriu atsakyti?” arba „kokią problemą noriu išspręsti?”. Duomenys yra įrankis, ne tikslas.
Tarkime, turite mažmeninės prekybos verslą ir norite optimizuoti atsargų valdymą. Klausimai galėtų būti: kada pirkėjų srautai didžiausi? Kaip oro sąlygos veikia pardavimus? Ar yra sezoniškumo? Dabar galite ieškoti atvirų duomenų, kurie padėtų atsakyti į šiuos klausimus – oro prognozių istoriniai duomenys, šventiniu dienu kalendoriai, vietos renginių duomenys.
Arba kuriate socialinį projektą, skirtą mažinti jaunimo nedarbą. Klausimai: kuriuose rajonuose jaunimo nedarbas didžiausias? Kokia yra šių rajonų švietimo infrastruktūra? Kur yra potencialūs darbdaviai? Atvirieji duomenys apie nedarbą, mokyklas, įmones padės atsakyti į šiuos klausimus ir efektyviau nukreipti išteklius.
Svarbu ir tai, kaip pateikiate savo išvadas. Sausas duomenų lentelių pristatymas nieką neįkvėps. Bet gerai padaryta vizualizacija, aiški istorija, paremta duomenimis, konkretūs skaičiai, paversti suprantamomis įžvalgomis – tai jau kitas lygis. Investuokite laiko į tai, kaip komunikuojate duomenimis pagrįstas išvadas.
Atvirų duomenų ekosistema kaip jūsų konkurencinis pranašumas
Grįžkime prie to startuolio kūrėjo, apie kurį minėjau pradžioje. Po mūsų pokalbio jis praleido savaitę tyrinėdamas atviruosius duomenis. Rado ne tik rinkos analizei reikalingos informacijos, bet ir visiškai naują verslo galimybę, apie kurią anksčiau nė negalvojo. Duomenys atskleidė nišą, kurios niekas dar nebuvo pastebėjęs.
Štai kas įdomu – didžiosios įmonės dažnai per daug pasitiki brangiais konsultantais ir uždaromis duomenų bazėmis. Jos moka šimtus tūkstančių už informaciją, kuri dažnai yra tik šiek tiek geresnė (o kartais net prastesnė) už tai, ką galite rasti atvirai. Tai jūsų, kaip mažesnio veikėjo, pranašumas – esate lankstesni, greitesni, galite eksperimentuoti be didžiulių investicijų.
Atvirų duomenų kultūra tik stiprėja. Kas mėnesį atsiranda naujų duomenų rinkinių, gerinamos esamos platformos, kuriami nauji įrankiai. Kas išmoksta efektyviai naudoti šiuos išteklius dabar, turės milžinišką pranašumą ateityje.
Nebijokite eksperimentuoti. Pradėkite nuo mažo – vieno konkretaus klausimo, vieno duomenų rinkinio. Išmokite jį panaudoti. Tada pereikite prie kito. Pamažu sukursite savo kompetenciją, suprasite, kur ieškoti, kaip analizuoti, kaip interpretuoti. Ir staiga pastebėsite, kad matote galimybes, kurių kiti nemato, priimate geresnius sprendimus, kuriate vertę ten, kur anksčiau atrodė neįmanoma.
Atvirieji duomenys nėra ateities dalykas – jie čia ir dabar. Klausimas tik, ar būsite tarp tų, kurie juos naudoja, ar tarp tų, kurie vis dar laukia, kol kas nors jiems pasakys, ką daryti. Pasirinkimas jūsų.