Kaip efektyviai naudoti atvirų duomenų portalus verslo sprendimams priimti: praktinis vadovas pradedantiesiems

Atvirų duomenų portalai – ne tik valdžios reikalas

Kai pirmą kartą išgirstate apie atvirų duomenų portalus, greičiausiai galvojate, kad tai kažkoks valdžios iniciatyvos produktas, skirtas tik statistikams ar akademikams. Tačiau realybė visai kitokia. Šie portalai gali tapti tikru aukso kasyklų verslininkams, kurie moka juos tinkamai panaudoti. Problema ta, kad dauguma verslo atstovų net nežino apie jų egzistavimą arba mano, kad duomenys per daug sudėtingi ar neaktualūs.

Lietuvoje veikia keletas tokių portalų – nuo oficialaus opendata.gov.lt iki įvairių ministerijų ir savivaldybių duomenų bazių. Europos Sąjungos lygmeniu turime data.europa.eu, o pasauliniu mastu galimybės dar platesnės. Šie portalai kaupia viską – nuo demografinių rodiklių iki eismo intensyvumo, nuo verslo registrų iki aplinkosaugos duomenų.

Tačiau štai kur slypi problema: dauguma šių duomenų pateikiami labai techniniais formatais – CSV, JSON, XML failai, kurie paprastam vartotojui atrodo kaip nesuprantamas kodas. Be to, duomenų kokybė kartais palieka norėti geresnio – trūksta atnaujinimų, yra praleistų reikšmių, o dokumentacija būna tokia miglota, kad reikia tikro detektyvo darbo suprasti, ką iš tikrųjų reiškia tam tikras stulpelis.

Kodėl verslas turėtų domėtis atvirais duomenimis

Įsivaizduokite, kad planuojate atidaryti kavinę Vilniuje. Vietoj to, kad pasitikėtumėte tik intuicija ar brangiais rinkos tyrimais, galite panaudoti atviruosius duomenis. Gyventojų tankumas pagal rajonus? Yra. Eismo srautai skirtingose gatvėse? Yra. Konkurentų skaičius pagal veiklos rūšis? Irgi yra. Vidutinės pajamos pagal savivaldybes? Galite rasti.

Realus pavyzdys: viena Lietuvos startuolių komanda naudojo atviruosius duomenis apie viešąjį transportą, kad sukurtų maršrutų optimizavimo sprendimą. Kita įmonė analizavo statybos leidimų duomenis, kad numatytų, kuriose vietose augs paklausa jų paslaugoms. Trečia – naudojo oro kokybės duomenis, kad reklamuotų oro valymo įrenginius tikslinėse vietose.

Bet ne viskas taip rožėmis klota. Didžiausia klaida, kurią daro pradedantieji – jie tikisi rasti paruoštus atsakymus į savo verslo klausimus. Realybėje rasite tik žaliavas, kurias reikia apdoroti, išvalyti, sujungti su kitais duomenimis ir tik tada interpretuoti. Tai reikalauja laiko ir bent minimalių duomenų analizės įgūdžių.

Nuo ko pradėti: pirmieji žingsniai be panikos

Pirmiausia – nereikia bandyti apkabinti viso pasaulio. Pradėkite nuo konkretaus verslo klausimo. Ne „kokie duomenys man galėtų būti naudingi”, o „kaip aš galiu padidinti pardavimus Kauno regione” arba „kur turėčiau atidaryti antrą parduotuvę”.

Turint konkretų klausimą, eikite į opendata.gov.lt ir tiesiog paieškokite pagal raktažodžius. Portalo paieška nėra tobula, tad būkite pasirengę eksperimentuoti su skirtingais terminais. Jei ieškote duomenų apie gyventojus, bandykite „demografija”, „gyventojai”, „populiacija”, „statistika” – dažnai duomenų rinkiniai pavadinami nelabai intuityviai.

Kai rasite potencialiai naudingą duomenų rinkinį, nepulkite jo iš karto atsisiųsti. Pirmiausia perskaitykite aprašymą (jei jis yra), pažiūrėkite metaduomenis – kada paskutinį kartą atnaujinta, kas yra duomenų šaltinis, kokiu formatu pateikta. Jei duomenys nebuvo atnaujinti ketverius metus, greičiausiai jie jums nebus labai naudingi.

Praktinis patarimas: pradėkite nuo mažesnių duomenų rinkinių. Failas su 50 000 eilučių gali atrodyti įspūdingai, bet jei nežinote, ką su juo daryti, jis bus tik bereikalingas balastas. Geriau raskite keletą mažesnių, bet aiškesnių rinkinių, su kuriais galėsite greitai eksperimentuoti.

Excel – jūsų geriausias draugas (bent iš pradžių)

Dabar ateis momentas, kai techniškai pasiruošę žmonės pradės man prieštarauti. Taip, žinau, kad Python su pandas biblioteka yra galingesnis. Taip, žinau, kad R yra sukurta būtent duomenų analizei. Bet jei esate pradedantysis ir neturite programavimo patirties, Microsoft Excel arba Google Sheets bus daugiau nei pakankamas įrankis.

Dauguma atvirų duomenų portalų leidžia atsisiųsti duomenis CSV formatu, kurį Excel atidaro be jokių problemų. Štai ką galite daryti su Excel:

  • Filtruoti duomenis pagal jus dominančius kriterijus (pvz., tik Vilniaus miestas, tik 2023 metai)
  • Kurti paprastas suvestines lenteles (pivot tables), kad pamatytumėte tendencijas
  • Skaičiuoti vidurkius, sumas, procentus – pagrindines statistikas
  • Vizualizuoti duomenis grafikais, kad lengviau suprastumėte, kas vyksta
  • Sujungti kelis duomenų rinkinius, jei turite bendrą stulpelį (pvz., savivaldybės kodą)

Tačiau būkite atsargūs su dideliais failais. Excel pradeda lėtėti, kai duomenų eilučių skaičius viršija šimtą tūkstančių. Be to, lengva padaryti klaidų, kurias vėliau sunku aptikti – ypač jei netyčia nutempiate formulę ne ten, kur reikia, arba filtruojate duomenis ir pamirštate, kad matote tik dalį.

Duomenų kokybės problema, apie kurią niekas nemėgsta kalbėti

Štai nemaloni tiesa: atvirieji duomenys dažnai būna prastos kokybės. Ne todėl, kad kas nors tyčia stengiasi jums pakenkti, o tiesiog todėl, kad duomenų publikavimas dažnai yra biurokratinė prievolė, o ne prioritetas. Susidursite su tokiomis problemomis:

Trūkstami duomenys – tam tikrose eilutėse bus tuščios reikšmės. Kartais tai reiškia „nėra duomenų”, kartais „netaikoma”, o kartais tiesiog niekas neužpildė. Kaip atskirti? Dažnai neįmanoma.

Nenuoseklūs formatai – vienose eilutėse data užrašyta kaip „2023-01-15”, kitose kaip „15/01/2023”, trečiose kaip „2023.01.15”. Suma gali būti su kableliu, su tašku, su valiutos ženklu arba be jo. Tai sukelia problemų automatiniam apdorojimui.

Klaidos ir nelogiškos reikšmės – rasite įrašų, kur gyventojų skaičius yra neigiamas, arba kur vienos dienos pajamos viršija metines. Tai gali būti duomenų įvedimo klaidos, sisteminės problemos ar tiesiog niekas nepatikrino prieš publikuojant.

Ką su tuo daryti? Pirmiausia – visada patikrinkite duomenis prieš darydami išvadas. Paskaičiuokite paprastas statistikas: minimumą, maksimumą, vidurkį. Jei matote, kad minimali algų reikšmė yra 0.01 euro, žinote, kad kažkas negerai. Sukurkite paprastus grafikus – jie dažnai atskleidžia anomalijas, kurių nepastebėtumėte skaičiuose.

Antra, būkite pasirengę duomenis valyti. Tai nuobodus darbas, bet būtinas. Kartais teks pašalinti akivaizdžiai klaidingas eilutes, kartais – užpildyti trūkstamas reikšmes vidurkiais ar kitais metodais, kartais – standartizuoti formatus. Tai gali užtrukti 50-70% viso projekto laiko, ir tai normalu.

Kaip sujungti skirtingus duomenų šaltinius į vieną vaizdą

Tikroji atvirų duomenų galia atsiskleidžia, kai pradedi jungti skirtingus šaltinius. Pavyzdžiui, jei sujungsite gyventojų demografinius duomenis su verslo registrų duomenimis ir pridėsite viešojo transporto prieinamumo informaciją, galite gauti unikalų vaizdą, kurio niekas kitas neturi.

Bet čia ir slypi didžiausias iššūkis. Skirtingi duomenų rinkiniai naudoja skirtingus identifikatorius. Vienas naudoja savivaldybės pavadinimą, kitas – kodą, trečias – koordinates. Kartais tie patys objektai skirtinguose rinkiniuose pavadinti skirtingai (pvz., „Vilniaus m. sav.” vs „Vilnius” vs „Vilniaus miestas”).

Praktinis sprendimas: sukurkite atskirą lentelę-žodyną, kuriame susieti skirtingi identifikatoriai. Pavyzdžiui, stulpelyje A – savivaldybės kodas, stulpelyje B – pilnas pavadinimas, stulpelyje C – trumpinys. Tada naudokite Excel VLOOKUP arba INDEX/MATCH funkcijas, kad sujungtumėte duomenis per šį žodyną.

Dar vienas patarimas: pradėkite nuo dviejų duomenų rinkinių, ne daugiau. Kai išmoksite juos sujungti ir gauti prasmingus rezultatus, pridėkite trečią. Bandymas iš karto sujungti penkis ar šešis šaltinius beveik garantuotai baigsis frustracija ir painiava.

Vizualizacija: kaip paversti skaičius įžvalgomis

Turite duomenis, juos išvalėte, galbūt net sujungėte kelis šaltinius. Dabar kas? Lentelė su skaičiais niekam neįdomi – net jums patiems. Reikia vizualizacijos.

Excel turi pakankamai gerų įrankių paprastoms vizualizacijoms. Stulpelinės diagramos, linijiniai grafikai, sklaidos diagramos – tai pagrindas. Bet štai keletas patarimų, kaip daryti tai efektyviai:

Neperkraukite grafiko. Vienas grafikas – viena pagrindinė mintis. Jei bandote parodyti dešimt skirtingų rodiklių viename grafike, niekas nieko nesupras. Geriau sukurkite kelis paprastus grafikus nei vieną sudėtingą.

Naudokite tinkamą grafiko tipą. Laiko eilutėms – linijiniai grafikai. Palyginimams tarp kategorijų – stulpelinės diagramos. Dalių ir visumos santykiui – skritulinės diagramos (nors jos dažnai kritikuojamos, kartais būna tinkamos). Dviejų kintamųjų ryšiui – sklaidos diagramos.

Jei norite daugiau galimybių, išbandykite nemokamus įrankius kaip Google Data Studio (dabar vadinamas Looker Studio) arba Tableau Public. Jie leidžia kurti interaktyvias vizualizacijas, kurias galite dalintis su kolegomis ar klientais. Bet vėlgi – nepulkite į sudėtingus įrankius, kol neišmokote pagrindų.

Svarbu suprasti, kad vizualizacija nėra tik gražus papuošimas. Tai analitinis įrankis. Dažnai tik sukūrus grafiką pastebite tendencijas, anomalijas ar ryšius, kurių nematėte skaičiuose. Tad kurkite vizualizacijas sau, net jei jų niekam nerodote – jos padės jums patiems geriau suprasti duomenis.

Realūs verslo scenarijai: nuo teorijos prie praktikos

Gana teorijos. Pažiūrėkime, kaip tai galėtų veikti realiame versle.

Scenarijus 1: Mažmeninė prekyba. Planuojate prekių pristatymo maršrutus. Naudojate atviruosius duomenis apie gyventojų tankumą, vidutines pajamas pagal rajonus ir eismo intensyvumą. Rezultatas: optimizuojate maršrutus taip, kad pirmiausiai aptarnautumėte tankiausiai apgyvendintus ir perkamiausiuosius rajonus, o tai sumažina pristatymo kaštus 15-20%.

Scenarijus 2: B2B paslaugos. Teikiate buhalterines paslaugas smulkiam verslui. Naudojate verslo registrų atviruosius duomenis, kad identifikuotumėte naujai įregistruotas įmones jūsų regione. Sukuriate automatinį pranešimą, kai registruojama nauja įmonė, ir iš karto siunčiate pasiūlymą. Tai padidina potencialių klientų srautą 30%.

Scenarijus 3: Nekilnojamasis turtas. Ieškote investicinių galimybių. Sujungiate duomenis apie statybos leidimus, infrastruktūros projektus (pvz., planuojamus viešojo transporto maršrutus) ir demografines tendencijas. Identifikuojate rajonus, kurie greičiausiai brangs per artimiausius 3-5 metus.

Šie scenarijai nėra teoriniai – tai realūs pavyzdžiai, kaip Lietuvos įmonės naudoja atviruosius duomenis. Bet atkreipkite dėmesį: nė vienas iš jų nenaudoja tik vieno duomenų šaltinio. Visada tai kelių šaltinių kombinacija, papildyta jų pačių verslo duomenimis.

Kai duomenų nepakanka arba jie netinkami

Būkime sąžiningi: kartais tiesiog nerasite reikiamų duomenų. Arba rasite, bet jie bus per seni, per bendrinti ar per neišsamūs. Tai frustruojanti, bet įprasta situacija.

Ką daryti tokiu atveju? Pirmiausia, nepasidavus iš karto. Kartais duomenys yra, tik pavadinti kitaip nei tikėjotės, arba publikuoti kitos institucijos portale. Pabandykite ieškoti plačiau – ne tik nacionaliniuose, bet ir savivaldybių, ministerijų ar net Europos lygmens portaluose.

Antra, galite pateikti oficialų prašymą. Pagal atvirų duomenų principus, valstybinės institucijos turėtų teikti duomenis pagal paklausą (žinoma, jei tai nepažeidžia privatumo ar kitų apribojimų). Tai gali užtrukti, bet kartais veikia.

Trečia, kombinuokite su kitais šaltiniais. Jei nėra tiesiogiai reikiamų duomenų, galbūt galite juos apytiksliai apskaičiuoti iš kitų rodiklių? Pavyzdžiui, jei nėra tiesioginių duomenų apie vidutines išlaidas kavai, bet yra duomenys apie bendrą maitinimo paslaugų apyvartą ir kavinių skaičių, galite padaryti apytikrį įvertinimą.

Ir galiausiai, pripažinkite, kada verta investuoti į pirminius tyrimus. Atvirieji duomenys yra puikus, nemokamas šaltinis, bet jie neatsako į visus klausimus. Kartais verta užsakyti specializuotą rinkos tyrimą ar pirkti komercinius duomenis, ypač jei sprendimas yra strategiškai svarbus.

Kas toliau: nuo pradedančiojo iki pažengusiojo

Jei jau jaučiatės patogiai su Excel ir atviraisiais duomenimis, ko mokytis toliau? Štai keletas krypčių:

SQL – duomenų bazių užklausų kalba. Daugelis atvirų duomenų portalų leidžia daryti API užklausas, o tai reiškia, kad galite automatiškai gauti naujausius duomenis be rankinio atsisiuntimo. SQL taip pat leidžia efektyviau apdoroti didelius duomenų kiekius.

Python su pandas – jei Excel tampa per lėtas ar per ribotas, Python su pandas biblioteka yra natūralus kitas žingsnis. Tai reikalauja programavimo įgūdžių, bet yra daug nemokamų kursų internete, o bendruomenė labai aktyvi.

Statistinė analizė – vien duomenų turėjimas neužtenka. Reikia mokėti juos tinkamai interpretuoti. Bent baziniai statistikos principai – hipotezių tikrinimas, koreliacija vs priežastingumas, imčių reprezentatyvumas – padės išvengti klaidingų išvadų.

Duomenų vizualizacijos įrankiai – jau minėjau Tableau ir Data Studio, bet yra ir daugiau: Power BI, Qlik, net specializuoti GIS įrankiai geografiniams duomenims. Kiekvienas turi savo privalumų.

Bet svarbiausia – praktika. Teorija yra gera, bet tikroji kompetencija ateina tik per realius projektus. Pradėkite nuo mažų, konkrečių verslo klausimų. Eksperimentuokite. Darykite klaidas ir mokykitės iš jų. Dalinkitės rezultatais su kolegomis ir gaukite grįžtamąjį ryšį.

Atvirieji duomenys nėra magiškas sprendimas visoms verslo problemoms. Jie nėra tobuli, dažnai reikalauja daug darbo, o rezultatai ne visada būna tokie, kokių tikėjotės. Bet jei mokate juos tinkamai naudoti, jie gali suteikti konkurencinį pranašumą, kurį kiti tiesiog praleidžia, nes net nežino, kad tokie duomenys egzistuoja. Taigi, verta pabandyti – prasčiausiu atveju išmoksite naujų įgūdžių, geriausiu – rasite aukso gyslas, kurios pakeis jūsų verslo sprendimus.