Duomenų vandenynas, kuriame galima rasti perlų
Prisimenu, kaip prieš kelerius metus draugas, ką tik įkūręs nedidelę kavinę Vilniaus senamiestyje, klausinėjo, kur galėtų rasti informacijos apie miesto gyventojų srautus, turistų skaičių ar konkurentų išsidėstymą. Tada jam pasakiau apie atvirų duomenų portalus, o jo veidas išreiškė tą pačią sumaištį, kurią matau daugelio pradedančiųjų verslininkų akyse. „Atvirieji duomenys? Tai kažkas techninio, ar ne?” – paklausė jis. Ne, tai ne kažkas techninio. Tai tiesiog informacija, kurią valstybės institucijos, savivaldybės ir įvairios organizacijos renka kasdieniame darbe ir dalijasi ja viešai.
Šiandien atvirų duomenų portalai yra tarsi neišnaudotas aukso klodas daugeliui smulkių ir vidutinių įmonių. Tuo metu, kai didžiosios korporacijos samdo analitikų komandas ir perka brangias rinkos ataskaitas, jūs galite gauti nemažai vertingos informacijos visiškai nemokamai. Tereikia žinoti, kur žiūrėti ir kaip tą informaciją interpretuoti.
Kodėl atvirieji duomenys – ne tik biurokratų žaislas
Daugelis verslininkų klysta manydami, kad atvirieji duomenys skirti tik akademikams ar žurnalistams. Tiesą sakant, šie duomenys gali tapti jūsų konkurenciniu pranašumu. Įsivaizduokite, kad planuojate atidaryti sporto prekių parduotuvę. Atvirų duomenų portaluose galite rasti informaciją apie gyventojų amžiaus struktūrą skirtinguose rajonuose, vidutines pajamas, esamų sporto objektų išsidėstymą, net oro sąlygų statistiką, kuri gali padėti numatyti sezoniškumą.
Viena nedidelė transporto įmonė, su kuria teko bendradarbiauti, panaudojo atviruosius duomenis apie kelio dangos būklę, eismo įvykius ir remonto darbus planuodama efektyviausius maršrutus. Rezultatas? Sumažėjo degalų sąnaudos dešimčia procentų, o klientų pasitenkinimas išaugo, nes kroviniai pradėjo atvykti laiku.
Atvirieji duomenys – tai ne abstrakti statistika. Tai realūs skaičiai apie realius žmones, jų poreikius, elgesį ir aplinką, kurioje veikia jūsų verslas. Tik reikia išmokti juos skaityti kaip žemėlapį, vedantį link geresnių sprendimų.
Pirmieji žingsniai duomenų jūroje
Pradėti naudotis atvirų duomenų portalais paprasčiau, nei atrodo. Lietuvoje pagrindinis šaltinis yra data.gov.lt portalas, kuriame rasite tūkstančius duomenų rinkinių iš įvairiausių sričių. Europos Sąjungos lygmeniu veikia data.europa.eu, o pasauliniu mastu – daug šalių turi savo nacionalinius portalus.
Pirmiausia, prieš nardydami į duomenų vandenyną, sustokite ir pagalvokite: kokio klausimo ieškau atsakymo? Tai svarbiausias žingsnis. Neretai žmonės pradeda naršyti duomenis be aiškaus tikslo ir greitai pasimeta. Geriau suformuluokite konkretų klausimą. Pavyzdžiui, ne „noriu žinoti apie savo rinką”, o „kiek 25-40 metų amžiaus žmonių gyvena 5 km spinduliu nuo planuojamos parduotuvės vietos?”
Kai turite klausimą, pradėkite nuo paprastos paieškos portale. Dauguma jų turi intuityvią paieškos sistemą su filtrais pagal kategoriją, organizaciją ar duomenų formatą. Neišsigąskite, jei iš karto nerasite tiksliai to, ko ieškote – kartais reikia pažiūrėti iš kitos pusės. Ieškote informacijos apie perkamąją galią? Galbūt rasite duomenis apie vidutines algas, nedarbo lygį ar socialinės paramos gavėjų skaičių, kurie kartu sudarys jums reikiamą vaizdą.
Duomenų formatai ir kaip su jais dirbti
Atsisiuntę pirmąjį duomenų rinkinį, greičiausiai susidursite su failais, kurių plėtiniai atrodo kaip slapta kalba: CSV, JSON, XML, XLS. Nereikia išsigąsti – dauguma jų yra paprasčiau suprantami, nei atrodo.
CSV (Comma-Separated Values) failai yra patys draugiškiausi pradedantiesiems. Tai iš esmės tekstiniai failai, kuriuos galite atidaryti net su „Excel” programa. Kiekviena eilutė – tai įrašas, o vertės atskirtos kableliais ar kabliataškiais. Pavyzdžiui, jei atsisiųsite duomenis apie įmones, kiekviena eilutė gali būti viena įmonė su stulpeliais: pavadinimas, adresas, veiklos sritis, darbuotojų skaičius.
JSON ir XML formatai šiek tiek sudėtingesni, bet juos taip pat galima peržiūrėti paprastais teksto redaktoriais. Tiesa, jie labiau tinkami, jei planuojate automatizuoti duomenų apdorojimą ar integruoti juos į sistemas. Pradedantiesiems rekomenduočiau ieškoti duomenų CSV arba XLS formatais – su jais galėsite dirbti naudodami įprastas skaičiuoklių programas.
Vienas praktiškų patarimų: kai atsisiunčiate duomenų rinkinį, pirmiausia pažiūrėkite į jo metaduomenis – aprašymą, kada duomenys buvo atnaujinti, kas juos pateikė. Tai padės suprasti, ar duomenys vis dar aktualūs ir patikimi. Kartais rasite puikų duomenų rinkinį, bet paaiškės, kad jis atnaujintas paskutinį kartą prieš penkerius metus – tokia informacija gali būti neberelevanti.
Kaip paversti skaičius įžvalgomis
Turite duomenis – puiku. Bet dabar prasideda tikrasis darbas. Duomenys patys savaime nieko nereiškia; jie tampa vertingi tik tada, kai juos analizuojate kontekste ir ieškote modelių.
Pradėkite nuo paprasto duomenų apžvalgos. Atidarykite failą skaičiuoklėje ir pasižiūrėkite, ką matote. Kiek įrašų yra? Kokie stulpeliai? Ar yra akivaizdžių klaidų ar trūkstamų verčių? Kartais duomenų rinkiniuose pasitaiko keistų dalykų – pavyzdžiui, amžius nurodytas kaip 150 metų arba miestas įrašytas skirtingais būdais („Vilnius”, „vilnius”, „VLN”). Tokius dalykus reikia pastebėti ir išvalyti.
Toliau – ieškokite tendencijų. Jei turite duomenis per laikotarpį, pasižiūrėkite, kaip rodikliai keitėsi. Jei turite geografinius duomenis, pamėginkite juos vizualizuoti žemėlapyje. Šiuolaikinės skaičiuoklių programos turi įmontuotų įrankių grafikams kurti – naudokitės jais. Žmogaus smegenys daug geriau suvokia informaciją vizualiai nei skaičių eilutėse.
Vienas mano pažįstamas, prekiaujantis ekologiškais produktais, panaudojo atviruosius duomenis apie oro taršą skirtinguose Vilniaus rajonuose. Sukūrė paprastą žemėlapį, kuriame pažymėjo taršiausias vietas, ir pastebėjo, kad būtent tuose rajonuose gyvena daugiausia šeimų su vaikais (tai irgi buvo galima sužinoti iš atvirų duomenų). Tai tapo pagrindu jo rinkodaros kampanijai, pabrėžiančiai, kaip sveika mityba gali kompensuoti aplinkos poveikį. Pardavimai išaugo 30 procentų.
Duomenų derinimas – kai vienas plius vienas lygu trys
Tikroji atvirų duomenų galia atsiskleidžia tada, kai pradedame derinti skirtingus duomenų rinkinius. Tai kaip sudėlioti dėlionę – atskiri gabalėliai galbūt neatrodo įspūdingai, bet kartu jie sukuria aiškų vaizdą.
Tarkime, planuojate atidaryti vaikų žaidimų kambarį. Galite panaudoti duomenis apie gimstamumą (kiek vaikų gimsta kasmet), apie darželių ir mokyklų išsidėstymą (kur koncentruojasi šeimos su vaikais), apie vidutines pajamas rajonuose (ar žmonės galės sau leisti jūsų paslaugas), apie esamų pramogų centrų vietoves (kur mažiausia konkurencija). Kiekvienas šių duomenų rinkinių atskirai duoda tik dalį informacijos, bet kartu jie padeda priimti labai pagrįstą sprendimą.
Derinant duomenis svarbu rasti bendrą vardiklį – kažką, kas sieja skirtingus rinkinius. Dažniausiai tai būna geografinė vieta (adresas, rajonas, miestas) arba laikas (metai, mėnuo). Pavyzdžiui, jei viename rinkinyje turite įmones su adresais, o kitame – demografinius duomenis pagal rajonus, galite susieti juos per rajoną.
Praktiškai tai daroma skaičiuoklėse naudojant tokias funkcijas kaip VLOOKUP arba INDEX/MATCH. Taip, tai skamba techniškai, bet iš tikrųjų tai tik būdas pasakyti programai: „pažiūrėk, ar šis adresas priklauso tam rajonui, ir jei taip, pridėk prie jo to rajono demografinius duomenis”. Internete rasite daugybę paprastų vadovų, kaip tai padaryti.
Kai duomenys tampa strategija
Atvirieji duomenys gali padėti ne tik priimant vienkartinius sprendimus, bet ir formuojant ilgalaikę verslo strategiją. Reguliariai stebėdami tam tikrus rodiklius, galite pastebėti pokyčius rinkoje anksčiau nei jūsų konkurentai.
Pavyzdžiui, statybų įmonė gali stebėti duomenis apie išduotus statybos leidimus – tai padės numatyti, kur atsiras naujų gyvenamųjų rajonų, o kartu ir potencialių klientų. Maisto produktų gamintojas gali analizuoti duomenis apie žemės ūkio produkciją ir kainas – tai padės planuoti užpirkimus ir kainas. Technologijų startuolis gali sekti duomenis apie švietimą ir specialistų rengimą – tai padės suprasti, kokių įgūdžių darbuotojų bus daugiau rinkoje ateityje.
Svarbu sukurti sistemą, kaip reguliariai peržiūrėsite jums svarbius duomenis. Galbūt kartą per ketvirtį, galbūt kartą per metus – priklausomai nuo jūsų verslo specifikos. Kai kurie portalai leidžia užsiprenumeruoti duomenų rinkinius ir gauti pranešimus, kai jie atnaujinami. Naudokitės tokiomis galimybėmis.
Viena svarbi pastaba: duomenys rodo, kas vyko praeityje ir kas vyksta dabar, bet jie neprognozuoja ateities automatiškai. Jūsų užduotis – interpretuoti tendencijas ir daryti išvadas. Jei matote, kad tam tikrame rajone sparčiai auga gyventojų skaičius, tai nereiškia, kad taip bus ir toliau – galbūt ten baigiasi naujas gyvenamasis projektas ir augimas sustabdys. Visada žiūrėkite į platesnį kontekstą.
Duomenų etika ir atsakomybė
Nors atvirieji duomenys yra vieši ir laisvai prieinami, tai nereiškia, kad su jais galima daryti bet ką. Yra keletas etinių principų, kurių verta laikytis.
Pirma, patikrinkite duomenų licenciją. Dauguma atvirų duomenų pateikiami su atvirosiomis licencijomis, leidžiančiomis juos naudoti komerciniais tikslais, bet kartais būna apribojimų. Geriau praleisti penkias minutes perskaitant licencijos sąlygas nei vėliau susidurti su teisiniais sunkumais.
Antra, būkite atsargūs su duomenimis, kurie gali būti susiję su konkrečiais žmonėmis. Net jei duomenys yra anoniminiai, kartais derinant kelis rinkinius galima identifikuoti asmenis. Tai ne tik etiškai abejotina, bet ir neteisėta pagal BDAR reikalavimus.
Trečia, būkite sąžiningi interpretuodami duomenis. Lengva manipuliuoti statistika, kad ji atrodytų palankesnė jūsų versijai. Bet ilgalaikėje perspektyvoje tai pakenkia ne tik kitiems, bet ir jums patiems – priimsite sprendimus, pagrįstus iškraipyta tikrove.
Ketvirta, atkreipkite dėmesį į duomenų kokybę ir šaltinį. Ne visi atvirieji duomenys yra vienodai patikimi. Pirmenybę teikite oficialiems šaltiniams – valstybės institucijoms, savivaldybėms, pripažintoms organizacijoms. Jei naudojate duomenis iš mažiau žinomų šaltinių, pabandykite juos patvirtinti kitais būdais.
Kelionė, kuri tik prasideda
Grįžtant prie mano draugo su kavine – po kelių mėnesių darbo su atviraisiais duomenimis jis ne tik optimizavo savo verslo modelį, bet ir pradėjo matyti miestą visiškai kitomis akimis. Kiekvienas rajonas tapo ne tik geografine vieta, bet ir duomenų rinkiniu su savo charakteristikomis, galimybėmis ir iššūkiais. Dabar jis planuoja atidaryti antrą kavinę, ir šįkart visas procesas prasideda nuo duomenų analizės.
Atvirieji duomenys nėra magiškas sprendimas visoms verslo problemoms. Jie neatstoja patirties, intuicijos ar rinkos pažinimo. Bet jie yra galingas įrankis, kuris gali papildyti jūsų sprendimų priėmimo procesą objektyvia, patikima informacija. Pradedantiesiems gali atrodyti, kad tai sudėtinga ir laiko reikalaujanti veikla, bet kaip ir bet kokį įgūdį, duomenų analizę galima išmokti žingsnis po žingsnio.
Pradėkite nuo mažų dalykų. Pasirinkite vieną konkretų klausimą, susijusį su jūsų verslu. Raskite atitinkamą duomenų rinkinį. Atsisiųskite jį ir pabandykite paanalizuoti. Galbūt pirmieji bandymai nebus tobuli, bet kiekvienas kartas mokys kažko naujo. Su laiku pastebėsite, kad pradėsite galvoti duomenimis – klausinėsite savęs, kokius duomenis galėtumėte panaudoti įvairiose situacijose, kaip galėtumėte patikrinti savo prielaidas skaičiais.
Gyvename laikais, kai informacija yra viena vertingiausių prekių. Atvirieji duomenys demokratizuoja prieigą prie šios informacijos, suteikdami mažiems verslininkams galimybes, kurios anksčiau buvo prieinamos tik didelėms korporacijoms. Naudokitės šia galimybe. Jūsų konkurentai galbūt jau tai daro.