Kaip naudotis atvirais duomenimis ir nemokamais automatiniais vertėjais norint greitai apdoroti užsienio kalbomis paskelbtus viešuosius pranešimus

Kodėl viešieji pranešimai užsienio kalba tampa galvos skausmu

Įsivaizduokite situaciją: jūs esate žurnalistas, tyrėjas ar tiesiog aktyvus pilietis, kuris nori sekti, ką skelbia kaimyninės šalies valdžios institucijos. Arba dirbate nevyriausybinėje organizacijoje ir turite greitai suprasti, ką reiškia Europos Komisijos paskelbtas sprendimas prancūzų kalba. Dokumentas yra viešas, nemokamas, prieinamas — bet jis parašytas kalba, kurios jūs nemokate. Ir čia prasideda tikrasis iššūkis.

Šiandien atvirų duomenų portalai, valdžios institucijų svetainės ir tarptautinių organizacijų bazės yra tiesiog perpildytos informacija. Europos Sąjunga viena skelbia dokumentus 24 oficialių kalbų. Jungtinių Tautų sistema naudoja šešias oficialias kalbas. Atskirų šalių registrai, teismų sprendimai, biudžeto ataskaitos — visa tai kaupiasi internete, bet dažnai lieka nepasiekiama tiems, kas nemoka atitinkamos kalbos. Vertėjų samdymas kainuoja, o laikas dažnai yra prabanga, kurios nėra.

Laimei, per pastaruosius kelerius metus automatinio vertimo technologijos padarė milžinišką šuolį. Ir jei mokate jomis naudotis protingai — ne aklai, o su galva — galite sutaupyti daugybę valandų ir gauti tikrai naudingų rezultatų. Šiame straipsnyje kalbėsime apie tai, kaip tai padaryti praktiškai.

Atvirų duomenų ekosistema: kur ieškoti ir ką rasti

Prieš kalbant apie vertimą, verta suprasti, kur apskritai randami tie viešieji pranešimai. Atvirų duomenų judėjimas per pastarąjį dešimtmetį gerokai išsiplėtė, ir šiandien yra keletas pagrindinių šaltinių, kuriuos verta žinoti.

Europos Sąjungos institucijų portalai — tai turbūt gausiausias šaltinis Lietuvos vartotojams. EUR-Lex (eur-lex.europa.eu) talpina visą ES teisės aktų bazę, ir dauguma dokumentų yra prieinami visomis oficialiosiomis kalbomis. Tai reiškia, kad jei dokumentas paskelbtas tik vokiškai ar graikiškai, dažnai galite rasti jo lietuvišką arba anglišką versiją tiesiog pakeisdami kalbos nustatymą URL adrese. Tačiau ne visi dokumentai verčiami — ypač tai liečia darbo dokumentus, technines ataskaitas ir preliminarius pasiūlymus.

Data.europa.eu — oficialus ES atvirų duomenų portalas, kuriame kaupiami duomenų rinkiniai iš visų valstybių narių. Čia rasite viską: nuo aplinkosaugos matavimų iki viešųjų pirkimų statistikos. Metaduomenys dažnai būna kelių kalbų, bet patys duomenų rinkiniai — ne visada.

Nacionaliniai atvirų duomenų portalai — kiekviena ES šalis turi savo. Prancūzijos data.gouv.fr, Vokietijos govdata.de, Lenkijos dane.gov.pl — visi jie skelbia institucijų duomenis ir pranešimus. Čia jau tikrai reikia vertimo pagalbos, nes dokumentai beveik visada būna tik nacionaline kalba.

Tarptautinės organizacijos — JT, Pasaulio bankas, TVF, PSO — visos turi atviras duomenų bazes su ataskaitomis, pranešimais spaudai ir statistika. Anglų kalba čia dominuoja, bet ne visada.

Praktinis patarimas: prieš imdamiesi vertimo, visada patikrinkite, ar dokumento nėra jau išversto. Daugelis institucijų turi kalbų perjungimo mygtuką, kuris nematomas iš pirmo žvilgsnio. Taip pat verta Google paieškoje įvesti dokumento pavadinimą su priedu „site:europa.eu” arba „filetype:pdf” — kartais oficialus vertimas egzistuoja, tik sunkiai randamas.

Automatiniai vertėjai: kas yra rinkoje ir kaip jie skiriasi

Šiandien nemokamų automatinių vertimo įrankių yra daugiau nei bet kada. Bet ne visi jie vienodai tinka darbui su oficialiais dokumentais. Čia svarbu suprasti, kad skirtingi įrankiai turi skirtingus stipriuosius ir silpnuosius taškus.

Google Translate — labiausiai žinomas, bet ne visada geriausias. Puikiai veikia su populiariomis kalbomis (anglų, prancūzų, vokiečių, ispanų), bet su mažesnėmis kalbomis — suomių, estų, maltiečių — kokybė gerokai krenta. Privalumas: galima tiesiogiai įklijuoti URL adresą ir versti ištisas svetaines realiu laiku. Taip pat turi dokumentų vertimo funkciją — galite įkelti PDF ar Word failą ir gauti išverstą versiją su išlaikyta formatavimo struktūra.

DeepL — tarp profesionalų laikomas aukso standartu Europos kalboms. Ypač gerai veikia su vokiečių, prancūzų, italų, lenkų, olandų kalbomis. Nemokama versija leidžia versti iki 5000 simbolių vienu kartu, o dokumentų vertimas — iki trijų failų per mėnesį. Tekstas skamba natūraliau, geriau išlaikoma kontekstinė prasmė. Jei dirbate su ES institucijų dokumentais, DeepL dažnai duos geresnį rezultatą nei Google Translate.

Microsoft Translator (integruotas į Edge naršyklę ir Microsoft 365) — patogus tiems, kas dirba su Office dokumentais. Leidžia versti Word failus tiesiogiai programoje. Kokybė panaši į Google Translate, bet tam tikroms kalbų poroms — ypač rytų europiečių — kartais pranoksta.

LibreTranslate — atvirojo kodo sprendimas, kurį galima paleisti ir savo serveryje. Svarbu tiems, kurie dirba su jautriais duomenimis ir nenori, kad tekstas keliautų į trečiųjų šalių serverius. Kokybė kuklesnė, bet privatumo požiūriu — nepriekaištinga.

eTranslation — mažai žinomas, bet labai vertingas įrankis. Tai Europos Komisijos sukurtas nemokamas vertimo servisas, skirtas specialiai ES institucijų dokumentams. Jis apmokytas su ES teisės aktų tekstais, todėl teisinę ir administracinę terminiją verčia žymiai tiksliau nei komerciniai įrankiai. Prieiga per ec.europa.eu/cefdigital/wiki/display/CEFDIGITAL/eTranslation — registracija nemokama.

Kaip praktiškai apdoroti didelius dokumentų kiekius

Vienas dalykas — išversti vieną trumpą pranešimą. Visai kitas — kai reikia apdoroti dešimtis ar šimtus dokumentų. Čia jau reikia sistemingesio požiūrio.

Pirmas žingsnis — automatizuotas dokumentų surinkimas. Daugelis atvirų duomenų portalų turi RSS srautus arba API, per kuriuos galima gauti naujausius dokumentus automatiškai. Pavyzdžiui, EUR-Lex turi SPARQL endpoint’ą, per kurį galima užklausti konkrečios tematikos dokumentus. Jei nemokate programuoti, paprastesnis variantas — naudoti tokius įrankius kaip Feedly ar Inoreader, kurie gali sekti RSS srautus iš institucijų svetainių ir rodyti naujus dokumentus vienoje vietoje.

Antras žingsnis — dokumentų paruošimas vertimui. PDF failai dažnai būna „užrakinti” — tai yra, tekstas juose yra kaip paveikslėlis, ne kaip tikras tekstas. Tokiu atveju prieš vertimą reikia OCR (optinio simbolių atpažinimo) programos. Nemokamos alternatyvos: Adobe Acrobat online versija, Smallpdf.com, arba atvirojo kodo Tesseract OCR. Pastarasis veikia komandinėje eilutėje, bet palaiko daugybę kalbų ir duoda labai gerus rezultatus.

Trečias žingsnis — masinis vertimas. Jei turite daug trumpų tekstų (pavyzdžiui, pranešimų pavadinimus ir santraukas), galite naudoti Google Sheets su integruota GOOGLETRANSLATE funkcija. Tiesiog įklijuojate tekstą į vieną stulpelį, kitame stulpelyje rašote formulę =GOOGLETRANSLATE(A1,"fr","lt") — ir gaunate vertimą automatiškai. Tai ypač naudinga, kai reikia greitai peržvelgti didelį dokumentų sąrašą ir nuspręsti, kurie iš jų verti gilesnio skaitymo.

Ketvirtas žingsnis — rezultatų organizavimas. Išversti dokumentai turi būti kažkaip struktūruoti, kad vėliau galėtumėte juos rasti. Rekomenduoju naudoti Notion, Obsidian arba paprastą Excel lentelę su stulpeliais: šaltinis, data, originalo kalba, tema, vertimo kokybės įvertinimas (1-5), nuoroda į originalą. Taip sukuriate savo mini duomenų bazę, kurią vėliau galima filtruoti ir ieškoti.

Spąstai, į kuriuos pakliūva net patyrę vartotojai

Automatinis vertimas yra galingas įrankis, bet jis gali ir suklaidinti — kartais labai rimtai. Yra keletas tipinių klaidų, kurias verta žinoti iš anksto.

Teisinė terminija — tai didžiausias galvos skausmas. Žodžiai, kurie kasdienėje kalboje reiškia vieną dalyką, teisiniame kontekste gali reikšti visai kitą. Prancūziškas žodis arrêté Google Translate dažnai verčia tiesiog kaip „sustabdytas” arba „areštuotas”, nors teisiniame kontekste tai reiškia „nutarimas” arba „įsakymas”. Vokiškas Bescheid — tai administracinis sprendimas, bet automatinis vertėjas gali jį paversti tiesiog „žinia” ar „pranešimu”.

Skaičiai ir datos — atrodytų, kad čia problemų neturėtų būti, bet būna. Kai kuriose šalyse datos rašomos skirtinga tvarka, taškai ir kableliai skaičiuose naudojami priešingai nei Lietuvoje. Vokietijoje 1.000,50 reiškia tūkstantį ir penkiasdešimt centų, o ne dešimt su puse. Automatinis vertėjas šito nepataisys — tai lieka jūsų atsakomybė.

Akronimai ir santrumpos — kiekviena šalis turi savo institucijų pavadinimų santrumpas. Prancūziškas DREAL, vokiškas BMWK, lenkiškas GUS — automatinis vertėjas arba palieka juos nepaliestus, arba bando išversti pažodžiui, kas dažnai neturi prasmės. Sprendimas: prieš vertimą sukurkite savo glosarių sąrašą ir rankiniu būdu patikrinkite visus akronimus.

Neigimo konstrukcijos — tai subtiliausia problema. Kai kuriose kalbose neigimas veikia kitaip nei lietuvių ar anglų kalbose. Dvigubas neigimas kai kuriose kalbose sustiprina neigimą, kitose — panaikina. Automatinis vertėjas čia gali suklysti, ir rezultatas bus visiškai priešingas originalui. Tai ypač pavojinga skaitant teisinius dokumentus ar medicininius pranešimus.

Praktinė rekomendacija: jei dokumentas yra svarbus ir sprendimai bus priimami remiantis jo turiniu — visada patikrinkite bent kelias pagrindines frazes su antru vertimo įrankiu. Jei abu duoda panašų rezultatą, tikimybė, kad vertimas teisingas, yra žymiai didesnė.

Dirbtinis intelektas kaip vertimo kokybės tikrintojas

Čia prasideda įdomiausia dalis. Per pastaruosius dvejus metus didelių kalbų modeliai — ChatGPT, Claude, Gemini — tapo prieinami plačiajai visuomenei, ir jie gali atlikti funkciją, kurios tradiciniai vertėjai negali: paaiškinti kontekstą.

Štai kaip tai veikia praktiškai. Jūs išverčiate dokumentą su DeepL ar Google Translate. Tada įklijuojate išverstą tekstą į ChatGPT ir klausiate: „Ar šiame tekste yra frazių, kurios gali būti netiksliai išverstos iš [kalbos]? Ypač domina teisiniai ar administraciniai terminai.” Didelių kalbų modeliai dažnai sugeba identifikuoti problematiškas vietas ir pasiūlyti alternatyvius vertimus.

Taip pat galite naudoti kitą strategiją: įklijuoti originalų tekstą (jei jis neilgas) ir paprašyti modelio paaiškinti pagrindinę jo prasmę savo žodžiais. Tai ne vertimas, o interpretacija — ir kartais ji yra vertingesnė, nes atskleidžia, ką dokumentas iš tikrųjų reiškia, o ne tik ką jis sako.

Tačiau ir čia yra ribos. Didelių kalbų modeliai gali „haliucinuoti” — tai yra, sugalvoti informaciją, kurios originale nėra. Jie taip pat gali turėti žinių apie konkrečios šalies teisės sistemą, bet ta informacija gali būti pasenusi. Todėl DI modeliai — tai papildomas tikrinimo įrankis, ne galutinis autoritetas.

Nemokamos galimybės: ChatGPT nemokama versija (GPT-3.5), Google Gemini, Microsoft Copilot (integruotas į Edge naršyklę) — visi jie gali padėti su konteksto aiškinimu. Mokamos versijos (GPT-4, Claude 3) dirba su ilgesniais tekstais ir duoda tikslesnius rezultatus, bet pradedantiesiems nemokamų versijų pakanka.

Privatumas ir etika dirbant su viešaisiais dokumentais

Šis aspektas dažnai pamirštamas, bet yra svarbus. Kai naudojate nemokamus online vertimo įrankius, jūsų tekstas keliauja į trečiųjų šalių serverius. Dauguma komercinių vertimo paslaugų naudoja pateiktus tekstus savo modelių tobulinimui — tai parašyta jų privatumo politikoje, kurią niekas neskaito.

Jei dirbate su dokumentais, kuriuose yra asmens duomenų — net jei tie dokumentai yra „vieši” — turite būti atsargūs. BDAR (GDPR) reikalavimai taikomi ir tada, kai duomenis apdorojate jūs, o ne tik tada, kai juos skelbia institucija. Pavyzdžiui, teismo sprendimas gali būti viešas, bet jame esančius asmens duomenis siųsti į Google serverius — jau diskutuotinas klausimas.

Sprendimai: LibreTranslate galima paleisti lokaliai savo kompiuteryje arba organizacijos serveryje — tada duomenys niekur nekeliauja. Argos Translate — dar vienas atvirojo kodo įrankis, veikiantis visiškai offline. Kokybė kuklesnė, bet privatumas — absoliutus.

Etikos klausimas yra ir kitas: automatiškai išversti dokumentai neturėtų būti cituojami kaip oficialūs vertimai. Jei rašote straipsnį ar ataskaitą, visada nurodykite, kad vertimas yra automatinis ir neoficialus. Tai ne tik akademinė sąžiningumo taisyklė — tai apsauga nuo klaidų, kurios gali turėti realių pasekmių.

Kai vertimas tampa tyrimo įrankiu: praktiniai scenarijai

Teorija — gerai, bet pažiūrėkime, kaip visa tai atrodo realiame gyvenime. Štai keli scenarijai, kurie iliustruoja, kaip šie įrankiai gali būti naudojami praktiškai.

Scenarijus pirmas: žurnalistas seka ES finansavimą. Tyrėjas nori suprasti, kaip Vengrija naudoja ES struktūrinius fondus. Eina į kohesio.ec.europa.eu — čia yra visi projektai su finansavimo sumomis. Dalis duomenų yra angliškai, bet projektų aprašymai — vengriškai. Naudoja Google Translate svetainės vertimui realiu laiku (per Chrome naršyklę tai daroma vienu paspaudimu), gauna bendrą vaizdą. Įtartinus projektus atsisiunčia kaip PDF, verčia per DeepL, o sudėtingus terminus tikrina su ChatGPT. Visas procesas — kelios valandos vietoj kelių dienų su profesionaliu vertėju.

Scenarijus antras: NVO stebi aplinkosaugos pranešimus. Organizacija nori sekti, ką skelbia Lenkijos aplinkos apsaugos inspekcija apie pramonės taršą prie sienos. Sukuria RSS srautą iš institucijos svetainės per rss.app (nemokamas įrankis, kuris sukuria RSS iš bet kurios svetainės), siunčia jį į Feedly. Kai pasirodo naujas pranešimas, automatiškai verčia jo antraštę ir santrauką per Google Sheets GOOGLETRANSLATE funkciją. Jei turinys aktualus — skaito visą dokumentą per DeepL.

Scenarijus trečias: mokslininkas analizuoja užsienio politikos dokumentus. Politologas nori palyginti, kaip skirtingos šalys formuluoja savo nacionalinio saugumo strategijas. Atsisiunčia dokumentus iš kelių šalių oficialių svetainių, naudoja OCR įrankį tekstui ištraukti, verčia per DeepL, tada naudoja kokybinės turinio analizės programą MAXQDA ar nemokamą Taguette kodavimui. Automatinis vertimas čia nėra galutinis produktas — tai tik žingsnis duomenų apdorojimo grandinėje.

Visais šiais atvejais svarbu prisiminti vieną taisyklę: automatinis vertimas yra orientavimosi įrankis, ne galutinis šaltinis. Jis padeda suprasti, apie ką dokumentas, ir nuspręsti, ar verta investuoti laiką į gilesnį tyrimą su profesionaliu vertėju ar kalbos mokančiu kolega.

Kai greitis svarbesnis už tobulumą — ir atvirkščiai

Visa ši tema galiausiai susiveda į vieną esminį klausimą: kada pakanka automatinio vertimo ir kada jo nepakanka? Atsakymas priklauso nuo to, kokiam tikslui vertimas naudojamas.

Jei tikslas yra orientavimasis — suprasti, apie ką dokumentas, ar jis aktualus, kokia jo pagrindinė žinutė — automatinis vertimas puikiai tinka. Čia greitis yra svarbesnis už tobulumą. Niekas nenukentės, jei vienas terminas bus išverstas netiksliai, jei jūs tiesiog sprendžiate, ar dokumentas vertas gilesnio skaitymo.

Jei tikslas yra citavimas, ataskaitų rašymas ar sprendimų priėmimas — automatinis vertimas yra tik pirmas žingsnis. Svarbios vietos turi būti patikrintos — idealiu atveju su žmogumi, mokančiu tą kalbą, arba bent jau su keliais skirtingais automatiniais įrankiais ir DI modelio pagalba kontekstui patikrinti.

Jei tikslas yra teisiniai ar medicininiai dokumentai — automatinis vertimas gali būti naudojamas tik kaip pagalbinė priemonė, ir tai labai aiškiai turi būti pažymėta. Čia klaida gali turėti realių pasekmių.

Technologijos tobulėja stulbinamu greičiu. Prieš penkerius metus DeepL neegzistavo. Prieš dvejus metus GPT-4 nebuvo prieinamas visuomenei. Šiandien jau kalbama apie vertimo sistemas, kurios realiu laiku verčia kalbą su beveik žmogišku tikslumu. Tikėtina, kad per artimiausius kelerius metus kalbos barjeras dirbant su viešaisiais dokumentais taps žymiai mažesne problema. Bet kol kas — mokėjimas naudotis turimais įrankiais protingai, žinant jų ribas ir stipriąsias puses, yra tikras pranašumas. Ir tai yra įgūdis, kurį galima įgyti per vieną popietę praktikos.