O prednostima i zamkama strojne lekture

Predsjednik Vijeća za hrvatski jezik prof. dr. sc. Marko Tadić u nekoliko je razgovora (Vijenac, Matičin podcast, Portal HKV-a) istaknuo nužnost razvoja jezičnih tehnologija kako bi hrvatski jezik zadržao svoju ravnopravnost u digitalnom prostoru i ostao funkcionalan u suvremenim komunikacijskim okružjima. Govoreći o lektorskim uslugama, spomenuo je i mogućnost primjene strojne lekture („strojno prevođenje iz lošega hrvatskoga u dobar hrvatski“, „prevođenje sa supstandardnoga hrvatskoga na standardni hrvatski“) kako bi se osigurala ujednačenost lektorskih zahvata, no ipak uz lektora koji bi sve ispravke pregledao i odobrio. Potvrdio je to i u nedavnom razgovoru za nizanku Lektori o sebi i drugi o njima (v. ovdje) i dodao da će se takva mjera pojaviti i u Nacionalnom planu hrvatske jezične politike. U ovom tekstu razgovaramo o prednostima i zamkama takve lekture, i uopće o izazovima pred kojima se lektori, ali i hrvatski jezik, nalaze u novom društvenom i tehnološkom dobu.

Lektura 25

Nepoznanice i mogući problemi

Budući da Nacionalni plan hrvatske jezične politike nije dovršen, zasad nije poznato kako će biti razrađen prijedlog mjere o primjeni strojne lekture. Ipak, na temelju nedavnih izjava predsjednika Vijeća za hrvatski jezik može se pretpostaviti da će se poglavlje o lektorima, a time i o mrežnoj usluzi strojne lekture, usredotočiti na ono što propisuje Zakon o hrvatskom jeziku: lekturu prijevoda dokumenata iz Europske unije i službenih dokumenata koje izrađuju tijela državne vlasti, državne uprave i druga javnopravna tijela u Republici Hrvatskoj. Većina takvih dokumenata pripada administrativnomu stilu, koji je jasan, sažet i pregledan, nesklon prenesenim značenjima, individualnim stilskim odstupanjima i većim izražajnim slobodama, pa bi i lektura – a onda i strojna lektura – u tom području mogla biti jednostavnija i učinkovitija. Dodatnu bi olakšicu mogao donijeti i najavljeni projekt izgradnje hrvatskoga strukovnoga nazivlja (v. ovdje), koji bi omogućio veću dosljednost i ujednačenost u službenoj komunikaciji.

No i ako se zadržimo samo na tom dijelu lektorskoga posla koji će u prvom planu imati administrativne tekstove, ubrzo ćemo uočiti dva ključna problema povezana sa strojnom lekturom. Oni će i tim „administrativnim“ lektorima, čije je zapošljavanje predviđeno Zakonom o hrvatskom jeziku, a još više njihovim kolegama koji rade na različitim vrstama tekstova i u različitim funkcionalnim stilovima hrvatskoga jezika, zasigurno zadavati poteškoće.

Prvi je problem onaj na koji uporno upozoravamo od samoga početka ove nizanke – na nacionalnoj razini još nemamo službeno usklađene i u uporabi propisane normativne priručnike (pravopis, gramatiku, rječnik). Bez čvrstih normativnih uporišta ne možemo očekivati ni potpuni ostvaraj svrhe (strojne) lekture i jedinstvenost u ispravcima. Netko i lektoru i stroju treba reći hoće li pisati podaci ili podatci, pogreška ili pogrješka, nećemo ili ne ćemo, štokholmski ili stockholmski, Europska Unija ili Europska unija, Lavov ili Ljviv...

Drugi se problem odnosi na samu narav lektorskoga posla. Kako osigurati da lektor, unatoč pomoći strojnoga alata, i dalje sagledava tekst kao cjelinu – njegov sadržaj i smisao – i da provjeri slijede li predloženi strojni ispravci logiku izvornika? Kad stroj preuzme brigu o tekstu, lako je zaboraviti da on zapravo ne razumije ono što ispravlja pa postoji opasnost da bi lektor mogao steći preveliko povjerenje u takvu pomoć i zanemariti svoja jezična znanja, prosudbe i odgovornost. Problem je zapravo psihološki, ali bi mogao stvoriti ozbiljne posljedice na stručnom planu. Mogli bismo se naći pred apsurdnom situacijom: nastojimo oblikovati stroj koji će što vjernije oponašati lektora i preuzeti dio njegova posla, a istodobno nam prijeti opasnost da se lektor, naviknut na mehaničku točnost, počne ponašati kao stroj.

Što čovjek zna, a stroj ne zna?

„Problem je i u nedostatku komunikacije između autora i strojnoga lektora. Stroj ne zna upitati autora na što je mislio kad je upotrijebio određenu sintagmu koja se smisleno ne uklapa u tekst“, dodaje lektor Ivan Blažević. „Može li stroj prepoznati da nedostaje negacija bez koje je rečenica u suprotnosti sa smislom prethodne rečenice ili cijeloga odlomka? Može li prepoznati da je odnosna zamjenica u pogrješnom rodu, broju ili padežu ako je prije nje nekoliko imenica na koje bi se mogla odnositi? Hoće li stroj znati da autor citira rečenicu ili više njih s pravopisnim pogrješkama ili neki tekst na dijalektu? Može li autor upisati napomenu stroju kao što može upozoriti lektora da neke rečenice ne mijenja jer želi da budu baš tako napisane? Hoće li stroj prepoznati pogrješno napisanu godinu? Hoće li stroj prepoznati da je bilijun zapravo milijarda jer je prevoditelj s engleskoga zaboravio primijeniti veliku ljestvicu u nazivima velikih brojeva. Ponekad je rečenica lijepo posložena, ali značenje nije pogođeno. Npr. jedna je rečenica prevedena ovako: 'Menadžeri imaju odgovornost kada je protuzakonito ponašanje bilo neočekivano, a trebalo je biti.' Hoće li stroj shvatiti da je riječ o tome da su menadžeri trebali predvidjeti moguće protuzakonito ponašanje? Ako je prevoditelj napisao da su nešto odlučile vlasti kompanije, hoće li stroj shvatiti da je to odlučila uprava? Kako će stroj prepoznati nijanse u značenju? Kako će lektorirati viceve?“, niže Blažević svoja razmišljanja i otvorena pitanja.

Lektor Rudolf Ćurković problemu je pristupio profesorski. Odlučio je provjeriti hoće li mu ChatGPT u nezgrapnoj rečenici koju mu je poslao uspjeti razriješiti problem koji je nastao zbog zanaglasnice. Žao nam je što vam ne možemo prenijeti taj razgovor (potrajao je!) jer je silno zanimljiv, duhovit i poučan. Stroj mu je prvo potvrdio da mu može pomoći „i to prilično uspješno“, a onda je u razgovoru ponudio niz svojih rješenja koja su uključivala izostavljanje dijela riječi u rečenici kako bi ona bila „ispravnija i prirodnija“, zamjene položaja zanaglasnice ili drugih riječi u rečenici tako da se na kraju poremetio i smisao, a tek poslije dugih pregovora i Ćurkovićevih objašnjenja, stroj je „shvatio“ i prihvatio savjet da jednostavno zanaglasnicu zamijeni naglašenom riječju, što je ujedno bilo i najjednostavnije i najlogičnije rješenje. Na kraju ga je ChatGPT pohvalio zbog „preciznosti i stilske osjetljivosti“ i rekao da bi njegova formulacija o toj problematici („Ako se položaj zanaglasnice iz bilo kojega razloga ne može promijeniti, umjesto zanaglasnice treba upotrijebiti naglašenu riječ.“) mogla stajati kao „uzoran opis pravila u suvremenim gramatikama hrvatskoga jezika“.

„Ako mogu na prvu prosuditi, on u tekstu griješi kao i svaki prosječni ili blago iznadprosječni autor u pisanju“, kaže Ćurković. „Možda on i može biti jako, jako dobra pomoć, ali samo kao pomoćni igrač. Kao glavni jako teško. Jezik ima više slojeva, nisu to samo pravila. Ne kažem da ih svaki lektor vidi, osjeća, sluti… ali ne bih isključivo povjerio UI-u da osjeća i sluti. Može li se vjerovati da on osjeća dah riječi, kako ona zatreperi kad ju čovjek izgovori s oklijevanjem ili kako se u jednom zarezu može skriti milost ili ironija? Mnoge se stvari u lekturi ne mogu naučiti normom, nego samo stalnim razgovorom s tekstom, s onim njegovim tihim otporom. Rečenica se isto može pomaknuti i pokazati nam svoju istinu ili svoj otpor. Doživljavam to kao susret dvaju entiteta – mojega uma i teksta – u kojem nastaje nešto novo, tiho i neočekivano. Samo kao i sa svim vještinama: pedeset posto je na nama, a pedeset posto na vještinama koje će nam izići ususret ako mi damo sve od sebe da razvijemo svih svojih pedeset posto. U razvijanju tih vještina ljubav prema vještini na prvom je mjestu.“

Ne treba posebno naglašavati da je još veća opasnost sa strojnim prijevodima, a možemo samo zamisliti što bi tek mogla donijeti strojna lektura nakon strojnoga prijevoda. Što kad zaspi prevoditelj, a onda i lektor? Pokazat će budućnost.

„Pada kiša mačaka i pasa“

Kad smo počeli pripremati nacrt ove nizanke i izabirali o čemu ćemo pisati, testirali smo dva strojna prevoditelja (machine translation, MT, koji nisu temeljeni na velikim jezičnim modelima, LLM) uzimajući tipičan engleski frazem „It's raining cats and dogs”, što bismo u hrvatskom zamijenili npr. frazemom „(Kiša) pada kao iz kabla”, „Lije kao iz kabla“ ili u malo slobodnijem prijevodu kao „Padaju sjekire“. Jedan je strojni prevoditelj frazem preveo: „Pada kiša mačaka i pasa”, a drugi: „To su oborinske mačke i psi”. Takvi strojni prevoditelji, budući da prevode riječ po riječ ili rečenicu po rečenicu, često griješe kad sadržaj treba prilagoditi surječju, prepoznati različite idiome, prenesena značenja, ton i stilsku nijansiranost. Dodatno je testiran ChatGPT i on je ispravno preveo frazem, bez širega surječja. Objašnjenje je bilo da je to zato što on „prevodi, ali i interpretira tekst“, a to ga svrstava u „napredniju kategoriju – generativne UI prevoditelje“ koji rabe „duboko razumijevanje jezika (semantiku i pragmatiku), a ne samo statistiku prijevoda“. Ipak, i ChatGPT prepoznaje svoja ograničenja u odnosu na žive, stvarne prevoditelje i lektore. „Nemam životno iskustvo ni emocionalni doživljaj jezika – ne osjećam ton, ironiju ni kontekst kao čovjek. Ne mogu intuitivno razlikovati pogrešku od stilske namjere autora. Nedostaje mi estetski osjećaj za ritam, ljepotu i glas teksta. Ovisim o postojećim podacima i ne posjedujem etičku ni kulturnu prosudbu. Zato mogu biti precizan alat, ali ne i svjedok jezika koji razumije njegovu dušu“, kaže ChatGPT.

Primijetite, ChatGPT u svojem odgovoru piše pogreška i podaci. (Kaže da se njegov izbor tih oblika temelji na učestalosti njihove uporabe u digitalnim korpusima hrvatskoga jezika i da on ne odlučuje što je pravilno, nego „odražava prevladavajuću praksu“.) No sviđa nam se kako je odgovorio! Stroj ne može razumjeti dušu hrvatskoga jezika! Samo čovjek može!

Irena Šupuković

(nastavlja se)

 

Tekst je dio niza „Lektori o sebi i drugi o njima“, a na Portalu HKV-a objavljen je u sklopu projekta poticanja novinarske izvrsnosti u 2025. godini Agencije za elektroničke medije. Prenošenje sadržaja dopušteno je uz objavu izvora i autoričina imena.

AEM logo

Povezano

Lektori o sebi i drugi o njima (1.)

Lektori o sebi i drugi o njima (2.)

Lektori o sebi i drugi o njima (3.)

Lektori o sebi i drugi o njima (4.)

Lektori o sebi i drugi o njima (5.)

Sub, 25-10-2025, 20:55:11

Potpora

Svoju članarinu ili potporu za Portal HKV-a
možete uplatiti i skeniranjem koda.

Otvorite svoje mobilno bankarstvo i skenirajte kod. Unesite željeni novčani iznos. U opisu plaćanja navedite je li riječ o članarini ili donaciji za Portal HKV-a.

barkod hkv

Komentirajte

Zadnji komentari

Telefon

Radi dogovora o prilozima, Portal je moguće kontaktirati putem Davora Dijanovića, radnim danom od 17 do 19 sati na broj +385-95-909-7746.

AKT

Poveznice

Snalaženje

Kako se snaći?Svi članci na Portalu su smješteni ovisno o sadržaju po rubrikama. Njima se pristupa preko glavnoga izbornika na vrhu stranice. Ako se članci ne mogu tako naći, i tekst i slike na Portalu mogu se pretraživati i preko Googlea uz upit (upit treba upisati bez navodnika): „traženi_pojam site:hkv.hr".

Administriranje

Pretraži hkv.hr

Kontakti

KONTAKTI

Telefon

Telefon Tajništva
+385 (0)91/728-7044

Elektronička pošta Tajništva
Elektronička pošta Tajništva
Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite.

 

Elektronička pošta UredništvaElektronička pošta Uredništva
Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite.

Copyright © 2025 Portal Hrvatskoga kulturnog vijeća. Svi sadržaji na ovom Portalu mogu se slobodno preuzeti uz navođenje autora i izvora,
gdje je izvor ujedno formatiran i kao poveznica na izvorni članak na www.hkv.hr.
Joomla! je slobodan softver objavljen pod GNU Općom javnom licencom.

Naš portal rabi kolačiće radi funkcionalnosti i integracije s vanjskim sadržajima. Nastavljajući samo pristajete na tehnologiju kolačića, ali ne i na razmjenu osobnih podataka.