Učinci Zakona o hrvatskom jeziku moći će se mjeriti tek nakon što mjerodavno Vijeće predloži, a Vlada donese Nacionalni plan hrvatske jezične politike i ta se politika počne provoditi
Navršila se prva obljetnica donošenja Zakona o hrvatskom jeziku, koji je Hrvatski sabor donio 26. siječnja 2024., a predsjednik države proglasio 1. veljače. Tim smo povodom razgovarali s predsjednikom Vijeća za hrvatski jezik prof. dr. sc. Markom Tadićem, predstojnikom Katedre za algebarsku i računalnu lingvistiku na Odsjeku za lingvistiku zagrebačkoga Filozofskoga fakulteta.
Može li se nakon godinu dana od donošenja Zakona o hrvatskom jeziku govoriti o stanovitim učincima toga zakona?
Rekao bih kako se odmah nakon donošenja mogao uočiti općeniti i trajni učinak toga zakona. Naime, njime je prvi put u hrvatskoj povijesti demokratski, tj. netotalitarno donesen Zakon o hrvatskom jeziku. Toga nije bilo ni u NDH, a ni u SRH. Republika je Hrvatska (RH) time stala uz bok mnogim europskim i svjetskim državama koje sličan zakon o nacionalnom jeziku već imaju. Oni su većinom stroži, a rijetko koja zemlja ima toliko permisivan zakon kao što je naš. Međutim, ovaj je zakon važan jer se sad stabilno pravno definiraju i reguliraju ključni pojmovi oko hrvatskoga jezika (hrvatski jezik u njegovoj cjelovitosti, njegova narječja, hrvatski standardni jezik, hrvatski književni jezik), određuje se njegova uloga kao temeljnoga nositelja hrvatskoga identiteta i kulture, propisuje njegova službena i javna uporaba u RH, ali i kao 24. službenoga jezika EU-a, te obvezuje Vladu RH da se skrbi o hrvatskom jeziku. Trebalo je, na žalost, na taj zakon čekati gotovo 34 godine nakon Božićnoga ustava iz 1990., kad su u čl. 12. hrvatski jezik i latinično pismo navedeni kao službeni. Gotovo bi se moglo smatrati apsurdnim da je u RH zakon o jezicima i pismima manjina donesen prije zakona o matičnom i nacionalnom hrvatskom jeziku. Također je tim zakonom propisano osnivanje i rad Vijeća za hrvatski jezik (VHJ), a takvo tijelo još nismo imali na toj razini, tj. uspostavljeno kao savjetodavno tijelo Vlade RH; dakle, ne savjetodavno pojedinomu ministarstvu, nego čitavoj Vladi. Konkretni će se učinci Zakona moći mjeriti tek nakon što VHJ predloži, a Vlada donese Nacionalni plan hrvatske jezične politike i ta se politika počne provoditi. Zasad smo još u fazi njezina planiranja.
I u ovom sazivu Sabora ima zastupnika kojima će samostalni hrvatski jezik biti crvenom krpom
Očekivalo se da će Zakon biti donesen dvotrećinskom većinom. No unatoč tomu neki su ga klubovi zastupnika ocijenili „nepotrebnim“, drugi „suvišnim“, a bilo je onih koji ga nazvaše „totalitarnim zakonom“. Kako iz današnje perspektive djeluju rečene izjave?
Žao mi je što se u Saboru nije postigla dvotrećinska većina pri glasovanju o Zakonu o hrvatskom jeziku jer bi to bio znak čvrste nadstranačke potpore hrvatskomu jeziku i ne bi ostavljalo prostora nikomu u RH da hrvatski jezik dovodi u pitanje. Sasvim mi je očekivano bilo kako će protiv toga zakona biti oni koji su 2017. potpisali Sarajevsku deklaraciju o „zajedničkom jeziku“ ili ju možda nisu stigli potpisati, ali su s njom u suglasju. Takvih imamo među saborskim zastupnicima i u ovom XI. sazivu i njima će samostalan hrvatski jezik redovito biti crvenom krpom, a prigovori će im se, gotovo pro forma, sastojati od nekoliko ponavljajućih istoznačnih formulacija bez ikakve ozbiljnije snage. Zašto to tvrdim? Pravo se stanje „na terenu“ može uočiti u popisu stanovništva iz 2021.: 95,25 posto stanovnika odabralo je hrvatski jezik kao svoj materinski, a 1,16 posto srpski, 0,21 posto srpsko-hrvatski i 0,11 posto hrvatsko-srpski (to troje zajedno čini 1,48 posto, pa je većina pripadnika srpske manjine – ukupno ih je u RH 3,20 posto – izjavila da im je materinski jezik hrvatski). Kad se tomu pridodaju bošnjački s 0,45 posto i crnogorski s 0,02 posto, dolazimo do 1,96 posto stanovnika RH koji su izjavili kako im je materinski neki oblik zajedničkoga jezika ili koji od službenih jezika bivših istoimenih republika SFRJ. Valja napomenuti kako je za 0,54 posto stanovnika materinski jezik nepoznat, ali ni to znatno ne mijenja ukupnu sliku.
Nakon što je 1. kolovoza 2024. hrvatska Vlada imenovala Vijeće za hrvatski jezik, kao savjetodavno tijelo usmjereno na zaštitu, njegovanje i razvoj hrvatskoga jezika, ono je 23. listopada 2024. imalo svoju prvu sjednicu. Koliko je u međuvremenu održano sastanaka i koji su glavni zaključci?
Zanimljivo je kako je ustanoviteljska sjednica VHJ-a održana na dan kad je na inicijativu Ivana Kukuljevića Sakcinskoga 1847. Sabor hrvatski jezik proglasio službenim umjesto latinskoga. Negdje sam već izjavio kako ne vjerujem u povijesne slučajnosti, ali me zaista iznenadila ta činjenica o kojoj nismo vodili računa pri odabiru nadnevka prve sjednice. Valjda su se u to uplele neke više sile. Sastav VHJ-a čini mi se dobro uravnoteženim jer doista pokriva sve ustanove relevantne za skrb o hrvatskom jeziku, a i profesionalni su interesi članova Vijeća različiti i rijetko se preklapaju. K tomu smatram izrazito bitnom zastupljenost svih javnih sveučilišta, na kojima se hrvatski jezik p(r)oučava, jer nam zbog njihove rasprostranjenosti po cijeloj Hrvatskoj daje izravniji pristup svim narječjima. Dosad smo održali tri sjednice i prihvatili Poslovnik o radu Vijeća, a potom raspravljali o temama iz kataloga tema koje su već izrijekom navedene u samom Zakonu. Netko bi to nazvao štreberskim pristupom, ali smo upravo Zakonom djelomično determinirani i to su teme koje prve treba riješiti. Riječ je o nekoliko prioritetnih područja skrbi o hrvatskom jeziku kao što su uporaba hrvatskoga standardnoga jezika na svim razinama obrazovanja, promicanje učenja hrvatskoga jezika za potomke hrvatskih iseljenika i za strance, poznavanje hrvatskoga kao uvjet za dobivanje državljanstva. Najvažniji zadatak VHJ-a jest donošenje Nacionalnoga plana hrvatske jezične politike i sve su pripreme na VHJ-u već obavljene da se na njegovoj izradi počne ozbiljno raditi.
Na prvom sastanku bilo je riječi o središnjem lektorskom mrežnom sustavu. Što se dosad učinilo u tom pogledu?
Zasad još ništa, zasad je to još uvijek na razini prijedloga projekta koji bi se mogao ostvariti. Naime, Zakonom o hrvatskom jeziku predviđeno je da sva tijela javne uprave moraju svoje dokumente prije javne objave lektorirati. To znači kako će se otvoriti veći broj novih radnih mjesta za kroatiste. Međutim, kako ćemo osigurati žurnost obavljanja toga posla i, što je možda još važnije, dosljednu kakvoću? Lektori od Buja do Beloga Manastira, od Sv. Martina na Muri do Molunta morali bi rabiti istovrsna lektorska rješenja pri ispravljanju tekstova. Stoga bi se, poput već potpuno uvriježenih mrežnih usluga za strojno prevođenje, mogla izgraditi slična mrežna usluga za lektoriranje tekstova, ponajprije za tijela javne uprave, ali i za ostalu zainteresiranu javnost. Ta bi usluga mogla postati tzv. horizontalnom uslugom poput sustava za strojno i strojno potpomognuto prevođenje Hrvojka (hrvojka.gov.hr) koja je 2023. razvijena u okviru jednoga EU-projekta. Štoviše, lektura tekstova može se promatrati kao posebna vrsta (strojnoga) prevođenja sa supstandarnoga hrvatskoga na standardni hrvatski.
Hrvatski jezik ne ćemo očuvati konzerviranjem
Hoće li primjena novih tehnologija zahtijevati izradbu adekvatnih jezičnih priručnika?
Mi još nemamo visokokvalitetne ni klasične priručnike za proučavanje i poučavanje hrvatskoga jezika. Nakon oslobođenja od „bratskoga“ stiska srpskoga jezika, trebalo se u proteklih 35 godina, nakon vrhunskih stožernih djela iz perā kolosā našega jezikoslovlja (npr. Katičićeve Sintakse, Babićeve Tvorbe, ili Babić-Finka-Moguševa Pravopisa itd.), napisati npr. nove gramatike hrvatskoga jezika prema svim novi(ji)m formalizmima kao što su ovisnosna gramatika, leksičko-funkcionalna gramatika, gramatika uloga i referencija itd. Ne kažem da se u tome smjeru ništa nije radilo jer su se neki od suvremenih lingvističkih trendova pomno pratili (npr. kognitivna lingvistika, računalna lingvistika, poredbena lingvistika itd.), ali se to praćenje često svodilo na izrazito marljive istaknute pojedince bez kojih bi hrvatsko jezikoslovlje zaostajalo za ostatkom svijeta. Ne mislim kako će primjena novih tehnologija u opisu i uporabi hrvatskoga jezika tražiti nove priručnike, nego će prije tražiti razvoj novih jezičnih resursa i alata, dakle razvoj jezičnih tehnologija, koji govornicima moraju olakšati uporabu hrvatskoga jezika u digitalnom okružju, a svi su komunikacijski kanali ovoga stoljeća mahom digitalni. I taj je vid skrbi o hrvatskom jeziku također izrijekom predviđen Zakonom o hrvatskom jeziku. Naime, ne vjerujem kako ćemo u nekom doglednom vremenu kao ljudska vrsta razviti sposobnost telepatske komunikacije, pa će nam još uvijek preostati uporaba prirodnoga jezika. Hrvatski jezik ne ćemo očuvati konzerviranjem. Naprotiv, moramo njegovu (olakšanu) uporabu omogućiti u današnjoj, pretežito digitalnoj komunikaciji. Stoga se za hrvatski jezik moraju razviti jezične tehnologije jer ako ih ne bi bilo, govornici će iz čiste komocije posegnuti za onim jezikom za koji su jezične tehnologije razvijene. U tom će trenutku hrvatski postati funkcionalno nepismen jer se postojanje razvijenih jezičnih tehnologija danas mora smatrati sljedećom stubom u razvoju pismenosti za neki jezik. Bez jezičnih tehnologija hrvatski će se jezik naći onkraj digitalne razdjelnice i u današnjem svijetu biti u položaju poput onih jezika koji u prethodnim stoljećima nisu imali pismo i nikad nisu dosegnuli stupanj pismenosti.
S obzirom na sve veći utjecaj novih tehnologija, treba li se bojati dominacije „tehnicističkoga“ pristupa hrvatskomu jeziku, gubljenja njegove duše, koja se jednako očituje u hrvatskoj prozi i poeziji?
Netko bi mogao reći kako je hrvatski jezik već izgubio dušu jer rijetko tko u mlađim naraštajima uopće prati poeziju. Međutim, događa se nešto drugo jer se čini kako se upravo kod mladih pojavljuje ozbiljan nedostatak jezične vještine (pogledajte samo rezultate iz sastavka na hrvatskom na državnoj maturi 2024.) i posljedično sposobnosti da se jezikom precizno izrazi, a onda i precizno misli. Jezik je forma, okvir i kalup za naše misli i ako precizno ne ovladamo jezikom, onda ne možemo ni precizno misliti. Međutim, uslijed svakodnevne poplave dominantno vizualnih signala, tj. posvemašnje tiktokizacije komunikacije, čini se kako djeca počinju ponajprije misliti u slikama, a ne na nekom prirodnom jeziku i to rezultira bitno smanjenom vještinom uporabe toga jezika. K tomu je razvoj grafomotorike kod spoja mozak-ruka pri pisanju rukom u zastoju jer gotovo više nitko ne piše nego stalno tipka. Na žalost, i moji su sinovi – danas odrasli ljudi – prije naučili tipkati nego pisati i tada mi se, prije 30-ak godina, to činilo korisnim, a sad vidim kako je možda trebalo više nastojati oko pisanja rukom. Treba li za današnje naraštaje mijenjati kurikul nastave hrvatskoga jezika i književnosti kako bismo ga približili budućim učenicima, a već im je sad ionako odbojan? Dopustite mi citirati jednoga dvanaestogodišnjaka: „Zašto uopće moramo učiti hrvatski kad ga svi govorimo? To je tako dosadno.“
Ako računalo u cijelosti naučimo uporabi prirodnoga jezika, što će nama ostati?
U mnogim područjima ljudskoga djelovanja već se uvelike rabi umjetna inteligencija (UI). Paralelno se javlja i zebnja od te nove tehničke mogućnosti. Treba li se bojati UI-ja kad je riječ o hrvatskom jeziku? Što bi mu UI mogao pružiti?
Premda se čitav svoj profesionalni vijek bavim digitalizacijom nečega što će se uvijek opirati toj digitalizaciji, a to je prirodni jezik, ipak bih kao humanistički znanstvenik izrazio skepsu hoće li se to ikada moći obaviti do kraja, tj. u cijelosti i kakve će biti posljedice. Tehnologija nesumnjivo mijenja jezik. Još je godine 2000. akademkinja Milena Žic Fuchs napravila prvi hrvatski korpus SMS-ova i u njem je pokazano oživljavanje aorista i imperfekta. Zašto? Pa jer su kraći. Već i na toj razini odabira glagolskoga vremena tehnologija mijenja uporabu, tj. čestotu uporabe jezičnih struktura koje u jeziku i dalje postoje. Ali mene više brine način na koji novija tehnologija (UI) mijenja ne jezik sâm, nego i njegovu ulogu u gradbi našega individualnoga i kolektivnoga identiteta, u posredovanju između svijeta i našega razumijevanja toga svijeta, u oblikovanju i ograničavanju, tj. cenzuriranju dostupnoga znanja i činjenica itd. Naime, u studenom 2022. pojavio se prvi javno, besplatno i mrežno dostupan veliki jezični model (VJM) ChatGPT. (On je napravio svjetsku reklamu računalnim lingvistima jer nakon sustava za strojno prevođenje Google Translate i ChatGPT-ja sad svi znaju što zapravo računalni lingvisti rade.) Takvi se VJM-ovi u javnosti najčešće neprecizno nazivaju umjetnom inteligencijom (UI), a zapravo je riječ o samo jednoj od sastavnica UI-ja, a to je ovladavanje prirodnim jezikom. Uz to u UI-ju postoje i umjetni vid, robotika, crpljenje obavijesti, zaključivanje, taktičko i strategijsko planiranje itd. Sve to zajedno čini UI, a VJM-i su samo jedna od sastavnica, premda možda i najvažnija jer se upravo provjera je li neki sustav umjetno inteligentan danas sastoji od Turingova testa komunikacije između čovjeka i stroja prirodnim jezikom. VJM GPT-4o prošao je 2024., prvi put u povijesti, taj test s 54 posto uspješnosti. Jest mršava dvojka, ali je ocjena prolazna.
Što bi nas pritom moglo zapravo zabrinjavati?
Ako računalo u cijelosti naučimo uporabi prirodnoga jezika, što će nama ostati? Uskraćujemo li sebi jedno od temeljnih ljudskih obilježja? Naime, ovladavanje prirodnim jezikom može se smatrati differentiom specificom homo sapiensa koja nas razlikuje od drugih vrsta na Zemlji i ujedno predstavlja našu bît (ne želim ovdje ulaziti u filozofske rasprave koje kreću od predsokratovaca do Heideggera ili Wittgensteina). Što kad strojevi počnu rabiti prirodni jezik na načine koje ljudi smatraju kreativnima kao što su primjeri gdje VJM-i izmišljaju nove riječi u hrvatskom jeziku? Treba li nas to zabrinuti? Što ćemo učiniti s tim riječima? Hoćemo li ih uvrstiti u rječnike? Ne mijenjamo li time samu definiciju čovjeka? Ne idemo li time na ruku transhumanističkim pokušajima koji bi s čovjeka kao s lukovice oljuštili sve slojeve koji nas čine ljudima? Što će tad od nas ostati, a jezik moramo gledati kao jedan od sržnih slojeva? Smatram da se u UI uletjelo naglavačke iz pretežno komercijalnih pobuda, bez ozbiljnijega sagledavanja svih mogućih posljedica na društvo, pojedince, općenje te opći utjecaj na gospodarstvo, radna mjesta itd.
Nedavno je u EU-u donesena prva regulativa o uporabi UI-ja...
Koliko god ta regulativa pokušavala biti sveobuhvatnom, siguran sam kako će se pojaviti nepredviđeni, pa i nepredvidivi slučajevi u kojima će UI znatno utjecati na ljude i njihove živote. Primjer: danas na internetu nema obveze obilježavanja koji je sadržaj rezultat ljudske kreativnosti, a koji je rezultat generiranja UI-jem. Nakon pojave VJM-ova, kako laik može pronaći razliku između tekstova nastalih na ta dva različita načina? Hoćemo li ih prihvaćati kao istinite i rabiti dalje? Što je sa slučajevima tzv. haluciniranja VJM-ova kad daju jezično savršene odgovore koji su potpuno neistiniti? Hoćemo li automatskim UI-vozačima prepustiti autobus pun djece ili nuklearnu podmornicu s projektilima?
Došlo je vrijeme da se napravi svehrvatski rječnik
JAZU je u razdoblju od 1880. do 1976. objavio Rječnik hrvatskoga ili srpskoga jezika, u 97 svezaka i 23 knjige. Je li vrijeme za rječnik hrvatskoga jezika koji bi obuhvatio čitav leksički fond, i koliko bi u tom poslu mogle pomoći računalne tehnologije kako posao ne bi opet trajao gotovo čitavo stoljeće?
Svakako smatram kako je došlo vrijeme da se napravi sveobuhvatni, tj. svehrvatski rječnik koji bi uključio natuknice iz svih hrvatskih narječja, a ne samo standardnoga hrvatskoga. Takvo što zapravo već imamo u našoj leksikografskoj povijesti u Belostenčevu Gazophylaciumu, ali valja to obaviti na suvremen način i obuhvatiti što više izvora ponajprije digitalizacijom izvornih tekstova u računalne korpuse, ali i digitalizacijom postojećih rječnika. To je ozbiljan projekt i valjalo bi ga uvrstiti u Nacionalni plan jezične politike, a rezultati bi mu morali biti slobodno mrežno dostupni svima. Znam da se u HAZU-u ubrzano radi na Benešićevu rječniku kojemu su izvorno gradivo ponajprije književni tekstovi i to je već jedan korak više u tom smjeru zbog toga što se danas pojam „hrvatski književni jezik“ mora smatrati širim pojmom od „hrvatskoga standardnoga jezika“ jer uključuje riječi iz hrvatskih narječja koje se ne moraju smatrati riječima standardnoga jezika. Međutim, osim triju uobičajenih hrvatskih narječja po zlatnoj formuli akademika Štambuka ča-kaj-što, ne smiju se zaboraviti i drugi varijeteti hrvatskoga kao što su gradišćanskohrvatski, moliškohrvatski, hrvatski iz Karaševa i Janjeva, a osobito hrvatski iz Bosne i Hercegovine gdje on ima ulogu jednoga od triju službenih jezika, tj. jezika jednoga od triju konstitutivnih naroda. Mislim kako bi se skrb o hrvatskom jeziku u BiH svakako morala osobito naglasiti jer je upravo ondje hrvatski jezik u posebnim sociolingvističkim uvjetima. Međutim, kad govorimo o budućnosti hrvatskoga jezika u cjelini i njegovoj uporabi u budućnosti, onda bih, pored tradicionalnih leksikografskih djela, svakako naglasak stavio na razvoj jezičnih tehnologija za hrvatski jezik i u tom sklopu svakako potrebu stalnoga razvoja VJM-ova za hrvatski jezik.
Što su veliki jezični modeli (VJM-ovi)?
To su opsežni jednojezični ili višejezični skupovi tekstnih podataka (eng. large language models, LLMs) koji se rabe za kondenzirano predstavljanje ljudske uporabe jezika. Prethodno obučeni VJM-ovi rabe „znanje“ stečeno tijekom obuke koje primjenjuju na nove tekstove. To je „znanje“ strukturirano i pohranjeno u obliku računalne neuronske mreže koja oponaša mreže neurona i njihovih veza u ljudskim mozgovima. Pitanje izrade VJM-ova jest pitanje ne samo održanja nacionalnoga identiteta kroz živ nacionalni jezik uporabiv u digitalnom okružju, nego i suvereniteta, pa i nacionalne sigurnosti. Danas postoje primjeri gdje neki VJM-ovi hladno tvrde kako su Hrvati zapravo Srbi (samo to valjda ne žele priznati ili, siroti, to jednostavno još ne znaju).
Osim zemaljskoga sve važniji digitalni suverenitet
Treba li možda Ministarstvo digitalne obrane, kao što se nedavno predlagalo u jednom podcastu? Što smo učinili u tom pogledu?
Umjesto da postojeći Središnji državni ured za razvoj digitalnoga društva dignemo na razinu npr. Ministarstva digitalizacije, Vlada ga je utopila u Ministarstvo pravosuđa, uprave i digitalne transformacije. Osim zemaljskoga suvereniteta danas je sve važniji i digitalni suverenitet, a jezik i tu igra važnu ulogu. GPT2 i GPT3 arhitekture VJM-ova postoje već nekoliko godina, a u međuvremenu su se pojavile novije inačice GPT-ja (General Pretrained Transformers, npr. ChatGPT je zapravo GPT-3,5, GPT-4 je stigao do podinačice GPT-4o, a već se najavljuje GPT-5) ili još novijih arhitektura kao što su Llama, Gemma, Pythia itd. Pogledajte pravi rat za tržište između američkih VJM-ova ChatGPT, GPT4, Llama, Claude, Tüvi itd. s jedne strane i npr. kineskih DeepSeek, Qwen itd. Danas već sve popularne tražilice na velespletu (World Wide Web, www), osim klasične pretrage nude i odgovore putem VJM-ova. Treba izgrađivati VJM-ove za hrvatski jezik u skladu sa svim tim novim arhitekturama, ali je uz to vezano nekoliko problema.
O kojim je problemima riječ?
Većina je VJM-ova do sada višejezična (vjVJM-ovi): broj jezika varira od 2 do 200+, a za njihovu se obuku rabi neuravnotežen skup podataka, tj. tekstova. Jezici s velikom količinom podataka za obuku dobro su zastupljeni u modelu, a jezici s malom količinom ograničeni samim nepostojanjem dovoljno podataka. To je, na žalost, posljedica čiste demografske statistike: 80 milijuna Nijemaca u danu izgovori više rečenica nego 4 milijuna Hrvata, pa posljedično veći broj tih rečenica završi u digitalnom formatu odakle se mogu preuzeti za obuku, tj. treniranje VJM-ova. Prevladavajuće je opće mišljenje: višejezični VJM-ovi postižu bolje rezultate u svakom zadatku računalne obrade prirodnoga jezika, ali postoje istraživanja koja dokazuju kako VJM-i trenirani na nekoliko jezika (dva do tri) ili samo na jednom jeziku daju bolje rezultate u nizu zadataka računalne obrade prirodnoga jezika. Mi zapravo ne znamo povećavaju li jezici B, C, D,... Z performanse višejezičnoga modela primijenjenoga na jezik A, ili ih smanjuju. Štoviše, rezultat može biti drukčiji za različite zadatke: npr. slovenski, slovački, češki i srpski pomoći će pri automatskoj analizi rečenične strukture (subjekt, predikat, objekt itd.) u hrvatskim tekstovima, dok će u zadatku crpljenja strukovnoga nazivlja srpski smetati hrvatskomu jer postoji čitav niz riječi koje su u hrvatskom obilježene kao stručni termini (npr. „crveno vino“, „pečurka“), a te su riječi u srpskom riječi općega jezika. Posljedično će za takav zadatak prisutnost srpskoga u višejezičnom modelu smetati kad se on primjenjuje na hrvatske tekstove. Također, dodatno je prisutan problem netransparentnosti: najpopularniji VJM-i u vlasništvu su američkih tvrtki i za njih ne znamo koji su se podatci rabili za njihovu obuku, koliko se često ažuriraju, kakvim se novim podatcima ažuriraju itd.? Npr. ChatGPT od prije 6 mjeseci ne daje iste rezultate kao danas. Nedavno objavljivanje kineskih modela (DeepSeek, Qwen) otvorenoga koda moglo bi znatno promijeniti to stanje, ali još je prerano za decidirane tvrdnje oko toga. Zbog svega toga tijekom 2024. istraživački tim kojem sam imao čast biti na čelu stvorio je prvi hrvatski GPT model nazvan HR-GPT Beta koji je slobodno dostupan u repozitoriju jezičnih podataka HR-CLARIN (clarin.hr). Taj je VJM još u beta-fazi jednostavno zato što za trajanja kratkoga 9-mjesečnoga EU-projekta nismo stigli prirediti svih prikupljenih 15 milijardi riječi hrvatskih tekstova, pa smo VJM morali obučiti na nešto malo manje od njih 8 milijardi. Takve jednojezične VJM-ove za hrvatski jezik moramo kontinuirano razvijati ako želimo držati priključak s drugim jezicima i osigurati govornicima hrvatskoga jezika onu digitalnu potporu kakva se danas očekuje.
Mnogo je posla pred Vijećem jer u Hrvatskoj nije postojala organizirana i zaokružena jezična politika hrvatskoga jezika
Za godinu dana hrvatska Vlada treba donijeti Nacionalni plan hrvatske jezične politike. Radi li se na tom dokumentu i možete li otkriti neke od prioritetnih točaka koje on mora sadržavati?
Nacionalni plan donijet će popis prioritetnih ciljeva i mjera za javnu i službenu uporabu hrvatskoga jezika, a neka od područja već su okvirno definirana: 1) društvena uloga i pravni položaj hrvatskoga jezika u zemlji i svijetu; 2) promicanje uporabe hrvatskoga jezika u službenoj i javnoj uporabi: lektoriranje službenih dokumenata i uspostava lektorske službe; 3) unaprjeđenje jezičnih tehnologija za hrvatski jezik: digitalna leksikografija, računalni korpusi hrvatskoga jezika, slobodni pristup digitaliziranim tiskovinama na hrvatskom jeziku, drugi javni mrežni jezični servisi, strojno prevođenje i veliki jezični modeli primjenljivi na hrvatski jezik; 4) razvoj nazivlja za hrvatski jezik: npr. StruNa razvijana u Institutu za hrvatski jezik; 5) promicanje i unaprjeđenje učenja hrvatskoga jezika među strancima i potomcima naših iseljenika u RH i inozemstvu: veliko zanimanje potomaka naših iseljenika za učenje hrvatskoga, brojni komunikacijski problemi sa stranim radnicima u RH itd. Sve u svemu: mnogo je posla pred Vijećem jer u RH još nije postojala organizirana i zaokružena jezična politika za hrvatski jezik.
Je li donošenje Zakona, uz činjenicu da je hrvatski 24. službeni jezik EU-a, otvorilo mogućnost za odlučniji diplomatski, konačno i znanstveni nastup kako bi se u članicama EU-a raskinula praksa održavanja serbokroatističkih katedara, odnosno prakse tzv. zajedničkoga jezika?
Znam da je naše Ministarstvo znanosti, obrazovanja i mladih na desetke puta upućivalo dopise i prigovore raznim njemačkim i austrijskim sveučilištima oko zbirnoga naziva jezika koji se na njemačkom govornom području nerijetko zove Bosnisch/Kroatisch/Serbisch Komplex ili B/K/S Komplex, ali je to urodilo rijetkim plodovima (v. npr. Sveučilište u Regensburgu). Zapravo bi se trebalo poslužiti jednostavnim argumentom. Svatko tko u bilo kojoj državi članici EU-a rabi objedinjavajuće ime jezikā (Serbo-Croatian, Serbo-Croate, B/K/S, S-C, itd.), izravno krši europsku pravnu stečevinu. Naime, prema pravnomu sustavu EU-a, dvadeset i četvrti službeni jezik EU-a zove se samo i jedino hrvatski jezik, bez ikakvih dodatnih kombinacija s nekim drugim jezicima. Za sve bi članice EU-a europski pravni sustav morao biti integriran u njihove nacionalne pravne sustave. Nadalje, ako Republika Srbija ikada bude iskreno htjela pristupiti EU-u, onda će se to pitanje naziva jezika ponovno pojaviti. Na nj postoji jednostavan odgovor. Ako se u Srbiji i Hrvatskoj rabi isti jezik, onda je stvar posve jednostavna – on već postoji u EU-pravu i zove se hrvatski, pa ga i Republika Srbija može početi rabiti. Dakako, Republika Srbija na to nikad ne bi pristala, pa će morati priznati kako su srpski i hrvatski zapravo dva jezika. Također, moglo bi se dogoditi kako će okoštala administracija iz Bruxellesa u nekom trenutku („zbog uštede sredstava“) početi predlagati zajedničku prevoditeljsku službu za jezike B/K/S, vjerojatno po uzoru na sudsku praksu iz suda u Haagu. U tom trenutku RH se mora postaviti vrlo odrješito i na to pristati samo onda kad se i za danski i švedski ili češki i slovački uvedu zajedničke prevoditeljske službe.
Prije gotovo godinu dana u jednoj anketi na Portalu HKV-a u svezi s mrtvim kapitalima saborski zastupnik Andro Krstulović Opara iznio je ideju o utemeljenju Muzeja hrvatskoga jezika, sa sjedištem u Zagrebu, Splitu i Varaždinu. Podržavate li tu zamisao, i kako mislite da bi takav muzej trebalo koncipirati?
Znam kako se već više od godinu i pol dana u Matici hrvatskoj sastaje inicijativni odbor za utemeljenje i pokretanje Muzeja hrvatskoga jezika i to je otprilike sve što bih o tome smio reći. Kao predsjednik VHJ-a smatram kako bi taj muzej svakako trebalo uvrstiti kao jednu od predloženih mjera u Nacionalni plan hrvatske jezične politike jer se i na taj način mora podizati svijest o značenju i ulozi hrvatskoga jezika u gradbi hrvatskoga identiteta i kulture. Osim toga, hrvatski nam je jezik i sâm kulturno dobro najviše razine i zaslužuje takav muzeološki tretman.
Prof. Tadiću, hvala na razgovoru!
Razgovarao: Marko Curać