Poznate velike jezikovne modele za slovenščino?
Veliki jezikovni modeli, ki smo jih v preteklih letih spoznali s porastom umetne inteligence in njeno uporabo v vsakdanjem življenju in delu, so postali pomembni za vsak jezik, tudi za slovenščino.
Da slovenščina ostaja enakovredno prisotna v digitalnem okolju, pa so ključne jezikovne tehnologije, ki povezujejo računalništvo, jezikoslovje in podatkovno znanost. Na tem področju ima pomembno vlogo Center za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT UL), ki deluje v tesni povezavi s Fakulteto za računalništvo in informatiko (FRI).
Na nedavni predstavitvi raziskovalnih dosežkov so na FRI pokazali, kako se lahko sodobne računalniške metode uporabijo za razvoj slovenščine in njeno uporabo v digitalnih storitvah, izobraževanju in raziskavah.
Veliki jezikovni modeli za slovenščino
Med osrednjimi dosežki je nova različica velikega jezikovnega modela za slovenščino GaMS 3. Nadgradnja omogoča obdelavo daljših besedil in predstavlja pomemben korak k zmogljivejšim jezikovnim orodjem v slovenskem prostoru. Model nastaja v okviru raziskovalnih projektov in je namenjen tako razvoju aplikacij kot tudi znanstvenim analizam jezika.
Ob tem raziskovalci spodbujajo tudi sodelovanje širše javnosti. Slovenska pogovorna arena uporabnikom omogoča primerjavo odgovorov različnih jezikovnih modelov, s čimer prispeva k njihovemu izboljševanju in prilagajanju slovenščini.

Modele in korpuse na povezavah lahko preizkusite.
Korpusi s skoraj dvema milijardama besed kot temelj jezikovnih raziskav
Razvoj jezikovnih tehnologij temelji na kakovostnih podatkih. Če teh ni, je vse učenje jezikovnega modela zaman. Najnovejša različica referenčnega korpusa pisne slovenščine Gigafida 2.2 s tem nima težav, saj vključuje skoraj 800 milijonov besed in predstavlja eno ključnih zbirk za raziskovanje sodobnega jezika.
Poleg korpusa Gigafida 2.2 deluje tudi spremljevalni korpus Trendi, ki zajema besedila s številnih slovenskih medijskih portalov in omogoča vpogled v aktualno rabo jezika. Njegov obseg že presega milijardo besed.
Takšne zbirke niso pomembne le za jezikoslovce, temveč tudi za razvoj orodij za samodejno analizo besedil, prevajanje in umetno inteligenco.
Digitalni slovarji in sodelovanje uporabnikov
CJVT razvija in vzdržuje več digitalnih slovarjev, ki so namenjeni različnim skupinam uporabnikov – od govorcev slovenščine kot tujega jezika do prevajalcev in raziskovalcev. Med njimi so kolokacijski slovar, slovar sopomenk ter slovensko-madžarski slovar. Posebnost nekaterih slovarjev je aktivno vključevanje uporabnikov, katerih predlogi se strokovno pregledajo in postopno vključujejo v slovarske baze.
Jezikovne tehnologije v izobraževanju
Pomemben praktičen prispevek predstavlja tudi orodje Online Notes, ki omogoča sprotno strojno prevajanje predavanj v tuje jezike. Orodje olajša spremljanje študija tujim študentom in študentom z različnimi oviranostmi, hkrati pa podpira rabo slovenščine v visokošolskem prostoru.
Jezik uporabnikom približujejo tudi igriva orodja. Na portalu CJVT Igre so na voljo nove jezikovne igre (Kombinator in Ugibanka), ki na dostopen način spodbujajo učenje besedišča, sopomenk in kolokacij.

Umetna inteligenca kot orodje za analizo jezika in literature
Raziskave na CJVT kažejo, da se veliki jezikovni modeli lahko uporabljajo tudi za analizo literarnih besedil. Primer študije pravljic o Pepelki ponazarja, kako lahko umetna inteligenca pomaga pri prepoznavanju motivov in vzorcev ter dopolnjuje klasične raziskovalne pristope.
Računalništvo in jezik z roko v roki
Dosežki na področju jezikoslovja potrjujejo, da je danes prihodnost razvoja jezika tesno povezana z računalniško izobrazbo. Jezikovne tehnologije so primer področja, kjer se znanja programiranja, umetne inteligence in obdelave podatkov neposredno povezujejo z družbenimi in kulturnimi vprašanji. Prav takšne interdisciplinarne povezave študentom in raziskovalcem na Univerzi v Ljubljani odpirajo nove priložnosti za ustvarjanje, raziskovanje in razvoj rešitev za digitalno družbo.
Več informacij o dejavnostih in orodjih je na voljo na spletni strani fri.uni-lj.si in cjvt.si.
Prijavi napako v članku




























