Obsežni jezikovni model

Obsežni jezikovni model (OJM, v angleščini LLM, large language model) je računalniški jezikovni model, sestavljen iz umetne nevronske mreže z mnogo parametri (desetin milijonov do milijard), ki so ga usposabljali s pomočjo zelo obsežnih količin neoznačenih besedil ob uporabi samonadzorovanih ali polsamonadzorovanih metod. Obsežni jezikovni modeli so se pojavili okoli leta 2018 in so se odlično izkazali pri širokem razponu raznovrstnih nalog,^[1] kar je težišče raziskav na področju obdelave naravnega jezika odmaknilo od starih pristopov, ki so temeljili na uporabi specializiranih nadzorovanih modelov za posamezne vrste nalog.

Obsežni jezikovni model sicer nima formalne definicije, najpogosteje pa se nanaša na modele globokega učenja z milijoni ali celo milijardami parametrov, ki so bili »predusposabljani« s pomočjo obsežnega učnega korpusa besedil. Gre za modele splošne namembnosti, ki zmorejo širok razpon nalog, ne le posamezne vrste nalog (npr. analiza razpoloženja, prepoznavanje imenovanih entitet ali matematično sklepanje).^[2] Spretnost, ki jo izkazujejo pri nalogah in razpon samih nalog, pri tem nista toliko odvisna od zasnove modela kot sta odvisna od same obsežnosti učnega korpusa, parametrov in procesorske moči.^[3]

Čeprav so modele usposabljali za preproste naloge, kot je napovedovanje naslednje besede v stavku, so se spotoma – če sta bila učni korpus in število parametrov zelo obsežna – implicitno naučili tudi skladnje in semantike samega človeškega jezika. Poleg tega se spotoma seznanijo z najbolj pogosto zastopanimi trditvami v korpusu, ki pa s seboj prinesejo tudi netočnosti in pristranskosti, ne le splošnega znanja o svetu.

Naknadna korekcija[uredi | uredi kodo]

Pogosto je potrebna naknadna korekcija, saj sicer umetna nevronska mreža, kot odziv na ukaz uporabnika 'Napiši esej o glavnih temah, zastopanih v Hamletu', namesto eseja samega napiše, 'Če boste esej oddali šele po 17. marcu, se vam bo šolska ocena zmanjšala za 10 % za vsak dan zamude' na podlagi pogostosti tega besedilnega sosledja v korpusu.

Šele z naknadnimi korekcijami se model nauči, kaj naj odziv na določene ukaze vsebuje.

Uporaba zunanjih orodij[uredi | uredi kodo]

Nekaterih nalog že v principu ne more rešiti noben OJM, vsaj ne brez uporabe zunanjih orodij oziroma dodatne programske opreme. Primer take naloge je odziv na uporabnikovo besedilo '354 * 139 = ' – če seveda OJM v učnem korpusu ni že zasledil nadaljevanja prav tega računa. V nasprotnem si mora pomagati s poganjanjem programske kode, ki izračuna razultat, da ga OJM lahko vključi v svoj odgovor. Še en primer je 'Koliko je ura zdaj? Ura je ', kjer bi moral zunanji program pognati kodo za trenutni čas na računalniku, tako da bi ga OJM lahko vključil v svoj odgovor.

Sklici[uredi | uredi kodo]

↑ Goled, Shraddha (7. maj 2021). »Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ«. Analytics India Magazine.
↑ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H. (31. avgust 2022). »Emergent Abilities of Large Language Models«. Transactions on Machine Learning Research (v angleščini). ISSN 2835-8856.
↑ Bowman, Samuel R. (2023). »Eight Things to Know about Large Language Models«. arXiv:2304.00612 [cs.CL].

Glej tudi[uredi | uredi kodo]

Ustvarjanje iztočnic

[1] Goled, Shraddha (7. maj 2021). »Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ«. Analytics India Magazine.

[emergentpaper-2] Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H. (31. avgust 2022). »Emergent Abilities of Large Language Models«. Transactions on Machine Learning Research (v angleščini). ISSN 2835-8856.

[Bowman-3] Bowman, Samuel R. (2023). »Eight Things to Know about Large Language Models«. arXiv:2304.00612 [cs.CL].

[1]

[2]

[3]