Evalvacija strojnih prevajalnikov

Obstaja veliko metod za evalvacijo strojnih prevajalnikov. Ta članek se ukvarja predvsem z evalvacijo prevodov, ne s funkcionalnostjo in drugimi lastnostmi strojnih prevajalnikov.

Metode[uredi | uredi kodo]

Evalvacija je zelo subjektivna in kompleksna, zato univerzalna metoda ocenjevanja še ni določena. Znana evalvacija strojnih prevajalnikov, ki je izšla leta 1966, je Alpacovo poročilo. Kriterijev ocenjevanja iz tega poročila so pri evalvaciji prevodov uporabljali številni raziskovalci.

Hutchins in Somers (1992) pri analizi besedila navajata tri kriterije: ali prevod posreduje enake informacije kot izvirnik (informativost), ali so besede v prevodu primerne glede na vsebino in namen (ustreznost) in ali je prevod jasen (razumljivost). Pogosto so nerazumljivi prevodi zvesti izvirniku, popolnoma razumljivi prevodi pa posredujejo nepopolne ali celo napačne informacije. Prav tako ni dovolj, da besedilo lepo teče, a obenem ni primerno po namenu in vsebini. Pri analizi so torej pomembni vsi trije vidiki, ki niso nujno soodvisni.^[1]

Ena možnost evalvacije prevoda je preverjanje vsebine z nalogami za bralno razumevanje. Ustreznost besedila je mogoče preprosto preveriti pri prevodih navodil za uporabo; bralca se preprosto vpraša, ali bi z dotičnimi navodili (prevodom) lahko izvedel želeno dejanje. Med možnostmi sta tudi povratni prevod ter primerjava informativnosti izvirnika in strojnega prevoda.

Do oprijemljivejše ocene je mogoče priti s statističnim pristopom, pri katerem se primerja število napak različnih vrst. A čeprav se s štetjem napak pridobi objektivne številčne rezultate, tudi ta pristop ni povsem objektiven, saj vsak ocenjevalec napake vidi drugače. Nekdo na neko stilistično pomanjkljivost, ki ne vpliva na razumljivost in točnost, ne gleda kot na napako, kdo drug pa.^[1]

Prav tako kot način ocenjevanja je pomembno, kdo podaja oceno strojnega prevajalnika. Mnenje raziskovalca bo do neke mere drugačno od mnenja uporabnika, saj raziskovalca zanima potencial orodja na dolgi rok, uporabnika pa uporabnost v danem položaju.^[1]

Povratni prevod[uredi | uredi kodo]

Povratni prevod (ang. round-trip translation) je prevod, ki smo ga s pomočjo istega strojnega prevajalnika najprej prevedli v ciljni jezik, nato pa nazaj v izvirni jezik. Največja težava pri tem je, da ne moremo vedeti, ali je sistem naredil napako ob prevajanju v drug jezik ali ob prevajanju nazaj v izvirni jezik.^[2]

Spodnji primeri prikazujejo, kako je lahko povratno prevajanje za evalvacijo zavajajoče. V prvem primeru^[2] je prevod v italijanščino popolnoma sprejemljiv, medtem ko je v povratnem prevodu kar nekaj napak. V drugem primeru^[2] je povratni prevod identičen izvirniku, medtem ko je prevod v portugalščino brezpredmeten. Pri tretjem primeru (iz Google Translate) je prevod slovenskega frazema v angleščini popolnoma nesmiseln, povratni prevod pa je sicer slovnično pravilen, a nerelevanten, saj se ob zamenjani informaciji izgubi pomen frazema.

Angleški izvirnik: Select this link to look at our home page.

Prevod v italijanščino: Selezioni questo collegamento per guardare il nostro Home Page.
Povratni prevod: Selections this connection in order to watch our Home Page.

Angleški izvirnik: Tit for tat.
Prevod v portugalščino: Melharuco para o tat.
Povratni prevod: Tit for tat.

Slovenski izvirnik: Ne tič ne miš
Prevod v angleščino: Do not cock Sun mouse.
Povratni prevod: Ne petelin ne miš.

Ročna evalvacija[uredi | uredi kodo]

Leta 1966 je Alpac (Automatic Language Processing Advisory Committee) objavil raziskavo na temo ročne evalvacije, v kateri so ocenjevali človeške in strojne prevode. Ocenjevalci so bili usposobljeni posebej za raziskavo. Ocenjevali so prevode iz ruščine v angleščino, in sicer vidika razumljivosti (angl. intelligibility) in z vidika zvestobe (angl. fidelity). Najprej so z ocenami od 1 do 10 vrednotili berljivost prevoda - v kolikšni meri je bil prevod razumljiv, ne da bi ocenjevalci videli original. Nato pa so z ocenami od 1 do 10 ocenjevali informativnost, tj. semantično pravilnost prevoda v primerjavi z izvirnikom - ali so vsi podatki oziroma vse informacije, ki jih vsebuje izvirnik, ohranjene ali katera manjka, ali je v prevodu kakšen podatek dodan, ali so katere besede ostale neprevedene ipd. Raziskava je pokazala, da so bile razlike med ocenjevalci majhne, kljub temu pa priporočajo, da pri evalvaciji sodelujejo vsaj tri ali štirje ocenjevalci. Ocenjevalci so zlahka ločili, ali gre za človeški ali za strojni prevod.

V podjetju Arpa (Advanced Research Projects Agency) so leta 1991 pod okriljem projekta Human Language Technologies Program vzpostavili evalvacijski program, ki deluje še danes, in izdelali metodologijo za evalvacijo strojnih prevajalnikov. Glavni izziv pri evalvaciji je bil zmanjšati subjektivnost – ocenjevanje mora biti intuitivno in hkrati kar se da objektivno, kar se kaže v minimalnih odstopanjih med ocenjevalci.^[2] Najprimernejše metode, ki so jih izbrali za nadaljnjo uporabo, so vključevale evalvacijo razumljivosti s pomočjo testov razumevanja, evalvacija primernosti ki so jo izvedli materni govorci angleščine, in evalvacijo, ki temelji na primernosti in berljivosti in informativnosti.^[2]

Samodejna evalvacija[uredi | uredi kodo]

Ko je v začetku devetdesetih let ameriška vlada sponzorirala tekmovanje med strojnimi prevajalniki, so vse prevode ocenjevali ročno. Visoki stroški, subjektivnost in porabljen čas so spodbudili številne raziskovalce, da so začeli iskati objektivnejšo in hitrejšo rešitev.^[2]

Aplikacije[uredi | uredi kodo]

Metrike za samodejno evalvacijo so na voljo kot brezplačna računalniška orodja, napisana v programskem jeziku Perl (BLEU in GTM) ali Java (METEOR in TERp), na naslednjih spletnih straneh:

BLEU [1]^{[mrtva povezava]}
GTM [2]
METEOR [3]
TERp [4] Arhivirano 2010-08-31 na Wayback Machine.

Metriki BLEU in GTM ocenjujeta le na podlagi skupnih n-gramov med strojnim in referenčnim prevodom, medtem ko sta metriki METEOR in TERp naprednejši evalvacijski orodji, saj za natančnejše ocenjevanje uporabljata bazo sinonimov, bazo parafraz in iskanje zadetkov po korenih besed.^[2]

Viri[uredi | uredi kodo]

↑ ^1,0 ^1,1 ^1,2 Peršič, Lea (2009). Evalvacija dveh strojnih prevajalnikov: Amebis Presis in Google Prevajalnik. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. str. 13.
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 ^2,6 Vrščaj, Aljoša (2011). Evalvacija strojnih prevajalnikov. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. COBISS 44939618.

ALPAC (1966). »Languages and Machines: Computers in Translation and Linguistics« (PDF) (v angleščini). National Academy of Sciences: National Research Council, Washington, D. C. Arhivirano iz prvotnega spletišča (PDF) dne 9. aprila 2011. Pridobljeno 1. aprila 2011.

[persic-1] 1,0 ^1,1 ^1,2 Peršič, Lea (2009). Evalvacija dveh strojnih prevajalnikov: Amebis Presis in Google Prevajalnik. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. str. 13.

[Vrščaj_dipl-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 ^2,6 Vrščaj, Aljoša (2011). Evalvacija strojnih prevajalnikov. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. COBISS 44939618.

[1]

[2]