Strojno prevajanje na osnovi primerov

Strojno prevajanje na osnovi primerov (ang. kratica EBMT) skupaj s statističnim strojnim prevajanjem spada med pristope k strojnemu prevajanju na podlagi podatkov (ang. data-driven MT). Oba pristopa za svoje delovanje uporabljata dvojezični korpus z vzporednimi besedili, metoda na osnovi primerov pa se od statistične loči po tem, da se najbližja enota v korpusu išče prav tako v izvirnem jeziku.^[1] Strojno prevajanje na osnovi primerov je leta 1984 prvi predlagal japonski računalniški strokovnjak Makoto Nagao. Kmalu je ta pristop pritegnil pozornost znanstvenikov s področja računalniškega jezikoslovja.

Oris delovanja[uredi | uredi kodo]

Strojno prevajanje na osnovi primerov temelji na prevajanju po analogiji, kar - preneseno na prevajalski proces pri človeku - zavrača idejo, da ljudje prevajamo stavek za stavkom in ob tem opravimo poglobljeno jezikovno analizo. Metoda na osnovi primerov ravno nasprotno temelji na prepričanju, da ljudje primarno prevajamo tako, da poved razdelimo na besedne zveze, ki jih nato prevedemo, na koncu pa jih pravilno sestavimo v poved. Prevodi besednih zvez so prevedeni po analogiji glede na prejšnje prevode. Sistemi strojnega prevajanja na osnovi primerov so prevajanja po analogiji naučeni prav s primeri prevodov.

Ob začetku učenja tujega jezika si mora učenec zapomniti veliko podobnih stavčnih struktur in besed v tujem jeziku ter njihove ustreznice v maternem jeziku. Če želi tvoriti ali prevesti poved v tuji jezik, mora sklepati o pravilni stavčni strukturi iz primerov, ki jih pozna. ^[2] Podobno delujejo tudi sistemi strojnega prevajanja na osnovi primerov. Znanje črpajo iz dvojezičnih vzporednih korpusov, ki vsebujejo stavčne pare, kot je v Primeru 1 – poved v izhodiščnem jeziku (original) in ciljnem jeziku (prevod). V prvem koraku strojnega učenja je prisoten en stavčni par , v drugem pa je dodan drugi stavčni par, ki se od prejšnjega razlikuje le v enem leksemu. Primer kaže minimalni par (to pomeni, da se povedi razlikujeta le v enem elementu). Takšne povedi olajšajo učenje enot, manjših od stavka (ang. subsentential units). Sistem strojnega prevajanja na osnovi primerov bi se v naslednjem primeru naučil tri prevodne enote:

**Primer dvojezičnega korpusa**
Angleščina	Japonščina
How much is that red umbrella?	Ano akai kasa wa ikura desu ka.
How much is that small camera?	Ano chiisai kamera wa ikura desu ka.

Iz zgornjih povedi sistem izlušči tri enote, ki jih bo lahko uporabljal pri prevajanju: How much is X? ustreza Ano X wa ikura dese ka?, red umbrella ustreza akai kasa, small camera ustreza chiisai kamera.^[1]

Te enote sistem lahko kasneje uporabi v novih prevodih. Če ima sistem v bazi podatkov naslednji povedi: Predsednik J. F. Kennedy je bil ustreljen med parado. in Obsojeni je pobegnil 15. julija., lahko prevede poved Obsojeni je bil ustreljen med parado. tako, da zamenja ustrezni del povedi.

Postopek prevajanja[uredi | uredi kodo]

Strojni prevajalnik na osnovi primerov vsebuje dve bazi podatkov – bazo s primeri in tezaver – ter tri prevajalne module – za analizo, prenos na osnovi primerov in tvorbo. Tezaver se uporablja za izračun pomenske razdalje med pomenskimi besedami v vnosu in tistimi v primerih. Prevajalski proces, ki temelji na uporabi že prevedenih besedil, poteka na treh ravneh:

1. Lematizacija
2. Poravnava
3. Rekombinacija

Lematizacija[uredi | uredi kodo]

V prvem koraku pri strojnem prevajanju na osnovi pravil se poišče primere, ki bodo vkjučeni v prevajalski postopek, glede na njihovo podobnost z vnosom (besedilom, ki bo prevedeno). Način lematiziranja je odvisen od tega, kako so primeri shranjeni v bazi podatkov. V starejših sistemih so bili primeri v drevesnih strukturah, opremljenih z opombami, sestavni deli pa so bili med jezikoma vzporejeni z eksplicitnimi povezavami. Besedilo, ki se bo uvozilo v sistem, se analizira na enak način, kot je bilo to poprej storjeno z bazo primerov. Tvori se drevesna struktura, ki se jo nato primerja z drevesni strukturami v bazi primerov.^[3]

Uvoženo besedilo in primeri se lahko primerjajo beseda za besedo – takšen postopek se imenuje zaporedna primerjava (ang. sequence comparison). Poravnava in rekombinacija bosta po takšni analizi težavni. Primere pa se lahko opremi tudi s podatki o besedni vrsti; tako je možno več preprostih primerov združiti v posplošen primer, ki vsebuje več prevodnih različic. Primere je dobro analizirati, da se vidi, ali so primerni za nadaljnjo obdelavo. Primeri, ki se prekrivajo ali si nasprotujejo, morajo biti primerno obravnavani. ^[3]

Poravnava[uredi | uredi kodo]

S poravnavo (ang. alignment) se ugotovi, katere dele prevoda se bo uporabilo znova. Besedilo se poravna s pomočjo dvojezičnega slovarja ali primerjanja z drugimi primeri. Ta postopek mora biti avtomatiziran.^[3]

Rekombinacija[uredi | uredi kodo]

Zadnji korak pri strojnem prevajanju na osnovi primerov je rekombinacija, s katero se zagotovi, da so deli, primerni za ponovno uporabo, pravilno poravnani. Iz povedi v izhodiščnem jeziku in skupkov vzorcev za prevajanje se proizvede povedi v ciljnem jeziku. Način rekombinacije je odvisen od prejšnjih korakov.^[3]

Prednosti[uredi | uredi kodo]

Največje prednosti metode na osnovi primerov v primerjavi s tradicionalnejšimi pristopi so:

Možnost izboljšav
Strojno prevajanje na osnovi primerov ne uporablja slovničnih pravil, prevajalne sisteme je preprosto nadgraditi – več primerov je v bazi podatkov, boljša je kakovost prevodov. Baza podatkov je prav tako preprosta za obdelavo. ^[4]

Faktor zanesljivosti in razdalja
Ena izmed glavnih pomanjkljivosti pri strojnih prevajalnikih na osnovi pravil, je tako imenovani problem zastrupljenega piškota (ang. poisoned cookie).^[4] Ti prevajalniki nimajo priprav, ki bi merile zanesljivost prevoda, zaradi česar uporabniki prevodu ne moreju zaupati, saj je ta lahko popolnoma napačen, ne da bi sistem na to nakazal. Obstajajo primeri, ko so vsi prevodni procesi potekli pravilno, rezultat pa je napačen.
Ko se pri strojnem prevajanju na osnovi primerov vnesenemu besedilu pripisuje podobne primere v ciljnem jeziku, se meri razdaljo (ang. distance) med vnesenim besedilom in vsakim od primerov. Manjša kot je razdalja, bolj je primer podoben vnesenemu besedilu. Prevajalni sistem iz primernih primerov tvori najustreznejši prevod. Vsakemu prevodu je pripisan faktor zanesljivosti (ang. reliability factor), ki se izračuna glede na pogostnost pojavitve in razdaljo med vnosom in najdenimi primeri. Če primernega primera ni, sistem uporabniku pove, da vnosa ne more prevesti, sicer pa uporabnika o pravilnosti prevoda prepričajo že sami primeri, podobni vnosu.^[4]

Hitrost
Strojno prevajanje na osnovi pravil je na splošno počasno, saj je sistem, temelječ na pravilih, zelo obsežen in obsega module za analizo, prenos in tvorbo, pri tem pa uporablja skladenjska pravila, semantične omejitve, pravila o prenosu stavčnih struktur, izbor besed, pravila tvorbe itd. Statistično prevajanje prevode dobi z uporabo primerov s specifičnega področja (pari izhodiščnih in ciljnih izrazov), prevod pa je podan, ne da bi šel čez dolgo verigo pravil.

Princip najbližjega zadetka
Strojno prevajanje na osnovi pravil temelji na principu popolnega zadetka (ang. exact-match reasoning). Če torej ni popolnega zadetka, sistem besede ne prevede. Prevajalni sistem na osnovi primerov pa temelji na principu najbližjega zadetka (ang. best-match reasoning) in se tako izogne mnogim neprevedenim ali napačno prevedenim besedam.

Dober izkoristek strokovnega znanja prevajalcev in lahka dostopnost virov
Oblikovanje jezikovnih pravil za prevajalske sisteme, temelječe na pravilih, je težko delo, ki zahteva jezikoslovno izobražen kader. Poleg tega se jezikoslovje ne ukvarja s problemi, ki se pojavljajo v resničnih besedilih. Primeri, potrebni za sisteme strojnega prevajanja na osnovi primerov, pa so zaradi velike količine besedil in prevodov v digitalni obliki lahko dostopni in so pokazatelji strokovnega znanja prevajalcev, ki so se s prevodnimi problemi že ukvarjali.

Reševanje prevajalskih problemov[uredi | uredi kodo]

Strojno prevajanje na osnovi primerov je uporabno pri prevajanju mnogih jezikovnih fenomenov, ki se smatrajo kot prevajalski problemi pri konvencionalnem strojnem prevajanju na osnovi pravil. Strokovnjaki na področju računalniške lingvistike so s tovrstnimi problemi dobro seznanjeni in jim v zadnjem času namenjajo precej pozornosti. Izkazalo se je, da se pri tovrstnih prevodih bolje kot strojni prevajalniki na osnovi pravil izkažejo tisti na osnovi primerov.

Široko uporabljani predlogi, kot sta španski de in japonski no, se učinkovito prevajajo s strojnimi prevajalniki na osnovi primerov. Prav tako se uspešno prevajajo nemški sestavljeni glagoli. ^[4]

Ta vrsta strojnega prevajanja je nadvse primerna za prevajanje fraznih glagolov. Ti imajo različne pomene, ki so v veliki meri odvisni od sobesedila. Zelo pogosto se pojavljajo v angleščini in so sestavljeni iz glagola, ki mu sledita prislov in/ali predlog. Slednja se imenujeta členek glagola. Pomen fraznih glagolov pogosto ni razviden iz pomena sestavnih besed. Pri dobesednem prevajanju skoraj vedno pride do dvoumja.

Integracija[uredi | uredi kodo]

Združevanje strojnega prevajanja na osnov primerov in na osnovi pravil naj bi bilo praktično. Za uporabnike bi bilo sprejemljivejše, če bi bilo strojno prevajanje na podlagi pravil osnovano kot temeljni sistem, potem pa razširjeno in izboljšano z dodajanjem komponent strojnega prevajanja na osnovi primerov; prav to je leta 1984 predlagal Makoto Nagao.^[4]

Problemi[uredi | uredi kodo]

Približno polovico vseh težav predstavlja pomanjkanje podobnih primerov, kar pa se da rešiti z dodajanjem novih besedil v bazo podatkov.^[4]

Viri[uredi | uredi kodo]

↑ ^1,0 ^1,1 Vrščaj, Aljoša (2011). Evalvacija strojnih prevajalnikov. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. COBISS 44939618.
↑ Nagao, Makoto (1984). »A framework of a mechanical translation between Japanese and English by analogy principle«. V Elithorn, A.; Banerji, R. (ur.). Artificial and Human Intelligence (PDF). Elsevier Science Publishers. Arhivirano iz prvotnega spletišča (PDF) dne 6. februarja 2012. Pridobljeno 28. marca 2011.
↑ ^3,0 ^3,1 ^3,2 ^3,3 Robin (27. september 2010). »Example Based Machine Translation«. Articles on Natural Language Processing (v angleščini). Arhivirano iz prvotnega spletišča dne 30. aprila 2011. Pridobljeno 27. marca 2011.
↑ ^4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 Sumita, Eichiro; Iida, Hitoshi. »Experiments and Prospects of Example-Based Machine Translation« (PDF) (v angleščini). ATR Interpreting Telephony Research Laboratories, Kyoto. str. 185–187, 191, 192. Pridobljeno 27. marca 2011.

[Vrščaj_dipl-1] 1,0 ^1,1 Vrščaj, Aljoša (2011). Evalvacija strojnih prevajalnikov. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. COBISS 44939618.

[2] Nagao, Makoto (1984). »A framework of a mechanical translation between Japanese and English by analogy principle«. V Elithorn, A.; Banerji, R. (ur.). Artificial and Human Intelligence (PDF). Elsevier Science Publishers. Arhivirano iz prvotnega spletišča (PDF) dne 6. februarja 2012. Pridobljeno 28. marca 2011.

[robin-3] 3,0 ^3,1 ^3,2 ^3,3 Robin (27. september 2010). »Example Based Machine Translation«. Articles on Natural Language Processing (v angleščini). Arhivirano iz prvotnega spletišča dne 30. aprila 2011. Pridobljeno 27. marca 2011.

[sumita-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 Sumita, Eichiro; Iida, Hitoshi. »Experiments and Prospects of Example-Based Machine Translation« (PDF) (v angleščini). ATR Interpreting Telephony Research Laboratories, Kyoto. str. 185–187, 191, 192. Pridobljeno 27. marca 2011.

[1]

[2]

[3]

[4]