Pristop z vmesnim jezikom

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje
Piramida strojnega prevajanja
Shema jezikov, ki so prisotni pri prevajalskem procesu z enim vmesnim jezikom.

Pristop oz. metoda z vmesnim jezikom, tudi interlingua, je eden izmed klasičnih pristopov k strojnemu prevajanju. Znotraj strojnega prevajanja na osnovi pravil je ta pristop alternativa direktnemu prevajanju (slovarski metodi) in transfernemu prevajanju.

Prevajalni sistem besedilo v izhodiščnem jeziku najprej pretvori v interlinguo - abstraktno, jezikovno neodvisno vmesno stopnjo ali vmesni jezik. Ta mora na slovnični in semantični ravni ohraniti dovolj informacij, da jo nato lahko pretvori naprej v ciljni jezik. Interlingua je mednarodni pomožni jezik, ki so ga med letoma 1937 in 1951 razvili v Mednarodnem združenju pomožnih jezikov (International Auxiliary Language Association).[1] Z metodo, ki temelji na vmesnem jeziku, je izhodiščna besedila mogoče prevesti v več kot en jezik. Največja prednost te metode je, da sistema ni treba nadgrajevati po jezikovnih parih, ampak po posameznih jezikih, kar znatno zmanjša čas in stroške. Glavna slabost pa je težava pri ustvarjanju primernega vmesnega jezika. Ta bi moral biti abstrakten in neodvisen tako od izhodiščnega kot od ciljnega jezika. Pojavi se problem, kako definirati vmesni jezik za širši kontekst, saj vmesni jezik zadovoljivo deluje le na omejenem področju.[2] Interlingua lahko uporablja umetni ali pomožni jezik z univerzalnim besediščem, kot je esperanto, zahteva pa popolno razrešitev vseh dvoumij v izhodiščnem besedilu.

Zgodovina[uredi | uredi kodo]

Prve zamisli o strojnem prevajanju s pomočjo vmesnega jezika segajo v 17. stoletje. René Descartes in Gottfried Wilhelm Leibniz sta razvila teorije, kako ustvariti slovarje s pomočjo univerzalnih numeričnih kod. Drugi - Cave Beck, Athanasius Kircher and Johann Joachim Becher – so razvijali nedvoumen univerzalni jezik na osnovi logičnega in ikonografskega principa. Leta 1668 je John Wilkins svoj vmesni jezik opisal v eseju Essay towards a Real Character and a Philosophical Language. V 18. in 19. stoletju je bilo razvito veliko predlogov za »univerzalne« mednarodne jezike, najbolj znan med njimi je še danes esperanto.

Kljub temu pa zamisel o univerzalnem jeziku ni bila med prvimi metodami strojnega prevajanja; strojno prevajanje se je začelo z jezikovnimi pari. A v 50. in 60. letih 20. stoletja so to področje začeli raziskovati strokovnjaki v Cambridgeu pod vodstvom Margaret Masterman, v Leningradu pod vodstvom Nikolaja Andrejeva in v Milanu pod vodstvom Silvia Ceccata. Izraelski filozof Yehoshua Bar-Hillel je leta 1969 o tem napisal obširno razpravo.

V 70. letih 20. stoletja se je omembe vredno raziskovanje odvijalo v Grenoblu, kjer so strokovnjaki poskušali prevesti besedila s področja fizike in matematike iz ruščine v francoščino. V Teksasu je potekal podoben projekt (METAL) iz ruščine v angleščino. Zgodnji sistemi za strojno prevajanje, ki so vključevali vmesni jezik, so bili osnovani v Stanfordu (Toger Schank, Yorick Wilks); prvi je postal osnova komercialnemu sistemu za prerazporeditev sredstev, koda slednjega pa je shranjena v računalniškem muzeju v Bostonu kot prvi sistem strojnega prevajanja s pomočjo vmesnega jezika.

V 80. letih so se s pristopom, temelječim na vmesnem jeziku, ukvarjali mnogi raziskovalci. Skupni imenovalec raziskav je bil, da je za dosego visoko kakovostnega prevoda treba opustiti misel na popolno razumevanje besedila. Namesto tega naj bi prevajanje temeljilo na jezikovnem znanju in specifičnem področju, na katerem bi se prevajalni sistem uporabljal. Najpomembnejše raziskave tega časa so bila v Utrechtu (Distributed Language Translation (DLT)), kjer so delali z modificirano različico esperanta, ter sistem Fujitsu na Japonskem.

Oris delovanja[uredi | uredi kodo]

a) Graf strojnega prevajanja pri slovarski ali transferni metodi (potrebnih je 12 slovarjev; b) Graf strojnega prevajanja pri vmesnem jeziku (potrebujemo le 8 prevajalskih modulov)
Graf strojnega prevajanja z dvema vmesnima jezikoma
Prevajalski proces sistema, ki temelji na znanju.

Vmesni jezik si lahko predstavljamo kot način opisa analize izhodiščnega besedila, s katero je mogoče oblikoslovne, slovnične, pomenske (in tudi pragmatične) značilnosti izhodiščnega jezika pretvoriti v ciljni jezik. Vmesni jezik lahko opiše vse značilnosti vseh jezikov, ki so prisotni v prevajalskem procesu, namesto da bi preprosto prevedel en jezik v drugega.

Pri prevajanju se lahko uporabljata tudi dva vmesna jezika. Možno je, da eden izmed njiju pokriva več značilnosti izhodiščnega jezika, drugi pa več značilnosti ciljnega jezika. Prevajanje tako poteka v dveh korakih, sistem pa je lahko zasnovan tako, da se drugi vmesni jezik poslužuje bolj specifičnega besedišča, ki je bolj vzporejeno s ciljnim jezikom, kar lahko izboljša kakovost prevoda.

Omenjeni sistem je osnovan na jezikovni bližini in poskuša izboljšati kakovost prevoda besedila v izhodiščnem jeziku v mnoge druge strukturno podobne jezike z le eno jezikovno analizo. Ta princip se prav tako uporablja pri prevajanju med manj sorodnimi jeziki; pri prevajanju iz angleščine v ukrajinščino tako lahko ruščina služi kot most med obema jezikoma.[3]

Lastnosti[uredi | uredi kodo]

Sistemi za strojno prevajanje z vmesnim jezikom vsebujejo dve enojezični komponenti: analizo izhodiščnega in vmesnega jezika ter tvorbo vmesnega in ciljnega jezika. Treba pa je razlikovati med sistemi, ki uporabljajo slovnične metode (na primer sistemi, razviti v 70. letih na univerzah v Grenoblu in Teksasu), in sistemi, ki temeljijo na umetni inteligenci (od leta 1987 na Japonskem ter raziskave na Univerzi v Južni Kaliforniji in Univerzi Carnegie Mellon).

Za sistem strojnega prevajanja z vmesnim jezikom je potrebno naslednje:

  • slovarji (ali leksikoni) za analizo in tvorbo (specializirani za področje in udeležene jezike)
  • specializirani leksikon danega področja, ki je osnova za besedišče z danega področja
  • pravila projekcije (specializirana za dano področje in jezike)
  • slovnice za analizo in tvorbo jezikov, udeleženih v prevajalskem procesu.

Eden izmed problemov te metode je, da je nemogoče ustvariti baze podatkov za širša področja. Poleg tega je obdelava baz podatkov zelo zahtevna.

Učinkovitost[uredi | uredi kodo]

Ena izmed glavnih prednosti metode strojnega prevajanja s pomočjo vmesnega jezika je ekonomičnost pri ustvarjanju večjezičnih prevajalskih sistemov. Sistema tako ni treba nadgrajevati po jezikovnih parih, ampak po posameznih jezikih. Namesto, da bi ustvaril jezikovni par po formuli n(n − 1), kjer je n število jezikov v sistemu, je treba ustvariti 2n parov med n jeziki in vmesnim jezikom. Poleg tega metoda podpira parafraze v izhodiščnem jeziku, sisteme tako za analiziranje kot za tvorbo besedil lahko snujejo enojezični avtorji, jezikovne kombinacije pa so možne tudi z jeziki, ki so med seboj zelo različni (na primer angleščina in arabščina[4]).

Glavna slabost pa je težava pri ustvarjanju primernega vmesnega jezika. Ta bi moral biti abstrakten in neodvisen tako od izhodiščnega kot od ciljnega jezika. Več jezikov kot vključimo v prevajalni sistem in bolj različni, kot so, učinkovitejši mora biti vmesni jezik, da ta lahko izrazi vse možne smeri prevajanja. Očitna pomanjkljivost interlingue je problem, kako definirati vmesni jezik za širši kontekst, saj vmesni jezik zadovoljivo deluje le na omejenem področju. Prav tako je težavno izvleči pomen iz izhodiščnih besedil, da se ustvari vmesna predstavitev.

Viri[uredi | uredi kodo]

  1. ^ Peršič, Lea (2009). Evalvacija dveh strojnih prevajalnikov: Amebis Presis in Google Prevajalnik. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. str. 7. 
  2. ^ Vrščaj, Aljoša (2011). Evalvacija strojnih prevajalnikov. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. str. 8. COBISS 44939618. 
  3. ^ Bogdan Babych, Anthony Hartley, and Serge Sharoff (2007) "Translating from under-resourced languages: comparing direct transfer against pivot translation". Proceedings of MT Summit XI, 10–14 September 2007, Copenhagen, Denmark. pp.29--35
  4. ^ Abdel Monem, A., Shaalan, K., Rafea, A., Baraka, H., Generating Arabic Text in Multilingual Speech-to-Speech Machine Translation Framework, Machine Translation, Springer, Netherlands, 20(4): 205-258, December 2008.