Strojno prevajanje

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje

Strojno prevajanje (ang. kratica MT) je postopek, pri katerem računalniški program analizira besedilo in brez posredovanja človeka proizvede ciljno besedilo. Izraza ne smemo zamešati z računalniško podprtim prevajanjem, ki zajema predvsem prevajalska namizja s pomnilniki prevodov. Sistemi za strojno prevajanje vključujejo eno- ali večjezične leksikone, programe za morfološko analizo in sintezo, programe za sintaktično analizo in sintezo, programe za razreševanje večpomenskosti, programe za prepoznavanje večbesednih semantičnih enot in druge kompleksne mehanizme, ki služijo avtomatizaciji prevajalskega procesa.[1] Čeprav je avtomatizacija glavna značilnost strojnega prevajanja, pa tovrstni prevajalni sistemi pogosto zahtevajo posredovanje človeka, in sicer v obliki predhodnega urejanja in kasnejših popravkov. Pri semantičnih ali leksikalnih težavah nekateri sistemi vključujejo tudi interakcijo z uporabnikom že med samim prevajalskim procesom.

Prevajanje je zahtevno in ustvarjalno dejanje, a strojno prevajanje lahko v nekaterih primerih prevajalcu delo olajša ali pa ga celo popolnoma nadomesti – če se potrebuje le grob prevod, ki ga bo kasneje pregledal in popravil prevajalec, osnutek, ki služi kot pomoč pri prevajanju, ali pa če gre za določene besedilne vrste, pri katerih je izrazje močno omejeno (vremenske napovedi, navodila za uporabo, računalniški programi, inventurni zapisniki, zdravniška poročila ipd). Strojni prevodi uradnih listin in pravnih aktov so tako razumljivejši in pravilnejši kot pri govorjenem (ali na splošno manj uradnem, standardiziranem, formulaičnem) jeziku.

S strojnim prevajanjem se ukvarja predvsem računalniško jezikoslovje. Od prvih poskusov strojnega prevajanja v 50. letih 20. stoletja, ko je računalnik le zamenjal posamezno besedo izvirnega jezika z njeno ustreznico v ciljnem jeziku, je strojno prevajanje ob pomoči korpusov in v zadnjih letih predvsem interneta kot neizmerne baze besedil močno napredovalo.[2] Strojni prevajalniki so sposobni prepoznati kontekst, frazeme in idiome v izvirnem jeziku ter ustvariti koheziven in razumljiv prevod.

Zgodovina[uredi | uredi kodo]

Glavni članek: Zgodovina strojnega prevajanja

Čeprav prve zamisli o strojnem prevajanju segajo v 17. stoletje, so se uresničile šele v drugi polovici dvajsetega stoletja. Prvi sistemi za strojno prevajanje so bili razviti v 50. in 60. letih; leta 1954 so na univerzi v Georgetownu prvič javno prikazali strojno prevajanje in z IBM-ovim računalnikom prevedli več kot šestdeset povedi iz ruščine v angleščino, kar je spodbudilo veliko vlaganja razvoj strojnega prevajanja. Po poročilu Alpaca iz leta 1966, ki je pokazalo, da je problem mnogo kompleksnejši, kot se je sprva zdelo, je zanimanje za nekaj let popustilo. V 70. letih je raziskovanje na tem področju spet oživelo in v 80. so se pojavili prvi komercialni prevajalni sistemi, naraslo je zanimanje za statistično strojno prevajanje.

Na prelomu tisočletja se je raziskovanje nadaljevalo na vseh navedenih področjih strojnega prevajanja, največji poudarek pa je bil na statistični metodi. Pojavili so se prvi nekomercialni oziroma brezplačni spletni strojni prevajalniki. Sistem, ki bi proizvedel popolnoma avtomatiziran in visoko kakovosten prevod slovnično in semantično neomejenega besedila, še vedno ne obstaja, je pa na voljo veliko programov, ki lahko proizvedejo uporaben prevod z določenimi omejitvami. Amebis Presis, Google Prevajalnik in Bing Translator so za prevajanje iz slovenščine in v slovenščino na voljo na spletu.

Metode[uredi | uredi kodo]

Na osnovi pravil[uredi | uredi kodo]

Pri strojnem prevajanju, ki temelji na pravilih (ang. rule-based machine translation (RBMT)), se izhodiščno besedilo najprej analizira na oblikoslovni in slovnični ravni, da se pridobi slovnična predstavitev. Strojni prevajalnik, ki upošteva jezikovna pravila, zato za svoje delovanje potrebuje obsežne leksikone z morfološkimi, sintaktičnimi in semantičnimi podatki ter obsežno bazo jezikovnih pravil.[2]

Način zapisa pravil se razlikuje od sistema do sistema, vse pa veže dejstvo, da je postavitev takšnega sistema dolgotrajno opravilo. V to skupino spada večina današnjih komercialnih prevajalnih sistemov, čeprav se pri gradnji poslužujejo nekaterih manj standardnih prijemov. Sistemi te paradigme izvorno besedilo najprej morfološko ter skladenjsko analizirajo ter izdelajo predstavitev vhodnega besedila, ponavadi v obliki drevesa skladenjske razčlembe (ang. parse tree). Ta predstavitev se še dodatno abstrahira s poudarkom na zahtevah strojnega prevajanja. Abstraktna predstavitev vhodnega besedila v izvirnem jeziku se s prenosom prevede v podobno predstavitev v ciljnem jeziku, to predstavitev pa sistem uporabi kot osnovo za tvorjenje besedila v ciljnem jeziku[3]; pravzaprav uporabi enake metode kot pri analizi besedila, le da pri tvorjenju postopek poteka v nasprotni smeri.

Glavna pomanjkljivost sistemov strojnega prevajanja na osnovi pravil je, da bolj kot je sistem izpopolnjen, težje ga je razširiti in nadgraditi. V strojnem prevodu so, kar se tiče semantike, sobesedila in resničnega sveta, potrebna kompleksna pravila, ta pa je težko dodajati v obsežno bazo pravil, ki so medsebojno odvisna. Pregled nad delovanjem sistema je slab, sistematske napake je zelo težko odpraviti, uvajanje lingvističnega znanja je le delno mogoče oziroma celo nemogoče.[3]

Metode, ki delujejo na osnovi pravil, so metoda, ki uporablja vmesni jezik, transferna metoda in metoda na osnovi slovarja, pri kateri se besede prevajajo neposredno iz enega jezika v drugega.

Na osnovi podatkov[uredi | uredi kodo]

V 90. letih 20. stoletja so se pojavili pristopi k strojnemu prevajanju na podlagi podatkov (ang. data-driven MT). Vsem je skupna korpusna osnova, torej da se obstoječe prevode iz korpusa uporablja za ustvarjanje novih.

Statistična metoda[uredi | uredi kodo]

Glavni članek: Statistično strojno prevajanje

Statistična metoda strojnega prevajanja v nasprotju z metodami na osnovi pravil temelji na večji količini vzporednih besedil, iz katerih se s statističnimi algoritmi izračunavajo verjetnosti prevodne ekvivalence za posamezne jezikovne enote. Besedilo je prevedeno glede na verjetnostno porazdelitev – prevod je tisto besedilo, ki ima najvišjo verjetnost, ta pa se običajno računa po posameznih povedih.[2] Statistične metode so se prvotno ukvarjale s prevajanjem posameznih besed, v zadnjih letih pa so napredovale na raven besednih zvez. Največje prednosti metode so neodvisnost od jezikovnega para, manjši stroški kot pri metodah, ki temeljijo na pravilih, in bolj naravni prevodi.

Na osnovi primerov[uredi | uredi kodo]

Glavni članek: Strojno prevajanje na osnovi primerov
Metoda prevajanja na osnovi primerov za svoje delovanje uporablja dvojezični korpus z vzporednimi besedili. Gre za prevajanje po analogiji. Od statistične metode se loči po tem, da se najbližja besedilna enota v korpusu išče tudi v izvirnem jeziku. Pri prevajanju se poved najprej razdeli na besedne zveze, ki se jih nato prevede, na koncu pa delčke sestavi skupaj.[2]

Hibridni sistemi[uredi | uredi kodo]

V drugi polovici 90. let 20. stoletja so se pojavili hibridni sistemi (ang. hybrids) - sistemi s kombinacijo več metod.[4] Ti lahko zajamejo dobre strani statistične metode in metode na osnovi pravil, razlikujejo pa se glede na to, kako uporabijo katero metodo:

  • Najprej metoda na osnovi pravil, nato statistična metoda: sistem besedilo najprej prevede z metodo na osnovi pravil, nato s statistično metodo v prevodu naredi popravke in prilagoditve.[2]
  • Statistična metoda, ki jo uravnava metoda na osnovi pravil: s pomočjo metode na osnovi pravil sistem pripravi besedilo, da je prevajanje s statistično metodo učinkovitejše, metodo na osnovi pravil pa uporabi za normalizacijo prevoda.[2]

Strojni prevajalniki[uredi | uredi kodo]

Prvi spletni prevajalnik (ta je bil dostopen le omejenemu številu uporabnikov: naročnikom poštnih storitev mreže Minitel iz Francije) je nasta konec 80. let 20. stoletja. Leta 1997 se je na medmrežju predstavil Babel Fish - prvi prezplačni prevajalnik, ki je nastal s sodelovanjem podjetja Systran Software Inc. in brskalnika AltaVista. Leta 2006 ga je pod svoje okrilje vzel Yahoo, zato se zdaj imenuje Yahoo Babel Fish. Sprva je prevajalnik vključeval 10 jezikovnih kombinacij, do leta 2006 pa je svoje storitve razširil na kar 38 jezikovnih kombinacij. Danes je na spletu na voljo kar nekaj takih prevajalnikov (FreeTranslation, Systran, itn.), pojavljajo pa se tudi lažni strojni prevajalniki (ang. spoof machine translation), namenjeni predvsem zabavi uporabnikov (na primer Lost in Translation), ki po mnenju nekaterih strokovnjakov slabo vplivajo na ugled pravih spletnih prevajalnikov. [4]

Na spletu so v kombinaciji s slovenščino na voljo naslednji brezplačni strojni prevajalniki:

Rezultati[uredi | uredi kodo]

Dobri rezultati se pri strojnem prevajanju naravnih jezikov kažejo predvsem pri prevajanju sorodnih jezikov (na primer iz danščine v angleščino).

Aljoša Vrščaj je v svojem diplomskem delu preizkusil in ovrednotil vse tri strojne prevajalnike za slovenščino; Amebis Presis, Google Prevajalnik in Bing Translator. Analiziral je ocene ročne evalvacije reprezentativnega vzorca šestdesetih segmentov iz novic, ki so na spletni strani Evropske komisije dostopne v vseh uradnih jezikih Evropske unije. V raziskavi, osnovani na Alpacovi raziskavi, so sodelovali trije ocenjevalci. Ob primerjavi ročne in samodejne evalvacije (izvedene s programi BLEU, GTM, METEOR in TERp) s Pearsonovim koeficientom se je potrdil podatek, da je trenutno najboljši strojni prevajalnik za jezikovni par angleščina-slovenščina Google Translate, sledi pa mu Microsoftov strojni prevajalnik Bing Translator. Prihodnost strojnega prevajanja je torej očitno povezana s statističnim strojnim prevajanjem in internetom kot ogromnim korpusom. Strojni prevajalnik Presis slovenskega podjetja Amebis, ki ne temelji na statistični metodi, se je po vseh rezultatih uvrstil na zadnje mesto. Razlike med prevajanjem iz slovenščine v angleščino in prevajanjem iz angleščine v slovenščino vsaj v vrstnem redu strojnih prevajalnikov ni.[2]

Problemi[uredi | uredi kodo]

Naravni jezik je eden najkompleksnejših sistemov, kar se jih je razvilo skozi človekovo evolucijo, prevajanje pa kot prenašanje sporočil med temi sistemi eden najbolj zapletenih miselnih procesov, pri katerem ostajajo mnoga vprašanja s psihološkega in jezikoslovnega vidika nepojasnjena. Razvijanje računalniških tehnologij, ki bi znale ta proces simulirati ali vsaj optimizirati nekatere njegove dele, zato že dolgo predstavlja izziv tako jezikoslovcem kot računalničarjem.[5]

Razdvoumljanje[uredi | uredi kodo]

Pri strojnem prevajanju je treba upoštevati, da je človeška komunikacija tesno povezana s kontekstom in situacijo. Ker računalnik ne more sklepati iz konteksta, se v prevodih pogosto pojavijo napake, še posebno pri večpomenkah.

Izraelski jezikoslovec Yehoshua Bar-Hillel je dejal, da stroj brez »univerzalne enciklopedije« nikoli ne bo mogel razlikovati med dvema pomenoma besede[6] (na primer ígra in igrá ter pót in pôt). Vendar pa so danes na voljo številni pristopi razdvoumljanja, ki se delijo na plitke in globlje. Medtem ko se prvi ne ukvarjajo z razumevanjem besedila, temveč pomen s statističnimi metodami razberejo glede na besede v neposredni bližini dvoumne besede, globlji pristopi temeljijo na poznavanju in razumevanju posamezne besede.

Claude Piron, ki je delal kot prevajalec v Organizaciji združenih narodov, je napisal, da strojni prevod v najboljšem primeru avtomatizira lažji del prevajalčevega dela; zahtevnejši in zamudnejši del navadno vključuje obsežno raziskovalno delo, da se razreši dvoumja v izvirniku, saj to zahtevata slovnica in leksika ciljnega jezika. Piron kot primer dvoumja navaja besedno zvezo Japanese prisoner of war camp, iz katere brez sobesedila ni mogoče razbrati, ali je mišljeno ameriško taborišče z japonskimi ujetniki ali japonsko z ameriškimi ujetniki.[7]

Prav tako je brez razumevanja konteksta nemogoče uganiti, kaj pomeni stavek He decided on the train. Lahko gre za frazni glagol decide on in bi se prevod glasil Odločil se je za vlak ali pa za navaden glagol decide in bi stavek pravilno prevedli kot Odločil se je na vlaku.

Prevajanje lastnih imen[uredi | uredi kodo]

Problem, ki ga omenja dr. Špela Vintar, je prevajanje iz nemščine. Računalnik težko ločuje lastna imena od običajnih samostalnikov, saj se oboji pišejo z veliko. Boljši prevajalniki imajo v ta namen obširne baze lastnih imen, s katerimi si pomagajo, poleg tega pa upoštevajo tudi sobesedilo. Stavek Ich habe Herrn Schneider gesehen bi boljši prevajalnik prevedel pravilno, saj bi na podlagi naziva Herr prepoznal lastno ime. Precej zapletov je tudi s slovitimi nemškimi zloženkami, saj jih prevajalniki težko pravilno analizirajo.[8] Google Translate in Amebis Presis, ki nudita prevajanje iz nemščine v slovenščino, zgoraj navedeno lastno ime prevedeta pravilno – kot gospod Schneider in ne kot gospod krojač.

Prevajanje frazeologije[uredi | uredi kodo]

Prevajanje večbesednih leksikalnih enot je problematično, ker se ob strojnem prevajanju (če prevajalnik leksemov nima posebej shranjenih v bazi podatkov) izgubijo retorični elementi ali pa (recimo pri prevajanju šal) pa celo celoten smisel besedila (Glej tudi: Leksem):

  • idiomi in metafore: red herring ne pomeni rdeč slanik (kot se glasi prevod spletne različice Amebisa Presisa), temveč zavajajoče dejanje; Shoot the breeze prav tako ne pomeni ustreli v vetriču, kot to predlaga Bing Translator, temveč govoriti tja v en dan, čvekati ipd;
  • kolokacije: red tape – angleški izraz za birokracijo – Google in Bing že prevedeta pravilno, medtem ko Amebis kot pravilen prevod zmotno predlaga rdeč trak;
  • pregovori: Pri prevajanju reka Make hay while the sun shines dobesedne ustreznice seno in sonce ne pomagajo kaj dosti. Za pravilen prevod je nujno poznavanje pregovorov (Ne odlašaj na jutri, kar lahko storiš danes, Rana ura, zlata ura ipd.);
  • vsakdanje fraze: Pravilen prevod fraze How do you do? bi se glasil Kako ste?, ne pa Kako narediš?, kot predlaga Amebis Presis; You can say that again! pomeni Popolnoma se strinjam s tabo! in ne Lahko rečemo, da še enkrat!, kot predlagata Google in Bing;
  • citati in besedne igre: Besedne igre nemškega političnega pisca in satirika Karla Ludwiga Börna Lieber Tee statt Liberté se v originalni obliki ne da prenesti v drug jezik. Ali citat pustimo nepreveden ali pa se domislimo drugačne ustvarjalne ali opisne rešitve;
  • catch phrase, klišeji: Prevajanju nenaklonjene so tudi izjave – včasih jih lahko pripišemo znani osebnosti ali filmskemu/literarnemu liku –, ki so se s časom uveljavile v pogovornem jeziku, na primer We are not amused kraljice Viktorije, A man's gotta do what a man's gotta do. ipd;
  • Aliteracija in primere: as fit as a fiddle pomeni zdrav kot riba ali zdrav kot dren in ne ko ujemajte se kot violina (spletna različica Amebisa Presisa);
  • konotacije: koza na primer ne označuje le živali, temveč tudi neumno, domišljavo žensko;
  • angleški frazni glagoli: pick up ima v različnih kontekstih zelo različne prevode: pick up a languagepriučiti se jezika; pick sb upnuditi komu prevoz, pobrati koga nekje (z avtomobilom); pick up your post/cariti po pošto/avto; pick up a cold/virusstakniti prehlad, nalesti se česa

(Navedeni primeri so bili s pomočjo spletnih prevajalnikov Amebis Presis (spletna različica), Bing Translator in Google Translate prevedeni 15. 3. 2011.)

Rešitve[uredi | uredi kodo]

Kakovost strojnih prevodov se lahko najočitneje izboljša z razvojem bolj prefinjenih metod ali s postavljanjem določenih omejitev pri izvirnem besedilu. Strojni prevajalnik je recimo lahko specializiran za določeno področje (na primer biokemijo) ali besedilno vrsto (na primer navodila za uporabo) ter s tem, kar se tiče besedišča in slovnice, reduciran na neke vrste podjezik. Prav tako je v pomoč, če je lahko izvirno besedilo napisano v nadzorovanem jeziku, ki ima omejen razpon besedišča ter se izogiba enakozvočnicam, večpomenskosti in zapletenim stavčnim strukturam, in/ali če se izvirnike lematizira. Še ena možna rešitev pa je, da se sistem ob dvoumju med samim prevajalskim procesom lahko obrne na človeka (navadno prevajalca).[9]

Evalvacija[uredi | uredi kodo]

Glavni članek: Evalvacija strojnih prevajalnikov

Za spremljanje napredka strojnega prevajanja je bilo vedno potrebno ocenjevanje kakovosti prevodov. Obstaja več načinov ocenjevanja; najstarejši izmed njih je ročna oziroma človeška evalvacija, pri kateri kakovost določajo posebej za to usposobljeni ocenjevalci. Čeprav je tovrstno ocenjevanje najzanesljivejše, je subjektivno ter zahteva veliko časa in denarja. Zato so strokovnjaki začeli iskati objektivnejšo, hitrejšo in cenejšo alternativo ročni evalvaciji in (vzporedno z razvojem strojnega prevajanja) razvijati metrike za samodejno evalvacijo strojnih prevodov.


Programska oprema[uredi | uredi kodo]

  • Worldlingo
  • Power Translator
  • Systran
  • Promt
  • AppTek
  • IdiomaX
  • Toggletext
  • Apertium
  • SDL Trados
  • Wordfast
  • MemoQ
  • Deja Vu


Viri[uredi | uredi kodo]

  1. ^ Hutchins, John in Somers, Harold, 1992: An introduction to machine translation. London: Academic Press - Harcourt Brace Jovanovich. (COBISS)
  2. ^ 2,0 2,1 2,2 2,3 2,4 2,5 2,6 Vrščaj, Aljoša (2011). Evalvacija strojnih prevajalnikov. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. COBISS 44939618. 
  3. ^ 3,0 3,1 Vičič, Jernej (oktober 2010). "Strojno prevajanje in slovenščina". Zbornik Sedme konference JEZIKOVNE TEHNOLOGIJE, ISBN 978-961-264-026-2. Institut Jožef Stefan, Ljubljana. str. 48, 49. Pridobljeno dne 2011-03-09. 
  4. ^ 4,0 4,1 Peršič, Lea (2009). Evalvacija dveh strojnih prevajalnikov: Amebis Presis in Google Prevajalnik. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. str. 7, 9, 10. 
  5. ^ Vintar, Špela (1999). Računalniške tehnologije za prevajanje. Ljubljana: Slovensko društvo Informatika. str. 17–24. COBISS 975278. 
  6. ^ Bar-Hillel (1960), "Automatic Translation of Languages". Dostopno na spletu http://www.mt-archive.info/Bar-Hillel-1960.pdf
  7. ^ Claude Piron, Le défi des langues (The Language Challenge), Paris, L'Harmattan, 1994.
  8. ^ Mladi za napredek Maribora (februar 2009). "Strojno prevajanje besedila in govora. Raziskovalna naloga.". str. 45. Pridobljeno dne 2011-03-05. 
  9. ^ Hutchins, John (2005). "The History of Machine Translation in a Nutshell". Pridobljeno dne 2011-03-05. 

Zunanje povezave[uredi | uredi kodo]