Lematizacija

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje

Lematizacija (tudi "geslenje") je bodisi ročni bodisi računalniško podprt postopek določanja osnovne (slovarske) oblike posameznim besedam, ki jih najdemo v besedilu. Osnovno obliko besede imenujemo lema. Pri ocenjevanju uspeha lematizacije se uporablja mera natančnosti, ki je definirana kot razmerje med pravilno lematiziranimi besedami in vsemi besedami v besedilu. Lematizacija je tesno povezana s krnjenjem besed. Razlika med tema postopkoma je v tem, da krnjenje besede ne preoblikuje v njeno slovarsko obliko, ampak besedi zgolj odreže končnico in tako dobi krn besede (npr. krn besede "hoditi" je "hodi"). Kombinacija leme z besedno vrsto besede pa je leksem.

V mnogih jezikih se besede pojavljajo v različnih skladenjskih oblikah, s postopkom lematizacije pa besedam pripišemo osnovno obliko (npr. besedam »hodim«, »hodiš«, »hodita«, »hodimo«, vsem pripada lema "hoditi"), ki je zapisana v slovarjih.

Lematizacija ima višji odstotek pravilnosti kadar so besedam že določene besedna vrsta in kontekst. Obstajajo tudi načini računalniške lematizacije, pri katerih ni potrebno vnaprejšnje določanje besedne vrste.[1] Prednost takih algoritmov je večja hitrost, saj delujejo zgolj na nivoju besed in se s konteksti ne ukvarjajo, vendar pa imajo velikokrat slabšo natančnost lematizacije kot kompleksnejši algoritmi, ki razčlenijo celotne stavke. Lematizacija večjih korpusov besedil ni skoraj nikoli 100% pravilna (celo, če jo naredimo ročno).

Za razliko od angleškega jezika, kjer je krnjenje skoraj enako uporabno za potrebe rudarjenja besedil kot lematizacija, pa to za slovenski jezik ne velja, saj pogosto dobimo (pre)krakte krne, ki se zlijejo z besedami drugih pomenov in tako otežujejo nalogo postopkom, ki krnjenju sledijo (npr. rudarjenje besedil). Za slovenščino in druge morfološko bogate jezike se tako priporoča uporaba lematizacije namesto krnjenja.

Na primer:

  1. Beseda »hoditi« je osnovna oblika besede »hodim«, kar je razvidno tako z lematizacijo kot s krnjenjem.

Toda

  1. Beseda »boljši« ima za lemo »dober«, kar pa iz krna ni razvidno.

Notes[uredi | uredi kodo]

Zunanje povezave[uredi | uredi kodo]