Besedilni korpus
Iz Wikipedije, proste enciklopedije
V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, običajno elektronsko hranjena in obdelana. Korpuse se uporablja za statistične analize in testiranje hipotez, za preverjanje pojavitev ali pa za potrditev lingvističnih pravil v določenem jeziku.
Korpus je lahko enojezikovni (vsa besedila so v enem jeziku) ali večjezikovni (besedila so v različnih jezikih). Po tipologiji med večjezikovne sodijo primerljivi in vzporedni korpusi.
Da bi bili korpusi čim bolj koristni za lingvistično raziskovanje, se v njih pogosto pojavlja tudi jezikoslovno označevanje, h kateremu prištevamo lematizacijo (postopek pripisovanja leme oziroma osnovne oblike besede pojavnicam v korpusu), oblikoskladenjsko označevanje, skladenjsko označevanje in še nekatere druge tipe označevanja.
Korpusi so osrednja baza znanja v korpusni lingvistiki. Analize in obdelave različnih vrst korpusov so tudi predmet obravnave računalniške lingvistike, prepoznavanja govora in strojnega prevajanja, kjer se pogosto uporabljajo za konstrukcijo skritih modelov Markova za oblikoskladenjsko označevanje ter v mnoge druge namene. Korpusi in seznami pojavitev, ki izhajajo iz korpusov, so zelo uporabni za poučevanje jezika.
Vsebina |
[uredi] Tipologija korpusov
- Referenčni korpusi so temeljna vrsta korpusov, ki naj bi predstavili celovito podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi najnatančneje izdelana metodologija gradnje; predstavljajo izhodišče za temeljne jezikoslovne raziskave predvsem s področja slovnice in slovarja. V slovenskem prostoru v to kategorijo sodijo korpus FIDA, FidaPLUS in Nova beseda.
- Govorni korpus; govorni korpusi se največkrat pojavljajo kot podkorpusi referenčnih korpusov. Niso namenjeni raziskavi govora, temveč le zajetju posebnosti govorne komunikacije v referenčnih priročnikih.
- Specializirani korpusi predstavljajo jezik v točno določeni rabi; danes so med njimi aktualni korpusi strokovnih jezikov, predvsem v okviru terminoloških raziskav.
- Vzorčni korpusi; o vzorčnem korpusu govorimo, če je korpus sestavljen le iz besedilnih fragmentov in ne celotnih besedil. Z razvojem tehnologije, ki omogoča zajemanje večjih količin besedil, so tovrstni korpusi postali manj aktualni.
- Spremljevalni korpusi; spremljevalni korpus je korpus, ki sledi jezikovni dinamiki in tako zares odseva trenutno podobo jezika. Gre za dve načeli:
- novo besedilno gradivo se le dodaja.
- novo besedilno gradivo se dodaja, staro pa izloča v diahrone podkorpuse.
- Primerljivi korpusi vključujejo primerljiva (tematsko, jezikovnozvrstno, besedilnovrstno ipd.) besedila v različnih jezikih in so tako primerni za kontrastivne študije. Idealen zgled primerljivega megakorpusa bi bil korpus, sestavljen iz referenčnih korpusov različnih jezikov, grajenih po prekrivnih izhodiščnih načelih.
- Vzporedni korpusi so zanimivi predvsem za prevodoslovje, saj sopostavljajo poravnano izhodiščno besedilo in prevod oziroma prevode istega besedila v drug jezik oziroma druge jezike; poravnani korpus omogoča vpogled v prevajalske odločitve in strategije prevajanja.
[uredi] Viri
- Gorjanc V. (2005). Uvod v korpusno jezikoslovje. Ljubljana: Založba Izolit.

