Besedilni korpus

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje

Besedilni korpusi (oz. v jezikoslovnem strokovnem jeziku tudi zgolj korpusi) so obsežne zbirke besedil v naravnem jeziku, zajete v določenem obdobju iz množičnih medijev (časopisnega in revijalnega tiska), knjižne produkcije, stripov, interneta, reklamnih besedil, navodil priloženih izdelkom široke potrošnje, prepisov parlamentarnih razprav ipd, shranjene v strukturirani obliki običajno na digitalnih medijih in s pomočjo jezikovnih tehnologij pogosto opremljene z označbami. Za sodobno jezikoslovje so podatkovna infrastruktura, podobna kot so za sodobne družboslovne znanosti različne baze družboslovnih podatkov.

Med označbe, ki jih vsebujejo nekateri korpusi, spadajo leme, t.j. osnovne oblike besed, oblikoskladenjske označbe, skladenjske označbe in še nekatere druge označbe, ki se uporabljajo ne le za namene korpusnega jezikoslovja, ampak tudi za namene prepoznavanje govora in strojnega prevajanja v računalniški lingvistiki.

Najobsežnejši in referenčni korpus za slovenščino je FidaPLUS. Poleg referenčnega korpusa pisne slovenščine je na voljo tudi referenčni korpus govorjene slovenščine GOS [1]. Ni znano ali korpusa vsebujeta tudi prepise televizijskih oddaj RTV Slovenija, javno dostopnih na Odprtem kopu.

Glede na jezik besedil delimo korpuse na enojezikovne (besedila v enem samem jeziku) in na večjezikovne (besedila v več jezikih). Večjezikovni so nadalje lahko primerljivi ali vzporedni.

Podrobnejša delitev[uredi | uredi kodo]

  • Referenčni korpusi so najobsežnejši in metodološko zagotavljajo reprezentativen izbor besedil iz določene jezikovni skupnosti ali naroda, zato služijo temeljnim raziskavam na področju slovnice in slovarja. V slovenskem prostoru v to kategorijo spadajo FIDA, FidaPLUS in Nova beseda.
  • Govorni korpus; govorni korpusi se največkrat pojavljajo kot podkorpusi referenčnih korpusov. Niso namenjeni raziskavi govora, temveč le zajetju posebnosti govorne komunikacije v referenčnih priročnikih.
  • Specializirani korpusi predstavljajo jezik v točno določeni rabi; danes so med njimi aktualni korpusi strokovnih jezikov, predvsem v okviru terminoloških raziskav.
  • Vzorčni korpusi; o vzorčnem korpusu govorimo, če je korpus sestavljen le iz besedilnih fragmentov in ne celotnih besedil. Z razvojem tehnologije, ki omogoča zajemanje večjih količin besedil, so tovrstni korpusi postali manj aktualni.
  • Spremljevalni korpusi; spremljevalni korpus je korpus, ki sledi jezikovni dinamiki in tako zares odseva trenutno podobo jezika. Gre za dve načeli:
    • novo besedilno gradivo se le dodaja.
    • novo besedilno gradivo se dodaja, staro pa izloča v diahrone podkorpuse.
  • Primerljivi korpusi vključujejo primerljiva (tematsko, jezikovnozvrstno, besedilnovrstno ipd.) besedila v različnih jezikih in so tako primerni za kontrastivne študije. Idealen zgled primerljivega megakorpusa bi bil korpus, sestavljen iz referenčnih korpusov različnih jezikov, grajenih po prekrivnih izhodiščnih načelih.
  • Vzporedni korpusi so zanimivi predvsem za prevodoslovje, saj sopostavljajo poravnano izhodiščno besedilo in prevod oziroma prevode istega besedila v drug jezik oziroma druge jezike; poravnani korpus omogoča vpogled v prevajalske odločitve in strategije prevajanja.

Viri[uredi | uredi kodo]

  • Gorjanc V. (2005). Uvod v korpusno jezikoslovje. Ljubljana: Založba Izolit.

Sklici[uredi | uredi kodo]

Zunanje povezave[uredi | uredi kodo]