Govorni korpus

Iz Wikipedije, proste enciklopedije

Govorni korpus je urejena računalniška zbirka zvočnih posnetkov in transkripcij spontanega govora. Govorni korpus obstaja v avdio formatih, ki so lahko že del referenčnih korpusov (korpusi, ki predstavljajo celovito podobo jezika). To so korpusi, ki naj se bi temeljili na analizi in interpretaciji obsežnejšega avtentičnega gradiva – spontanega javnega in zasebnega govora. Govorni korpusi služijo za preverjanje veljavnosti teoretičnih spoznanj o jeziku in za nove opise jezika, predvsem v slovaropisju in slovnici.

Karakteristike korpusa[uredi | uredi kodo]

  • velikost, to je količina podatkov, ki jo korpus vsebuje,
  • kakovost njegove izdelave,
  • avtentičnost glede na kriterije, po katerih je zgrajen,
  • enostavnost zapisa in
  • dokumentiranost.

Razvoj korpusov[uredi | uredi kodo]

LLC[uredi | uredi kodo]

Najstarejši govorni korpus in prva računalniška zbirka govorjenih besedil je korpus London-Lund (LLC). Nastal je na podlagi korpusa Survey of English Usage(SEU), »prikaza angleščine v rabi«, ki sodi med najstarejše korpuse sploh, že v obdobje predračunalniških besedilnih zbirk (1959). Korpus SEU sestavlja 200 približno enako dolgih besedil, od tega 100 pisnih in 100 govorjenih, skupaj 1 milijon besed. Korpus je bil namenjen za preučevanje govorjene in pisne britanske angleščine odraslih govorcev in naj bi služil kot vir za slovnični opis jezika. Na podlagi korpusa SEU je nastalo več kot 200 strokovnih in znanstvenih razprav - monografij, poglavij in člankov, najpomembnejša med njimi pa je referenčna slovnica modernega angleškega jezika.

BNC[uredi | uredi kodo]

V osemdesetih letih so jezikoslovci v Veliki Britaniji zasnovali še en projekt velikih razsežnosti in v letih 1990–1994 zgradili Britanski nacionalni korpus (BNC). Pobuda za gradnjo jezikovnih virov za angleščino je prišla s strani britanske vlade, pri tem pa naj bi se glede na deloma prekrivne interese spodbudilo sodelovanje akademskih in industrijskih/kapitalskih sfer. Razmerje med govorjenimi in pisnimi besedili v BNC (10 % : 90 %) je bilo določeno na podlagi ekonomske logike, saj so izračunali, da stane zbiranje in transkripcija enega milijona besed spontanega govora vsaj desetkrat več kot priključitev enega milijona besed iz časopisa v pisni korpus. Pri gradnji govorne komponente korpusa BNC so jezikoslovci prvič uporabili metodo demografskega vzorčenja. S pomočjo statistične metode so določili reprezentativni vzorec govorcev britanske angleščine glede na spol, starost, regijsko pripadnost in socialni razred. Tako je nastal t. i. demografski del govornega korpusa BNC (imenovan tudi konverzacijski podkorpus), obsega 4.206.058 besed, to je približno 40 % govorne komponente korpusa BNC.

CoSIH[uredi | uredi kodo]

Tretji primer govornega korpusa, je zaenkrat še nerealizirani načrt gradnje korpusa govorjene izraelske hebrejščine (CoSIH). Sestavljalci so se odločili kombinirati demografsko in kontekstualno komponento govornega korpusa. (The Corpus od Spoken Israeli Hebrew, http//:www.tau.ac.il/humanities/semitic/cosih.html; izredno natančna projekcija gradnje korpusa (2001); o rezultatih zaenkrat ni poročil.)

Češka[uredi | uredi kodo]

Med slovanskimi narodi se gradnjo govornega korpusa prvi realizirali Čehi. V začetku devetdesetih let se je pri načrtovanju novega slovarja češkega knjižnega jezika rodila ideja o gradnji računalniškega korpusa. Leta 1994 je bil na Filozofski fakulteti v Pragi ustanovljen Oddelek za Češki nacionalni korpus (ČNK), kar je pomenilo tudi odlično osnovo za razvoj korpusne lingvistike kot posebne znanstvene discipline. Govorna komponenta, Praški govorni korpus (Pražský mluvený korpus, ORALPMK), obsega okrog 800.000 besed. Besedila so bila posneta na 304 magnetofonskih trakovih in transkribirana. Pri naboru besedil so se odločili, da bodo v začetku zbirali samo govor Prage z okolico, to je osrednjega govora, ki ga sooblikujejo tudi prišleki, govorci z različnih koncev države. Upošteva štiri različne sociolingvistične kategorije govorcev:

  • spol,
  • starost: mlajši (od 20 do 35 let) ali starejši (več kot 35 let) (Iunior/Vetus),
  • izobrazba: do mature ali višja/visoka,
  • govorni položaj: formalni ali neformalni.

Praški govorni korpus dokazuje, da je mogoče tudi z relativno enostavno mrežo zajema besedil (govorcev) zgraditi uporabno računalniško bazo podatkov za raziskave avtentičnega govora.

Slovenija[uredi | uredi kodo]

Predstavljen je prvi delujoči govorni korpus spontanega govora slovenskega jezika. Za pilotski korpus so bili digitalni posnetki transkribirani po načelih razširjene ortografske transkripcije, nato pa je bil korpus označen po priporočilih TEI, prilagojenih za slovenščino. Korpus je dostopen znotraj korpusne mreže na Univerzi v Bergnu, kjer je tudi nastal, posamezni transkribirani izseki pa so povezani z ustreznimi zvočnimi signali, tudi znotraj konkordančnika. Pilotski korpus z izdelanim transkripcijskim standardom in naborom kriterijev za zajem besedil lahko predstavlja izhodišče za gradnjo govorne komponente referenčnega korpusa za slovenski jezik. Videli bomo, kakšne so možnosti uporabe tako zgrajenega in označenega korpusa, poleg tega pa bomo z rezultati iskanja že lahko nakazali nekatere specifične lastnosti govorjene slovenščine.