Korpusno jezikoslovje

Korpusno jezikoslovje je raziskovanje naravnega jezika na podlagi obsežnega, po možnosti reprezentativnega, empiričnega vzorca besedil iz vsakdanje javne jezikovne rabe. Korpuse so pred digitalno revolucijo izdelovali ročno, danes pa so večinoma to računalniške baze podatkov shranjene na digitalnih medijih in javno dostopne prek spleta.

Zgodovina[uredi | uredi kodo]

V 20. stoletju je bil za lingvistiko izjemnega pomena Noam Chomsky, ki pa je zavračal obsežne zbirke besedil kot relevantne za temeljne raziskave v jezikoslovju. Chomsky ni upošteval, da je korpus zgrajen na podlagi rojenih (idealnih) govorcev. Eden izmed prvih »poskusov« korpusa je bil SEU (Survey of English Usage). Bil je še klasični neračunalniški, polovica besedil je bila transkripcija govora. Kasneje je bil prenesen v elektronsko obliko.

1.1. Korpus Brown (1961-1964) je prvi digitalizirani besedilni korpus in vsebuje besedila v ameriški angleščini. Korpus LOB (Lancaster, oslo, Bergen), ki je nastajal med letoma 1970 in 1978, pa je angleška različica korpusa Brown.

1.2. Korpusi druge generacije so povezani z razvojem tehnologije in so nastali ob sodelovanju raziskovalnih, univerzitetnih in komercialnih (predvsem založniških) okolij (Birmingham University in Collins Cobuild). Angleški in ameriški korpusi druge generacije so BNC, The Bank of English, ANC...