Rudarjenje besedil

Iz Wikipedije, proste enciklopedije

Rudarjenje besedil je ena izmed jezikovnih tehnologij, katere namen je iz besedil oz. vhodnih podatkov, kakršnih oblika ni taka, da bi že sama izpostavljala vsebovane informacije (npr. preglednice, tabele, podatkovne baze itd), izluščiti uporabne informacije. Običajno so vhodni podatki zapisani v obliki naravnega jezika kot besedilo. Besedilu je nato treba pripisati množico med seboj različnih enot, kar opravi lematizacija oz. krnjenje. Med različnimi enotami v besedilu nato računalniško izluščimo tiste povezave, ki so statistično manj verjetne in imajo torej večjo informacijsko vrednost od ostalih. Glede na medsebojno oddaljenost enot iščemo povezave med njimi znotraj stavka in tudi med stavki glede na medsebojno oddaljenost le-teh v besedilu.

Razvoj tehnologije rudarjenja besedil je financiran s strani vojaših velesil v vojaško-obveščevalne in kontra-obveščevalne namene, z javnimi in zasebnimi sredstvi tudi za miroljubne znanstveno-raziskovalne, knjižničarsko-dokumentacijske in izobraževalne namene ter v zadnjem času za spletno-iskalniške, družabno-omrežne in marketinške namene.