Kulturomika

Iz Wikipedije, proste enciklopedije

Kulturomika (angleško culturomics, nemško Kulturomik) je področje raziskovanja, ki se ukvarja s kvantitativno analizo kulture s pomočjo podatkov o pogostnosti rabe besed ali besednih zvez v določenem prostoru in časovnem preseku. Omogočil jo je Googlov projekt digitalizacije svetovne knjižne dediščine. Trenutno črpa iz 5,2 milijona del, kar je približno 4 % vseh natisnjenih knjig, v sedmih jezikih (angleščina, nemščina, francoščina, španščina, kitajščina, ruščina in hebrejščina), s poudarkom na leposlovju. Največji del gradiva predstavljajo v angleščini napisane knjige med letoma 1800 in 2000. Kulturomika spada na področje digitalne humanistike.

Iskanje in rezultati[uredi | uredi kodo]

Orodje za raziskovanje baze podatkov in prikaz rezultatov je Google Labs N-gram Viewer.[1] Omogoča tudi izbiro korpusnega gradiva, na primer besedo feminism v angleškem korpusu in féminisme v francoskem. Frekvenco pojavljanja besed izračuna glede na število pojavitev iskane besede v primerjavi s številom vseh besed v korpusu v določenem letu. Rezultate predstavi v obliki grafa, s katerega je mogoče razbrati, kako pogosto se je iskana beseda ali fraza pojavljala skozi čas. Pomembna je natančna in prilagojena interpretacija rezultatov. Beseda influenza je bila na primer največkrat uporabljena prav v obdobjih znanih pandemij gripe v zgodovini, kar kaže na povezavo med zgodovinskimi dogodki in rabo besed v določenem času. Primerjamo lahko pogostnost rabe besed v več korpusih v istem časovnem obdobju in tako ugotovimo morebitno odsotnost določenih besed kot posledico cenzure.

Baza podatkov[uredi | uredi kodo]

Korpusno gradivo je izbrano iz Googlove baze digitaliziranih knjig (Google Books).[2] Googlova knjižnica obsega sicer okrog 15 milijonov digitaliziranih knjig. Omejitev na 5,2 milijona knjig je bila potrebna zaradi odstopanj v kvaliteti digitalnega zapisa. Ker zaradi zaščite avtorskih pravic niso vse v javni domeni, nam ne dovoli njihovega celotnega ogleda, ampak samo prikaz besed ali besednih zvez.

Možnost kvantitativne analize besedil odpira nova vrata v znanosti, zato želijo v prihodnosti razširiti bazo podatkov z vključevanjem časopisja, rokopisov, zemljevidov idr.

Avtorji projekta[uredi | uredi kodo]

Projekt so zasnovali in uresničili znanstveniki s harvardskega Kulturnega observatorija Adrian Veres, Aviva Presser Aiden, Erez Lieberman Aiden, Jean-Baptiste Michel, Linfeng Yang, Yuan Kui Shen. Javnosti so ga prvič predstavili v reviji Science 16. decembra 2010.

Viri[uredi | uredi kodo]

Zunanje povezave[uredi | uredi kodo]

  1. »Google Labs N-gram Viewer (angleščina)«. Arhivirano iz prvotnega spletišča dne 11. junija 2011. Pridobljeno 24. marca 2011.
  2. Google Books (angleščina)