Frekvence črk

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje

Frekvenca črk je lastnost besedila, ki se pogosto uporablja pri analizi besedil in še posebno v kriptografiji. Jezik se spreminja, pa tudi vsak avtor piše nekoliko drugače, zato je običajno mogoča le statistična analiza. Frekvenca črk je torej odvisna od jezika besedila, avtorja, opisane teme pa tudi časovnega obdobja. Frekvenca črk, dvojčkov, trojčkov in n-teric črk (bolj natančno, znakov) lahko pokaže na značilnosti besedila in potrdi ali ovrže avtorstvo neznanega besedila, ki pa mora biti dovolj dolgo. V kriptografiji nam frekvence črk pomagajo pri razbijanju posameznih šifer.

Frekvence črk so pomembne tudi v prenosni tehniki, ko skušamo zakodirati sporočilo tako, da zavzame čimmanj prostora pri prenosu (ali shranjevanju). Značilen primer je Morsejev kod, kjer se najpogostejši E kodira z enim znakom (glej tudi Huffmanov kod).

Razpored oz. pogostnost črk igra pomembno tudi pri besednih igrah kot sta scrabble in boogle. Pogostejše črke se pojavijo večkrat in so vredne manj točk in obratno. Prvi stavni stroji Linotype so uporabljali razpored etaoin shrdlu cmfwyp vbgkqj xz, ki naj bi ustrezal frekvenci črk v angleščini. Kasnejše analize so pokazale nekaj manjših sprememb v vrstnem redu črk. Danes, ko so na voljo velike količine besedil v digitalni obliki, je analiza precej enostavnejša.

Frekvence črk v slovenskem jeziku[uredi | uredi kodo]

V slovenščini je prve analize na relativno majhnem in zato nereprezentativnem vzorcu v 60. letih opravil prof. Gyergyek (Rajko Jamnik: Teorija informacije). Kasneje se je podobno preštevalno analizo opravil dr. Denis Poniž (Slovenski jezik in računalniki). V okviru korpusnega jezikoslovja pa je rezultate preštevanja frekvenc črk za reprezentativni vzorec leposlovnih besedil objavil Primož Jakopin v svoji doktorski disertaciji Zgornja meja entropije pri leposlovnih besedilih v slovenskem jeziku.

Tabela (Opomba: S klikom na ikono Sort both.gif v tabeli jo lahko razvrstite glede na izbrani stolpec)

Črka Relativna frekvenca
v slo. leposlovju
e 10,71%
a 10,47%
o 9,08%
i 9,04%
n 6,33%
l 5,27%
s 5,05%
r 5,01%
j 4,67%
t 4,33%
v 3,76%
k 3,70%
d 3,39%
p 3,37%
m 3,30%
z 2,10%
b 1,94%
u 1,88%
g 1,64%
č 1,48%
h 1,05%
š 1,00%
c 0,66%
ž 0,65%
f 0,11%

Vir: P. Jakopin, doktorska disertacija

Frekvenca črk v drugih jezikih[uredi | uredi kodo]

angleščina:

E T A O I N S H R D L C U M W F G Y P B V K J X Q Z

nemščina:

E N I S R A T D H U L C G M O B W F K Z P V J Y X Q

španščina:

E A O S R N I D L C T U M P B G V Y Q H F Z J X W K

francoščina:

E S A I T N R U L O D C P M É V Q F B G H J À X Y È Ê Z W Ç Ù K Î Œ Ï Ë

češčina:

O E A N T I V L S R D K U P Í M C H Á Z Y J B Ř Ě É Č Ž Ý Š Ů G F Ú Ň W Ď Ó X Ť (Q) (časopis, 2500 besed)

poljščina:

A I E O N Z W S C R Y T K D P M J U L Ł G B H Ą Ę Ó Ź Ś Ć Ń F Ż X V (Q) (časopis, 11.000 besed)

ruščina:

О Е А И Н Т С В Л Р К Д М П У Ы Я Г Б З Ч Й Х Ж Ш Ю Ц Щ Э Ф Ё (Solženicin, 86.000 besed)

О Е А И Н Т С Р В Л К М Д П У Ы Я Г З Б Ч Й Ж Х Ю Ш Ц Щ Э Ф Ё (časopis 25.000 besed)

slovaščina:

A O E S N I T R V L K D M C U P Z Y H J G F B (Q W X) (Mistrik 1985, 200.000 besed brez naglasnih znamenj)

esperanto:

A I E O N L R S T K U M D P J V G B F C Ĝ Ĉ Z Ŭ H Ŝ Ĵ Ĥ (David G. Simpson, 2007, 21 647 000 črk)

Viri in opombe[uredi | uredi kodo]

Zunanje povezave[uredi | uredi kodo]