Zipf-Mandelbrotova porazdelitev

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje
Zipf-Mandelbrotova porazdelitev
parametri N \in \{1,2,3\ldots\} (celo število)
q \in [0;\infty) (realno število)
s>0\, (realno število)
interval k \in \{1,2,\ldots,N\}
funkcija verjetnosti
(pdf)
\frac{1/(k+q)^s}{H_{N,q,s}}
zbirna funkcija verjetnosti
(cdf)
\frac{H_{k,q,s}}{H_{N,q,s}}
pričakovana vrednost \frac{H_{N,q,s-1}}{H_{N,q,s}}-q
mediana
modus 1\,
varianca
simetrija
sploščenost
(eksces)
entropija
funkcija generiranja momentov
(mgf)
karakteristična funkcija

Zipf-Mandelbrotova porazdelitev (tudi Zipf-Mandelbrotov zakon ali Paretto-Zipfova porazdelitev) je diskretna verjetnostna porazdelitev.

Imenuje se po ameriškem jezikoslovcu in filologu Georgu Zipfu (1902 – 1950) in francosko-ameriškem matematiku poljskega rodu Benoîtu Mandelbrotu (rojen 1924). Zipf je predlagal enostavnejšo varianto, ki so jo imenovali Zipfov zakon. Pozneje je Mandelbrot problem posplošil in ga uporabil celo za idealni plin.

Funkcija verjetnosti je enaka \frac{1/(k+q)^s}{H_{N,q,s}} kjer je

  • H_{N,q,s}=\sum_{i=1}^N \frac{1}{(i+q)^s},

kadar je q = 0 in je s približno 1, dobimo Zipfov zakon.

To vrednost lahko smatramo kot posplošitev harmoničnih števil (glej tudi harmonična vrsta). Ko se N približuje neskončnosti, postane to Hurwitzova zeta funkcija \zeta(q,s). Za končne N pri q = 0 postane Zipf-Mandelbrotova porazdelitev enaka Zipfovemu zakonu. Za nekončne N pri q = 0 postane zeta porazdelitev.


Uporaba[uredi | uredi kodo]

Zipf-Mandelbrotov zakon se uporablja v jezikoslovju (kvantitativna lingvistika). Opisuje porazdelitev besed (ne skupin besed, kot so fraze) v besedilih naravnih jezikov oziroma v besedilnih korpusih. Porazdelitev besed v poljubnem besedilu po pogostosti (frekvenci) pojavljanja se podreja potenčni porazdelitvi, ki je znana kot Zipfov zakon. Če prikažemo pogostost (frekvenco) pojavljanja (v padajočem redu) posameznih besed v zelo velikih besedilih, dobimo porazdelitev, ki je potenčna in ima eksponent zelo blizu vrednosti 1. Lahko jo zapišemo kot

 P_n \sim 1/n^a \; , .

Eksponent ima vrednost, ki je zelo blizu 1. Podoben zakon velja še na nekaterih drugih področjih (ekonomija, fizika, biologija, demografija, glasba, bibliogarfija). Iz tega sledi, da se določene besede v naravnih jezikih uporabljajo bolj pogosto kot druge.


Lastnosti[uredi | uredi kodo]

Funkcija verjetnosti[uredi | uredi kodo]

Funkcija verjetnosti je enaka \frac{1/(k+q)^s}{H_{N,q,s}}
kjer je

  •  :H_{N,q,s}=\sum_{i=1}^N \frac{1}{(i+q)^s}.

Zbirna funkcija verjetnosti[uredi | uredi kodo]

Zbirna funkcija verjetnosti je \frac{H_{k,q,s}}{H_{N,q,s}}.

Pričakovana vrednost[uredi | uredi kodo]

Pričakovana vrednost je enaka \frac{H_{N,q,s-1}}{H_{N,q,s}}-q.

Modus[uredi | uredi kodo]

Modus je enak 1\,.

Glej tudi[uredi | uredi kodo]

Zunanje povezave[uredi | uredi kodo]