Zipfov zakon

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje

Zípfov zákon v svoji prvotni obliki označuje empirično ugotovitev harvardskega jezikoslovca Georga Kingsleyja Zipfa, da je v vsakem naravnem jeziku pogostost n-te najpogosteje uporabljane besede približno recipročno odvisna od n.

Zipfov zakon je izkustven; teorijsko ozadje vzrokov za pojavljanje Zipfove porazdelitve v življenju ni zadovoljivo pojasnjeno. Kljub temu pa na Zipfovo porazdelitev pogosto naletimo pri različnih pojavih. Zipfov zakon pogosto prikažejo na dvojno logaritemski skali, pri kateri nanašamo na absciso logaritem razredov, na ordinato pa logaritem pogostosti. Če na takem diagramu točke približno ležijo na premici, za porazdelitev velja Zipfov zakon.

Klasičen zgled Zipfove funkcije je funkcija 1/f. Če množico po Zipfovem zakonu porazdeljenih pogostosti uredimo od najpogostejše do najmanj pogoste, bo pogostost druge najpogostejše ravno ena polovica pogostosti prve, pogostost tretje najpogostejše pa 1/3 pogostosti prve itn., tako da je pogostost n-te najpogostejše 1/n pogostosti prve.

Teoretični pomisleki[uredi | uredi kodo]

Matematično gledano ni mogoče da bi izvirna oblika Zipfovega zakona v jeziku z neskončno besedami veljala povsem natančno, saj v tem primeru za vsako pozitivno sorazmernostno konstanto c velja, da je vsota relativnih pogostosti, ki jo lahko izrazimo z geometrijsko vrsto, neskončna:

\sum_{n=1}^\infty \frac{c}{n}=\infty\neq 1.

Empirične raziskave so pokazale, da se dajo v angleščini pogostosti približno prvih 1000 najpogosteje uporabljanih besed približno opisati s funkcijo 1/ns, pri čemer je potenca s malo večja od 1.

Če je potenca s večja od 1, velja normalizacija relativnih pogostosti tudi v jeziku z neskončnim številom besed, saj za s > 1 velja

\sum_{n=1}^\infty \frac{1}{n^s}<\infty.

Vsota te vrste je ζ(s), kjer je ζ Riemannova funkcija zeta.

Sorodni zakoni[uredi | uredi kodo]

Zgledi porazdelitev, za katere približno velja Zipfov zakon[uredi | uredi kodo]

Glej tudi[uredi | uredi kodo]

Viri[uredi | uredi kodo]

  • George K. Zipf, Human Behaviour and the Principle of Least-Effort, Addison-Wesley, Cambridge MA, 1949
  • W. Li, »Random texts exhibit Zipf's-law-like word frequency distribution«, IEEE Transactions on Information Theory, 38(6), pp.1842-1845, 1992.
  • Alexander Gelbukh, Grigori Sidorov. »Zipf and Heaps Laws’ Coefficients Depend on Language«. Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag, pp. 332–335.
  • Damian H. Zanette. Zipf's law and the creation of musical context. Online preprint at http://xxx.arxiv.org/abs/cs.CL/0406015
  • Kali R. The city as a giant component: a random graph approach to Zipf's law. Applied Economics Letters, 15 September 2003, vol. 10, iss. 11, pp. 717-720(4)

Zunanje povezave[uredi | uredi kodo]