Pearsonov koeficient korelacije

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje

Pearsonov koeficient korelacije (rxy) je matematična in statistična številska mera, ki predstavlja velikost linearne povezanosti spremenljivk X in Y, merjenih na istem predmetu preučevanja. Koeficient je definiran kot vsota vseh produktov standardnih odklonov obeh vrednosti v razmerju s stopnjami prostosti oziroma kot razmerje med kovarianco in produktom obeh standardnih odklonov:

r_{xy} = \frac {\sum z_x z_y}{N - 1}
kjer je zx z-vrednost spremenljivke X; zy z-vrednost spremenljivke Y; N pa število vseh statističnih enot.

ali

r_{xy} = \frac {C_{xy}}{\sigma_x \sigma_y}
kjer je Cxy kovarianca; σx standardni odklon spremenljivke X; σy pa standardni odklon spremenljivke Y.

Dobljeni rezultat je eden izmed kvadratnih korenov (bodisi pozitiven bodisi negativen) koeficienta determinacije rxy2, ki je razmerje med pojasnjeno varianco in skupno varianco:

r_{xy}^2 = {\sum (Y' - \overline Y)^2 \over \sum (Y - \overline Y)^2}
kjer je Y dejanska vrednost dane spremenljivke Y; Y' pa predvidena vrednost iste spremenljivke Y ob znani korelaciji med X in Y ter vrednosti X.

Pogoj za računanje tega koeficienta je linearna odvisnost obeh vpletenih spremenljivk. Za določanje povezanosti spremenljivk, ki niso povezane linearno, se uporablja Spearmanov koeficient korelacije.

Vrednost Pearsonovega koeficienta korelacije se lahko nahaja med vrednostima -1 in 1. Tako vrednost -1 predstavlja popolno negativno povezanost spremenljivk, pri čemer je na grafu odvisnosti videti le ravno črto, ki z naraščajočo neodvisno spremenljivko potuje navzdol; obratno vrednost 1 pomeni popolno pozitivno povezanost in navzgor usmerjeno črto na grafu. V praktičnem preizkušanju odvisnosti in uporabni statistiki je skoraj nemogoče izračunati popolno (funkcijsko) odvisnost -1 ali 1, saj na posamezno odvisno spremenljivko vpliva praviloma več dejavnikov, med njimi tudi slučajni vplivi. Pearsonov koeficient 0 označuje ničelni vpliv ene spremenljivke na drugo.

Enačbo, ki najbolje opisuje linearno odvisnost obeh spremenljivk, je moč izračunati z linearno regresijo. Ta enačba je ob visokih vrednostih Pearsonovega koeficienta (bližina -1 oziroma +1) najbolj natančna.

Pearsonov koeficient korelacije je imenovan po britanskem statistiku Karlu Pearsonu, navzlic temu pa ga je prvi uporabljal Anglež Francis Galton.