Anscombeov kvartet

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje
Vsak od štirih naborov podatkov prikazan z grafikonom

Anscombeov kvartet je zbirka štirih naborov izmišljenih podatkov, med katerimi osnovne statistične metode ne pokažejo praktično nobenih razlik, zgleda pa vsak zelo drugače, ko jih predstavimo grafično. Vsak nabor podatkov sestavlja po 11 točk s koordinatama x in y.

Koordinate točk so sledeče:[1]

Anscombeov kvartet
I II III IV
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Za vse štiri nabore velja med drugim:[1]

Lastnost Vrednost
Povprečje po osi x 9 (točno)
Varianca po osi x 11 (točno)
Povprečje po osi y 7,50 (na 2 decimalni mesti natančno)
Varianca po osi y 4,122 ali 4,127 (na 3 decimalna mesta natančno)
Korelacija med x in y 0,816 (na 3 decimalna mesta natančno)
Linearna regresija y=3,00 + 0,500x (na 2 oz. 3 decimalna mesta natančno)

Z grafikonov je že na prvi pogled očitna razlika med nabori. Prvi (levo zgoraj) ima približno normalno porazdelitev in jasno korelacijo med spremenljivkama. Drugi (zgoraj desno) ni porazdeljen normalno; opazna je povezava med spremenljivkama, vendar ta ni linearna, zato je vrednost Pearsonovega koeficienta korelacije nerelevantna. Tretji nabor (levo spodaj) je porazdeljen linearno, vendar z drugačno regresijsko premico, ki jo en osamelec premakne na »pravo« vrednost in zniža koeficient korelacije z 1 na 0,816. Nasprotno je pri zadnjem naboru (desno spodaj), kjer en osamelec zadošča za visok koeficient korelacije.

Anscombeov kvartet je sestavil britanski statistik Francis Anscombe za ponazoritev, kako pomembno je podatke preučiti tudi grafično, saj je lahko rezultat osnovnih statističnih metod sam po sebi zavajajoč oz. ne pove dovolj o preučevanem pojavu. Objavljen je bil leta 1973 v reviji American Statistician.[1] Še danes ga pogosto uporabljajo kot zgled pisci učbenikov statistike.[2][3][4][5]

Sklici in opombe[uredi | uredi kodo]

  1. ^ 1,0 1,1 1,2 Anscombe, F.J. (1973). "Graphs in Statistical Analysis". American Statistician 27 (1): 17–21. 
  2. ^ Elert, Glenn. "Linear Regression". The Physics Hypertextbook. 
  3. ^ Janert, Philipp K. (2010). Data Analysis with Open Source Tools. O'Reilly Media, Inc. str. 65–66. ISBN 0596802358. 
  4. ^ Chatterjee, Samprit & Hadi, Ali S. (2006). Regression analysis by example. John Wiley and Sons. str. 91. ISBN 0471746967. 
  5. ^ Saville, David J. & Wood, Graham R. (1991). Statistical methods: the geometric approach. Springer. str. 418. ISBN 0387975179. 

Nadaljnje branje[uredi | uredi kodo]

  • Chatterjee, Sangit & Firat, Aykut (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset". American Statistician 61 (3): 248–254. doi:10.1198/000313007X220057.  - metoda za generiranje grafično različnih naborov podatkov z enakimi statističnimi lastnostmi