Anscombeov kvartet

Iz Wikipedije, proste enciklopedije
Vsak od štirih naborov podatkov prikazan z grafikonom

Anscombeov kvartet je zbirka štirih naborov izmišljenih podatkov, med katerimi osnovne statistične metode ne pokažejo praktično nobenih razlik, zgleda pa vsak zelo drugače, ko se jih predstavi grafično. Vsak nabor podatkov sestavlja po 11 točk s koordinatama x in y.

Koordinate točk so sledeče:[1]

Anscombeov kvartet
I II III IV
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Za vse štiri nabore velja med drugim:[1]

značilnost vrednost
povprečje po osi x 9 (točno)
varianca po osi x 11 (točno)
povprečje po osi y 7,50 (na 2 decimalni mesti točno)
varianca po osi y 4,122 ali 4,127 (na 3 decimalna mesta točno)
korelacija med x in y 0,816 (na 3 decimalna mesta točno)
linearna regresija (na 2 oz. 3 decimalna mesta točno)

Z grafikonov je že na prvi pogled očitna razlika med nabori. Prvi (levo zgoraj) ima približno normalno porazdelitev in jasno korelacijo med spremenljivkama. Drugi (zgoraj desno) ni porazdeljen normalno; opazna je povezava med spremenljivkama, vendar ta ni linearna, zato je vrednost Pearsonovega koeficienta korelacije nerelevantna. Tretji nabor (levo spodaj) je porazdeljen linearno, vendar z drugačno regresijsko premico, ki jo en osamelec premakne na »pravo« vrednost in zniža koeficient korelacije z 1 na 0,816. Nasprotno je pri zadnjem naboru (desno spodaj), kjer en osamelec zadošča za visok koeficient korelacije.

Anscombeov kvartet je sestavil britanski statistik Francis Anscombe za ponazoritev, kako pomembno je podatke preučiti tudi grafično, saj je lahko rezultat osnovnih statističnih metod sam po sebi zavajajoč oz. ne pove dovolj o preučevanem pojavu. Objavljen je bil leta 1973 v reviji American Statistician.[1] Še danes ga pogosto uporabljajo kot zgled pisci učbenikov statistike.[2][3][4][5]

Sklici[uredi | uredi kodo]

Viri[uredi | uredi kodo]

  • Anscombe, F. J. (1973), »Graphs in Statistical Analysis«, American Statistician, 27 (1): 17–21
  • Chatterjee, Samprit; Hadi, Ali S. (2006), Regression analysis by example, John Wiley and Sons, str. 91, ISBN 0471746967
  • Elert, Glenn (1998), »Linear Regression«, The Physics Hypertextbook (v angleščini)
  • Janert, Philipp K. (2010), Data Analysis with Open Source Tools, O'Reilly Media, Inc., str. 65–66, ISBN 0596802358
  • Saville, David J.; Wood, Graham R. (1991), Statistical methods: the geometric approach, Springer, str. 418, ISBN 0387975179

Nadaljnje branje[uredi | uredi kodo]

  • Chatterjee, Sangit; Firat, Aykut (2007). »Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset«. American Statistician. Zv. 61, št. 3. str. 248–254. doi:10.1198/000313007X220057. – metoda za generiranje grafično različnih naborov podatkov z enakimi statističnimi značilnostmi

Zunanje povezave[uredi | uredi kodo]