Diskriminantna analiza

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje

Diskriminántna analíza je v statistiki metoda, s katero poskušamo poiskati tako linearno kombinacijo merjenih spremenljivk, da si bodo vnaprej določene skupine glede na vrednosti tako dobljene linearne kombinacije med seboj čimbolj različne. Tako bo tudi napaka pri uvrščanju enot v skupine najmanjša.

Pri diskriminantni analizi tako iščemo tiste razsežnosti podatkov, ki kar najbolje pojasnjujejo razlike med skupinami. Iščemo torej tisto dimenzijo, kjer so skupine čimbolj ločene. Diskriminantna analiza ima zatorej funkcijo napovedovanja, saj je eden izmed ciljev diskriminantne analize tudi ta, da nove enote kar se da dobro prireja vnaprej danim skupinam.

Predpostavke diskriminantne analize[uredi | uredi kodo]

Da je diskriminantna analiza sploh možna, mora biti zadoščeno naslednjim pogojem:

  • število skupin k mora biti večje ali vsaj enako 2
  • v vsaki skupini morata biti vsaj dve enoti (zaradi variabilnosti v skupini)
  • število spremenljivk p mora biti manjše od n−2, pri čemer je n število enot v vzorcu
  • spremenljivke morajo biti vsaj intervalnega tipa, lahko pa uporabimo tudi dobre ordinalne spremenljvke
  • nobena spremenljivka na sme biti linearna kombinacija preostalih spremenljivk (prepoved multikolinearnosti)
  • variančno-kovariančna matrika mora biti z vsako skupino enot približno enaka (variance pri vseh skupinah morajo biti približno enake)
  • pri statističnem ocenjevanju se predpostavlja, da so v vsaki skupini enot spremenljivke dobljene iz populacije z večrazsežno normalno porazdelitvijo spremenljivk.

Diskriminantna analiza na dveh ali več skupinah (diskriminantni kriterij)[uredi | uredi kodo]

Diskriminantna spremenljivka Y v primeru dveh skupin, ki je linearna kombinacija merjenih spremenljivk. Uteži v tej linearni kombinaciji določimo glede na diskriminantni kriterij, ki je v primeru delitve populacije na dve skupini zastavljen tako, da je kvocient razlik povprečij diskriminantne spremenljivke v obeh skupinah g1 in g2 glede na varianco diskriminantne spremenljivke v skupini maksimalen.

V primeru več skupin razlike med skupinami lahko popišemo z več diskriminantnimi spremenljivkami - največ jih je lahko min(pk-1) [p je število spremenljivk, k pa število skupin].

Postopek za izračun diskriminantnih spremenljivk je v tem primeru nalednji:

  • označimo vsoto kvadratov in produktov odklonov od skupnega povprečja x
  • isto naredimo še za vsako posamezno skupino
  • izračunamo še vsoto kvadratov in produktov odklonov med skupnami.

Kriterij izbire med spremenljivkami v dskriminantni analizi so Wilkinsonova lambda, Mahalanobisova razdalja in F-test. Za preverjanje domneve o številu statistično značilnih diskriminantnih spremenljivkah pa se uporablja Bartletov test.

Pravila uvrščanja enot v skupine[uredi | uredi kodo]

Ko imamo izračunano diskriminantno spremenljivko Y=Xb, k-to enoto uvrstimo v tisto skupino g1, za katero velja, da je razlika med Yk-Yi najmanjša. Povedano drugače: enoto uvrstimo v tisto skupino, ki ima večje povprečje diskriminantne spremenljivke čim bolj podobno vrednosti diskriminantne spremenljivke te enote.

Klasifikacijska tabela[uredi | uredi kodo]

Glede na izračunano diskriminantno spremenljivko vsako enoto ponovno uvrstimo v svojo skupino, pri tem pa dobimo odstotek pravilno uvrščenih enot. Diskriminantne spremenljivke najbolje razvrščajo enote, če je odstotek pravilno razvrščenih enot 100 %. Spodnja meja kvalitete razvrščanja pa je odstotek enot, ki bi bile pravilno uvrščene ob naključnem razvrščanju. V primeru dveh skupin je tako spodnja meja 50 % enot, v primeru treh pa 33,3 %.