Kruskalův–Wallisův test

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Kruskalův-Wallisův test (nazýván také jako Kruskalův-Wallisův H test nebo jednofaktorová neparametrická ANOVA) je rozšířením Mannova-Whitneyova testu pro více než 2 pozorování. Testuje shodu distribučních funkcí. Kruskalův-Wallisův test poprvé autoři zveřejnili v časopise Journal of the American Statistical Association (JASA) v roce 1952.

Autoři

William Henry Kruskal se narodil v New York City v roce 1919. V letech 1949-1950 přednášel matematiku na univerzitě Columbia University. +more Rok poté začal vyučovat statistiku v University of Chicago a stal se profesorem. Za svůj život vydal mnoho prací. (Celý seznam a další informace o jeho osobě je možné najít na stránkách univerzity). V roce 1971 se William H. Kruskal stal prezidentem Institute of Mathematical Statistics , a v roce 1982 prezidentem asociace American Statistical Association. Byl spoluautorem encyklopedie International Encyclopedia of Statistics (1978).

W. Allen Wallis, narozený v roce 1912 ve Philadelphii, vyučoval na univerzitách v Yale, Columbii, Stanfordu a v roce 1946 nastoupil na fakultu University of Chicago Graduate School of Business, kde se stal i děkanem. +more Působil jako redaktor časopisu Journal of the American Statistical Association, byl členem výkonného výboru American Economics Association a prezident American Statistical Association.

Volba testu

Prvním předpokladem pro volbu testu je ověření normality. Pokud nelze u vzorku ověřit předpoklad normálního rozdělení pravděpodobnosti, nebo byla nulová hypotéza o normalitě zamítnuta, je nutné zvolit neparametrický test. +more Protože není možné porovnávat průměry a rozptyly (parametry normálního rozdělení) jednotlivých vzorků, není možné použít jednofaktorovou parametrickou ANOVU.

Druhým předpokladem je nezávislost. Pokud se jedná o opakované pokusy (například při léčbě), vzorky jsou závislé a je nutné použít Friedmanův test.

Kruskalův-Wallisův test je rozšířením Mannova-Whitneyova U testu, který lze použít pouze pro jeden nebo dva výběry.

(Příklad: Pokud testujeme vzorky podle pohlaví, použijeme Wilcoxonův test, protože se jedná pouze o dvě kategorie. Pokud budeme testovat data podle vzdělání, dvě možnosti nám nestačí. +more Musíme zvolit Kruskalův-Wallisův test. ).

Použití testu

Parametrická analýza rozptylu testuje shodu středních hodnot. U neparametrické to nelze.

Nulová hypotéza

Pokud je možné vytvořit předpoklady identicky tvarovaného a škálovaného rozdělení pro všechny skupiny, je možné testovat nulovou hypotézu, že jsou mediány všech skupin shodné, oproti alternativní hypotéze, že se alespoň jeden medián populace některé skupiny liší od mediánu populace alespoň jedné další skupiny.

Mnohdy takový předpoklad není možné zaručit, proto je možné nulovou hypotézu definovat jako shodu distribučních funkcí jednotlivých výběrů.

H_0:F(x_1)=F(x_2)=...=F(x_k)

Alternativní hypotézou je pak tvrzení, že alespoň jedna distribuční funkce je odlišná od některé jiné.

Testovací kritérium

Test je založený na pořadí. Nejprve je nutné všechny hodnoty seřadit, bez rozdílu, do které skupiny patří. +more Poté původní hodnoty nahradit příslušnými pořadími a v každé třídě vytvořit součet pořadí. Testovací kritérium se spočítá pomocí vzorce:.

H= \frac{12}{N(N+1)}\sum_{i=1}^C\frac{R_i^2}{n_i}-3(N+1),

kde:

C= počet tříd;

n_i= počet pozorování v i-té třídě;

N=\sum n_i, počet pozorování ve všech třídách;

R_i= součet pořadí v i-té třídě.

Kritická hranice

Velké hodnoty testovacího kritéria vedou k zamítnutí nulové hypotézy. Pro dostatečně velký počet pozorování lze kritické hodnoty vyhledat v tabulkách \chi^2rozdělení s (C-1) stupni volnosti a hladinou významnosti α. +more Pokud je zkoumaný vzorek rozdělen do 3 tříd a počet pozorování v jednotlivých třídách je nejvýše 5, je nutné kritickou hranici vyhledat v kritických hodnotách Kruskalova-Wallisova H rozdělení. Kritické hodnoty \chi^2rozdělení se při tak malém počtu pozorování významně liší.

Ukázka výpočtu

Data jsou testovaná podle jednoho faktoru (nemusí být vyvážená), který má možnosti A,B,C. V nulové hypotéze testujeme, že jsou distribuční funkce ve všech třech třídách stejné. +more

13102
171820
232114
161627
153824
25329
Všechny hodnoty seřadíme vzestupně a rozepíšeme zpět do tabulky. [wiki_table=ca4ccbaf] V každém sloupci sečteme pořadí. [wiki_table=3705c85a] Vypočítáme hodnotu testovacího kritéria. Celkem je 18 pozorování.

H=\frac{12}{18(18+1)}\sum_{i=1}^3 (\frac{54,5^2}{6}+\frac{67,5^2}{6}+\frac{49^2}{6})-3(18+1)=12,\bar{6}

V tabulkách kritických hodnot \chi^2rozdělení najdeme kritickou hranici \chi_{\alpha,3-1}^2=5,99147.

Protože hodnota testovacího kritéria H překročila kritickou hranici (leží v kritické oblasti), nulovou hypotézu o shodě distribučních funkcí (shodě středních hodnot pořadí) zamítáme.

Distribuční funkce ve všech třech třídách nejsou stejné. Například pomocí Mann_Whitneyova U testu je možné zjistit, která dvojice se od sebe statisticky významně liší.

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top