T-test

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

T-test (Studentův t-test) je metodou matematické statistiky, která umožňuje ověřit některou z následujících hypotéz: # zda normální rozdělení, z něhož pochází určitý náhodný výběr, má určitou konkrétní střední hodnotu, přičemž rozptyl je neznámý # zda dvě normální rozdělení mající stejný (byť neznámý) rozptyl, z nichž pocházejí dva nezávislé náhodné výběry, mají stejné střední hodnoty (resp. rozdíl těchto středních hodnot je roven určitému danému číslu)

V prvním případě může být náhodný výběr tvořen buď jednotlivými hodnotami (pak se jedná o jednovýběrový t-test), anebo dvojicemi hodnot, u nichž se zkoumají jejich rozdíly (pak se jedná o párový t-test). Ve druhém případě jde o dvouvýběrový t-test.

V praxi se t-test často používá k porovnání, zda se výsledky měření na jedné skupině významně liší od výsledků měření na druhé skupině.

Princip t-testu

Pokud náhodný výběr pochází z normálního rozdělení, pak výběrový průměr má také normální rozdělení se stejnou střední hodnotou. Rozdíl výběrového průměru a střední hodnoty normovaný pomocí skutečného rozptylu by pak měl normální rozdělení s nulovou střední hodnotou a jednotkovým rozptylem. +more Skutečný rozptyl však není znám. Pokud je nahrazen odhadem pomocí výběrového rozptylu, vznikne T rozdělení, které s rostoucím počtem stupňů volnosti konverguje k normálnímu rozdělení.

Jednovýběrový t-test

Označme jednotlivé hodnoty náhodného výběru jako x_1, x_2, . , x_n, výběrový průměr jako \overline{X} a výběrový rozptyl jako S^2 (výběrové verze jsou definovány jako \frac{1}{n-1}\sum_{i=1}^{n}{\ . +more}). Test testuje hypotézu, že střední hodnota normálního rozdělení, z něhož výběr pochází, se rovná \mu{}_0.

Platí-li hypotéza, má náhodná veličina T = \frac{\overline{X} - \mu_0}{S} \sqrt{n} T rozdělení s n-1 stupni volnosti. Hypotézu zamítáme, je-li T příliš velké nebo příliš malé (výběrový průměr se příliš liší od očekávané střední hodnoty). +more Konkrétně se T porovná s kritickou hodnotou T rozdělení pro předem stanovenou hladinu významnosti.

Příklad jednovýběrového t-testu

Mužové (smyšleného) kmene Orlů mají podle literatury mít průměrnou výšku 175 cm. Antropolog, který kmen navštívil, změřil výšky deseti náhodně vybraných mužů kmene. +more V pořadí velikosti to byli muži vysocí 153, 156, 156, 161, 166, 167, 168, 174, 175 a 181 cm. Na hladině významnosti α = 0,05 máme testovat, zda údaj v literatuře odpovídá antropologovým měřením. Předpokládáme, že výšky členů nějaké skupiny lidí jsou přibližně normálně rozdělené.

Využijeme statistický software R a zadáme následující příkazy: orlove

Párový t-test

Párový t-test se od jednovýběrového liší pouze v tom, že náhodný výběr poskytuje dvojice hodnot (y_1,z_1), (y_2,z_2), . , (y_n,z_n), přičemž uvnitř každé dvojice nemusí jít o nezávislé veličiny. +more V párovém t-testu ověřujeme, zda rozdíl středních hodnot rozdělení pro veličiny y a rozdělení pro veličiny z je roven určitému číslu (často nule). Předpokladem je, že tento rozdíl (nikoli nutně samotné y a z) má normální rozdělení.

Položíme-li x_i=y_i-z_i a označíme-li \mu{}_0 jako číslo, kterému se má rovnat rozdíl středních hodnot, můžeme párový test zcela převést na případ jednovýběrového t-testu.

Dvouvýběrový t-test

Označme jednotlivé hodnoty prvního náhodného výběru jako x_1, x_2, . , x_n, výběrový průměr jako \overline{X} a výběrový rozptyl jako S_x^2. +more Obdobně označme jednotlivé hodnoty druhého náhodného výběru jako y_1, y_2, . , y_m, výběrový průměr jako \overline{Y} a výběrový rozptyl jako S_y^2. Oba výběry musejí být vzájemně nezávislé. Nakonec označme \delta číslo, které se má rovnat rozdílu středních hodnot základního souboru \mu{}_1-\mu{}_2 (jak již bylo řečeno, často \delta=0).

Potom veličina

T=\frac{\overline{X}-\overline{Y}-\delta}{\sqrt{(n-1)S_x^2 + (m-1)S_y^2}} \sqrt{\frac{nm(n+m-2)}{n+m}}

má za platnosti hypotézy, že se rozdíl středních hodnot rovná \delta, T rozdělení o n+m-2 stupních volnosti. Hypotéza se tedy zamítá v případě, že veličina T překročí kritickou hodnotu T rozdělení o uvedeném počtu stupňů volnosti.

Příklad dvouvýběrového t-testu

Mužové (smyšleného) kmene Orlů mají podle literatury mít stejnou průměrnou výšku jako mužové sousedního kmene Býků. Antropolog, který oba kmeny navštívil, změřil výšky deseti náhodně vybraných mužů každého kmene. +more V pořadí velikosti to byli muži vysocí u Orlů 153, 156, 156, 161, 166, 167, 168, 174, 175 a 181 cm a u Býků 160, 165, 168, 170, 171, 174, 176, 181, 181 a 183 cm. Na 5% hladině významnosti máme testovat, zda údaj v literatuře odpovídá antropologovým měřením za předpokladu, že variabilita výšek obou skupin je stejná.

Opět využijeme software R a zadáme příkazy:

orlove

Poznámky

Předpoklad, že oba výběry pocházejí z normálního rozdělení, nemusí být za každou cenu dodržen. T-test totiž pracuje s průměry obou výběrů, a ty již při rozsahu výběru v řádu desítek mají přibližně normální rozdělení díky centrální limitní větě za předpokladu, že data pocházejí z poměrně málo šikmých a špičatých rozdělení (výchozí rozdělení samozřejmě musí plnit předpoklady centrální limitní věty, jinak aritmetické průměry k ničemu nekonvergují, a nelze tedy provádět jejich statistické testování).

Před provedením t-testu by mělo být prověřeno, že oba náhodné výběry mají stejný rozptyl. K tomu může posloužit F-test. +more Existují i modifikace t-testu pro výběry s různými rozptyly.

Pokud je rozsah výběru (resp. obou výběrů) velký (v řádu stovek a víc), lze místo kritických hodnot T rozdělení použít kritické hodnoty normálního rozdělení, tedy vlastně provést z-test.

Je-li skupin hodnot (tj. náhodných výběrů) víc než dva, bývá obvykle vhodnější provést simultánní porovnání pomocí analýzy rozptylu než opakované t-testy po dvojicích.

Literatura

Anděl, J.: Matematická statistika, SNTL 1985.

Kategorie:Testování statistických hypotéz

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top