Bootstrapping (statistika)
Author
Albert FloresBootstrapping je v matematické statistice jakýkoli test nebo metrika, která používá náhodný výběr s vracením a spadá do širší třídy metod resamplingu, jež samy spadají mezi metody Monte Carlo. Bootstrapping se používá především pro odhad přesnosti (intervaly spolehlivosti, chyby predikce atd.) výběrových statistik. Tato technika umožňuje odhad distribuce téměř jakékoli výběrové statistiky pomocí metod náhodného výběru.
Bootstrapping odhaduje distribuci výběrové statistiky a/nebo její vlastnosti (například její rozptyl) mnohonásobným opakováním výběru s vracením z aproximujícího rozdělení. Běžnou standardní volbou pro aproximující rozdělení je empirická distribuční funkce pozorovaných dat. +more V případě, kdy lze předpokládat, že pozorování v souboru jsou nezávislá a stejně rozdělená, lze to provést vytvořením řady výběrů s vracením z pozorovaného souboru dat (o stejném rozsahu jako pozorovaný soubor dat) .
Bootstrapping lze také použít pro testování hypotéz. Často se používá jako alternativa ke statistickým odhadům a testům založeným na předpokladu parametrického modelu, když je tento předpoklad pochybný anebo pokud je parametrický závěr nemožný nebo vyžaduje složité vzorce pro výpočet standardních chyb.
Bootstrapping publikoval Bradley Efron v článku „Bootstrap methods: another look at the jackknife“ (1979), inspirovaným dřívějšími pracemi na metodě jackknife. Vylepšené odhady rozptylu byly vyvinuty později. +more Bayesovské rozšíření bylo publikováno v roce 1981. Booststrap korigovaný na vychýlení a zrychlený (bias-corrected and accelerated, BCa) publikoval Efron v roce 1987 a algoritmus ABC v roce 1992.
Myšlenka metody
Základní myšlenkou bootstrappingu je, že inference o celé populaci na základě vybraných dat (výběr → populace) lze přibližně nahradit inferencemi o výběru z resamplovaných, tedy dat (opakovaně) vybíraných z původního výběru (resampling → výběr). Jelikož populace není známa, skutečná chyba statistik výběru oproti jejich populačním hodnotám není známa. +more V bootstrapových opakovaných výběrech však je „populace“ ve skutečnosti původní výběr, a ten je znám; proto je kvalita inference „pravého“ výběru z resamplovaných dat (resample → výběr) změřitelná.
Formálněji řečeno bootstrap pracuje tak, že považuje odvození skutečného rozdělení pravděpodobnosti J vzhledem k původním datům za analogické k odvození empirického rozdělení Ĵ vzhledem k resamplovaným datům. Přesnost závěrů týkajících se Ĵ založených na resamplovaných datech lze posoudit, protože známe J. +more Jestliže Ĵ rozumně aproximuje J, pak kvalita odhadů týkajících se J je podobná jako kvalita odhadů o Ĵ.
Jako příklad předpokládejme, že nás zajímá průměrná výška lidí na celém světě. Z praktických důvodů nemůžeme změřit všechny, takže místo toho vybereme pravděpodobnostním výběrem pouze malou část z nich a změříme tyto vybrané jedince. +more Předpokládejme, že výběr má rozsah N; to znamená, že měříme výšky N jedinců. Z tohoto jediného vzorku lze získat pouze jeden odhad průměru. Abychom mohli uvažovat o populaci, potřebujeme určitou představu o variabilitě průměru, který jsme vypočítali. (To se v tomto jednoduchém případě obvykle řeší výpočtem výběrové směrodatné odchylky podle známého vzorečku, avšak zde popišme, jak bychom postupovali metodou bootstrap; pro řadu složitějších statistik nebo méně standardních distribucí totiž žádné jednoduché vzorečky neexistují. ) Nejjednodušší metoda bootstrapu vezme soubor změřených výšek a s použitím počítače z ní pomocí výběru s vracením vybere nový vzorek (nazývaný resamplingový nebo bootstrapový výběr), který má také velikost N (protože jde o výběr s vracením, mohou se v něm některé původní hodnoty opakovat vícekrát, zatímco jiné nejsou zastoupeny vůbec; např. můžeme z pětice původních čísel [1,2,3,4,5] získat [2,5,4,4,1]). Za předpokladu, že N je dostatečně velký, je prakticky nulová pravděpodobnost, že bootstrapový výběr bude totožný s původním „skutečným“ vzorkem. Tento proces se opakuje mnohokrát (obvykle 1000 nebo 10 000krát), a pro každý z těchto bootstrapových výběrů vypočítáme jeho průměr (každý takový průměr se nazývá bootstrapový odhad). Poté můžeme vytvořit histogram bootstrapových odhadů. Tento histogram poskytuje odhad tvaru distribuce odhadů střední hodnoty výšky lidí. Z něj můžeme vyčíst, jak stabilní odhad průměru původní populace je. Metodu zde popsanou pro průměr lze použít na téměř jakoukoli jinou statistiku nebo odhad.