Statistický model
Author
Albert FloresStatistický model je matematický a statistický nástroj, který slouží k popisu nebo vysvětlení nějakého jevu nebo systému pomocí statistické analýzy dat. Na stránce statistický model je detailně popsáno, jakým způsobem se statistické modely vytvářejí a jak se s nimi pracuje. Taktéž jsou zde uvedeny nejrůznější typy statistických modelů, jako například lineární regrese, logistická regrese nebo ANOVA. Dále je zde také diskutováno, jak se používají statistické modely k predikci budoucích hodnot a jak se s nimi pracuje v rámci inferenční statistiky. Na stránce je také zmíněna problematika přizpůsobování statistických modelů a jejich hodnocení a validace. Celkově je stránka statistický model důležitým zdrojem informací pro každého, kdo se zajímá o statistiku a analýzu dat.
Statistický model je matematický model popisující soubor statistických předpokladů o vzniku dat výběrového souboru (dostupných dat popisujících potenciálně nekonečnou populaci). Statistický model tedy reprezentuje, často ve značně idealizované formě, proces generování dat.
Statistický model je obvykle specifikován jako matematický vztah mezi jednou nebo více náhodnými proměnnými a případně dalšími nenáhodnými proměnnými. Statistický model jako takový je „formálním vyjádřením teorie“ (Herman Adèr zde cituje Kennetha Bollena).
Všechny statistické testy hypotéz a všechny statistické odhady jsou odvozeny prostřednictvím statistických modelů. Obecněji řečeno, statistické modely patří k základům statistické inference.
Úvod
Neformálně lze statistický model považovat za statistický předpoklad (nebo soubor statistických předpokladů) s tou vlastností, že tento předpoklad nám umožňuje vypočítat pravděpodobnost jakékoli události. Jako příklad zvažme dvojici obyčejných hracích kostek. +more Budeme uvažovat dva různé statistické předpoklady o těchto kostkách.
První statistický předpoklad je tento: pro každou kostku je pravděpodobnost, že padne libovolné číslo (1, 2, 3, 4, 5 a 6) vždy jedna šestina. Z tohoto předpokladu můžeme vypočítat pravděpodobnost, že na obou kostkách padne pětka: 1/6 × 1/6 = 1/36. +more Obecněji můžeme vypočítat pravděpodobnost jakékoli události: např. (1 a 2) nebo (3 a 3) nebo (5 a 6).
Alternativní statistický předpoklad je tento: pro každou kostku je pravděpodobnost, že padne pětka, rovna jedné osmině (protože kostky nejsou vyvážené). Z tohoto předpokladu můžeme také vypočítat pravděpodobnost, že na obou kostkách padne pětka: 1/8 × 1/8 = 1/64. +more Nemůžeme však vypočítat pravděpodobnost jakékoli jiné netriviální události, protože pravděpodobnosti hodu ostatních čísel neznáme.
První statistický předpoklad je statistický model, protože na jeho základě můžeme vypočítat pravděpodobnost jakékoli události. Alternativní statistický předpoklad není statistický model, protože neumožňuje spočítat pravděpodobnost každé události.
Ve výše uvedeném příkladu je s prvním předpokladem výpočet pravděpodobnosti události snadný. U některých jiných statistických modelů však může být výpočet obtížný nebo dokonce prakticky neproveditelný (např. +more by mohl vyžadovat miliony let výpočetního času). Stále však jde o statistický model: výpočet nemusí být proveditelný, pouze teoreticky možný.
Formální definice
Z matematického hlediska se statistický model obvykle definuje jako uspořádaná dvojice (S, \mathcal{P}), kde S je soubor možných pozorování, tj. prostor elementárních jevů, a \mathcal{P} je množina rozdělení pravděpodobnosti na S.
Předpokládá se tedy, že existuje „skutečné“ rozdělení pravděpodobnosti spojené s procesem, který generuje pozorovaná data. Množinu \mathcal{P} se snažíme zvolit tak, aby obsahovala rozdělení, jež se rovná (nebo z praktického hlediska dostatečně přibližuje) této skutečné distribuci.
Povšimněte si, že definice nevyžaduje, aby \mathcal{P} obsahovala zmíněné skutečné rozdělení, protože to se v praxi zřídka dá dosáhnout. Jak uvádí Burnham & Anderson: „Model je zjednodušení nebo přiblížení reality, a proto nebude odrážet celou realitu“ - proto se říká „všechny modely jsou nesprávné, ale některé jsou užitečné“.
Množina \mathcal{P} je téměř vždy parametrizována: \mathcal{P}=\{P_{\theta} : \theta \in \Theta\}. Množina \Theta obsahuje parametry modelu. +more Parametrizace má být vybrána tak, aby odlišné hodnoty parametrů vedly k odlišným distribucím, tj. P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2 (jinými slovy musí být injektivní). Parametrizace, která splňuje tento požadavek, se označuje jako identifikovatelná.
Příklad
Předpokládejme, že máme populaci školních dětí s rovnoměrně rozloženým věkem dětí. Výška dítěte bude stochasticky souviset s věkem: např. +more když víme, že dítě má 7 let, ovlivní to pravděpodobnost, že dítě bude vysoké 1,5 metru. Tento vztah bychom mohli formalizovat lineárním regresním modelem, například takto: výškai = b0 + b1 věki + εi, kde b0 je konstantní člen, b1 je parametr, kterým se násobí věk (regresní koeficient věku), εi je chybový člen (náhodná veličina, jejíž distribuci bychom měli znát či parametricky vyjádřit) a i identifikuje dítě. To znamená, že výška je předpovídána jako lineární funkce věku s určitou chybou.
Přípustný model musí být v souladu se všemi pozorováními (datovými body). Tedy samotná přímka (výškai = b0 + b1 věki) zpravidla nemůže být rovnicí modelu podobných dat - zpravidla totiž přesně neprochází všemi datovými body. +more Proto musí být zahrnut do rovnice chybový člen, εi, aby byl model konzistentní se všemi datovými body.
Abychom mohli provést statistickou inferenci, museli bychom popis modelu dokončit tím, že budeme předpokládat konkrétní distribuce pravděpodobnosti εi. Například bychom mohli předpokládat, že distribuce εi jsou nezávislé stejně rozdělené náhodné veličiny (anglickou zkratkou iid) s gaussovským (normálním) rozdělením a nulovou střední hodnotou. +more V tomto případě by model měl tři parametry: b0, b1 a rozptyl Gaussova rozdělení σ2.
Model teď můžeme formálně popsat ve tvaru (S, \mathcal{P}): Prostor S našeho modelu obsahuje sadu všech možných dvojic (věk dítěte, výška dítěte). Každá možná trojice \theta = (b0, b1, σ2) určuje rozdělení pravděpodobnosti na S; označme tuto distribuci jako P_{\theta} Je-li \Theta množina všech možných hodnot \theta, pak \mathcal{P}=\{P_{\theta} : \theta \in \Theta\} . +more (Parametrizace je identifikovatelná což lze snadno zkontrolovat. ).
V tomto příkladu je model určen (1) zadáním S a (2) popsáním předpokladů o \mathcal{P}. Jsou zde dva základní předpoklady: že výška může být aproximována lineární funkcí věku; a že chyby v aproximaci jsou distribuovány jako gaussovské iid. +more Tyto předpoklady stačí k popisu \mathcal{P} - jak se od nich žádá.
Obecné poznámky
Statistické modely jsou podtřídou matematických modelů. Statistický model se od ostatních matematických modelů liší tím, že není deterministický. +more Ve statistickém modelu specifikovaném matematickými rovnicemi tedy některé proměnné nemají konkrétní hodnoty, ale jsou popsány rozdělením pravděpodobnosti; tj. některé z proměnných jsou stochastické. Ve výše uvedeném příkladu s výškami dětí je ε stochastická proměnná; bez této stochastické proměnné by byl model deterministický.
Statistické modely se často používají, i když je modelovaný proces vzniku dat deterministický. Například házení mincí je v zásadě deterministický proces; přesto je běžně modelován jako stochastický (pomocí Bernoulliho procesu).
Výběr vhodného statistického modelu, který představuje daný proces generování dat, je někdy extrémně obtížný a může vyžadovat znalost procesu i příslušných statistických poznatků. Statistik David Cox napsal: „Nejdůležitější částí analýzy je často způsob, jakým provedeme překlad reálného problému do statistického modelu. +more“.
Podle Konishiho a Kitagawy existují tři možná použití statistického modelu.
* Předpovědi * Extrakce informací * Popis stochastických struktur
Tyto tři body jsou v zásadě stejné jako tři účely uvedené textem Friendlyho a Meyera: předpověď, odhad, popis. Tyto tři účely odpovídají třem druhům logického uvažování: deduktivní uvažování, induktivní uvažování, abdukce.
Dimenze modelu
Mějme statistický model (S, \mathcal{P}), kde \mathcal{P}=\{P_{\theta} : \theta \in \Theta\}. Nazývá se parametrický, pokud \Theta má konečnou dimenzi. +more Píšeme pak například, že \Theta \subseteq \mathbb{R}^k, kde je přirozené číslo (\mathbb{R} označuje reálná čísla; v zásadě však lze použít i jiná tělesa). Potom se nazývá dimenze modelu.
Například předpokládejme, že data vznikají z jednorozměrného normálního rozdělení, pak to znamená
: \mathcal{P}=\left\{P_{\mu,\sigma }(x) \equiv \frac{1}{\sqrt{2 \pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2}\right) : \mu \in \mathbb{R}, \sigma > 0 \right\} .
V tomto příkladu se tedy dimenze rovná 2, jelikož model má dva parametry uvedené v rovnici za dvojtečkou.
Příklad s výškami dětí uvedený výše, má dimenzi modelu 3, jelikož obsahuje tři parametry (dva parametry přímky a rozptyl chyb). Povšimněte si, že geometrická dimenze přímky přitom je pouze 1.
Poznamenejme, že i když formálně \theta \in \Theta je jediný parametr, který má rozměr , je někdy považován za soubor samostatných parametrů. Například u jednorozměrného Gaussova rozdělení je \theta formálně jediný parametr s dimenzí 2, ale někdy se považuje za dva samostatné parametry - průměr a směrodatnou odchylku.
Statistický model je neparametrický, pokud je parametr \Theta nekonečnědimenzionální. Statistický model je semiparametrický, pokud má konečněrozměrné i nekonečněrozměrné parametry.
Parametrické modely jsou zdaleka nejčastěji používanými statistickými modely. Pokud jde o semiparametrické a neparametrické modely, Sir David Cox řekl: „Ty obvykle zahrnují méně předpokladů o struktuře a tvaru distribucí, ale obvykle obsahují silné předpoklady o nezávislosti proměnných. +more“.
Vnořené modely
Dva statistické modely jsou vnořené, pokud lze první model transformovat do druhého modelu zavedením omezení parametrů prvního modelu. Například množina všech normálních rozdělení obsahuje vnořenou množinu normálních rozdělení s nulovou střední hodnotou: tu získáme dodatečným požadavkem, že střed distribuce je nula. +more Jako druhý příklad můžeme vzít kvadratický model.
: ,
který má v sobě vnořen lineární model
:
-zde jsme omezili parametr na hodnotu 0.
V obou těchto příkladech má první model vyšší dimenzi než druhý model. Tak je tomu často, ale ne vždy. +more Například je množina Gaussových distribucí s kladnou střední hodnotou, která má dimenzi 2, je vnořena do množiny všech Gaussových distribucí, jež má také dimenzi 2.
Porovnávání modelů
Porovnání statistických modelů je zásadní pro většinu statistických inferencí. Konishi & Kitagawa (2008 s. +more 75) říká: „Většinu problémů statistické inference lze považovat za problémy související se statistickým modelováním. Obvykle jsou formulovány jako srovnání několika statistických modelů. “.
Běžná kritéria pro porovnávání modelů jsou například: R2, Bayesův faktor a test poměrů věrohodností.
Reference
Literatura
. * . * . * . * . * .