Interval spolehlivosti

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Intervaly spolehlivosti na hladině 95 % pro 100 výběrů o rozsahu 30 z normálně rozděleného souboru se střední hodnotou 5. Z nich 94 intervaly obsahují správnou střední hodnotu μ = 5, zatímco zbylých 6 intervalů nikoli. Interval spolehlivosti neboli konfidenční interval je ve statistice typ intervalového odhadu neznámého parametru. Pro jeho stanovení je potřeba předem určit konfidenční hladinu (nejčastěji se používá 95 %, což je doplněk běžně používané hladiny spolehlivosti 5 % do sta procent). Konfidenční intervaly se poté stanovují tak, aby očekávaný podíl těch nezávisle stanovených intervalů, ve kterých se vyskytuje skutečná hodnota parametru, byl roven konfidenční hladině. V praxi se přitom využívá odhad standardní chyby sledovaného ukazatele.

Používáme-li konfidenční hladinu 95 %, znamená to, že změříme-li 100 nezávislých datových souborů, na nichž odhadujeme neznámý parametr intervalem spolehlivosti, tak zhruba 95 intervalů bude hledaný parametr obsahovat a zhruba pět nikoli (viz obrázek). To se někdy vyjadřuje zjednodušeným tvrzením, že „neznámý parametr leží v intervalu spolehlivosti s 95% pravděpodobností“, což však není z hlediska klasické „frekventistické“ teorie pravděpodobnosti korektní, jelikož po stanovení intervalu spolehlivosti neznámý parametr buď v tomto intervalu leží, anebo neleží, nelze však hovořit o pravděpodobnosti u jevu, který již nastal nebo nenastal. +more Podobný výrok však lze použít u analogických bayesovských intervalových odhadů zvaných konfidenční oblasti, protože bayesovská subjektivní interpretace pravděpodobnosti připouští, abychom mluvili o pravděpodobnosti jevu, který už nastal, ale není nám přesně známo, co se stalo.

Koncept intervalových odhadů a intervalů spolehlivosti definoval Jerzy Neyman roku 1937.

...

Matematická formulace

Na základě výběru se počítají dvě statistiky, zn. \theta^1(X_1, ..., X_n) a \theta^2(X_1, ..., X_n) tak, aby platilo:

P[\theta \leq \theta^1(X_1, ..., X_n)] \leq \frac{\alpha}{2} a P[\theta \geq \theta^2(X_1, ..., X_n)] \leq \frac{\alpha}{2}

a tedy

P[\theta^1(X_1, ..., X_n) \leq \theta \leq \theta^2(X_1, ..., X_n)] \geq 1 - \alpha

Dvojice statistik (θ1,θ2) splňující tento vztah 100 \cdot (1 - \alpha)\% se nazývá interval spolehlivosti. Statistika \theta^1(X_1, . +more, X_n) se nazývá dolní mez a statistika \theta^2(X_1, . , X_n) horní mez intervalu spolehlivosti. Číslo α se nazývá koeficient spolehlivosti (nejčastěji tento koeficient nabývá hodnoty α = 0,05, α = 0,01, tzn. 95% interval spolehlivosti, resp. interval spolehlivosti 99 %).

Pokud chceme zjistit pouze horní a dolní mez, potom konstruujeme statistiky tak, aby

P[\theta^1(X_1, ..., X_n)] \geq \alpha nebo P[\theta^2(X_1, ..., X_n)] \geq \alpha

a hovoříme o dolním, resp. horním intervalovém odhadu nebo obecně o jednostranných intervalech spolehlivosti.

Příklad: Použití v epidemiologii

Všechna data v epidemiologii (veterinární epidemiologie) mají tři položky: CI, M, SD (interval spolehlivosti, průměrnou hodnotu, odchylku od průměru).

Velká (populační) epidemiologie vychází z centrální limitní věty a vychází z normálního rozdělení, jelikož ve velké populaci platí zákony velkých čísel.

Nejvíce jedinců je uprostřed grafu, nejméně na jeho okraji. Střed grafu má hodnotu označenou jako M (mean), což je součet všech hodnot vydělený jejich počtem (aritmetický průměr).

* Jedna střední odchylka průměru (SD - Standard Deviation, směrodatná odchylka) zachycuje 68,2 % populace. To znamená, že interval spolehlivosti je 68,2 % (CI = 68,2) * Dvě střední odchylky od průměru zachytí 95,4 % populace * SD=3, CI 99,7 %

Tabulka udává násobitel „z“ pro Gaussovu distribuci a interval spolehlivosti (CI) Gaussova distribuce pro epidemiology

Interval spolehlivosti CIOdpovídající násobitel „z“
68,2 %1
80 %1,28
90 %1,65
95 %1,96
95,4 %2
98 %2,33
99 %2,58
99,7 %3

Většinou se za nízkou jistotu, že se nemoc v populaci nevyskytuje (populace je zdravá), považuje pravděpodobnost 90 % či 95 %. Za velice dobrou hladinu jistoty, že se nemoc v populaci nevyskytuje, se považuje 99 % a více.

CI nám udává, pro jak velké procento populace výsledek platí. Nikdy nemůže platit pro celou populaci, vždy se najdou jedinci, kteří jsou průměru hodně daleko. +more Jinými slovy CI nikdy nemůže být 100 % (jen limitou sta procent).

Epidemiologové pracují i s malými populacemi. Princip, na kterém tyto výpočty stojí, se jmenuje T-distribuce neboli Studentova distribuce. +more Slovo „Student“ se používá na počest Williama Seallyho Gosseta, který se pod své práce podepisoval jako „student“ a poprvé popsal T-test. Čím více dat je k dispozici, tím více se bude T-distribuce podobat průměrné (Gaussově) distribuci. Podstata obou přístupů je stejná, rozdíly ve výsledcích jsou zanedbatelné.

Externí odkazy

[url=http://www. massey. +moreac. nz/massey/fms/Colleges/College%20of%20Sciences/Epicenter/docs/ASVCS/Stevenson_intro_epidemiology-web_2008. pdf]Učebnice Nového Zélandu o veterinární epidemiologii[/url] * [url=http://dvmbooks. weebly. com/uploads/2/2/3/6/22365786/1. _veterinary_epidemiology_thrush_filled. pdf]Učebnice Velké Británie o veterinární epidemiologii[/url] (Edinburská univerzita) * [url=https://www. researchgate. net/publication/305279557_Introduction_to_Veterinary_Epidemiology]Dirk Pfeiffer (Londýnská universita) - Úvod do veterinární epidemiologie[/url] * [url=https://web. archive. org/web/20170809101742/http://www. cnstn. rnrt. tn/afra-ict/ICT%20TOOLS%20RAF0026/PESTE%20BOVINE/References/1006. pdf]Dirk Pfeiffer - veterinární epidemiologie[/url] * [url=http://apps. who. int/iris/bitstream/handle/10665/43541/9241547073_eng. pdf;jsessionid=108FF08F2503A284BB43FEA608055AF2. sequence=1%5D]Základy epidemiologie - Světová zdravotnická organizace|WHO 2006, druhé vydání[/url].

Kategorie:Epidemiologie Kategorie:Biostatistika Kategorie:Matematická statistika

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top