P-hacking

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

p-hacking, jinak známý jako data dredging, data fishing, data snooping, data butchery, significance chasing, significance questing nebo selective inference, je užívání analýzy dat za účelem cíleného hledání výsledků či korelací, které potvrdí nějakou hypotézu. Tím se rapidně zvyšuje možnost tzv. falešně pozitivního výsledku zkoumání.

Získávání těchto výsledků se dosahuje například zahrnováním pouze těch dat z celého experimentu, která se hodí pro potvrzení hypotézy. Vypouští se tedy podstatná část všech získaných dat a tím  je ovlivňován zkoumaný vzorek. +more Další situace, kdy k p-hackingu dochází, nastává v případě, že se vypočtená p-hodnota všech zkoumaných dat výrazně blíží předem stanovené hranici p-hodnoty, ale nedostává se pod ní. Pouhé přidání dalšího množství dat do celkové analýzy často vede k pokoření této hranice, a tedy k zdánlivému zisku statisticky významného výsledku.

p-hacking v praxi

Prostředkem p-hackingu je tzv. p-hodnota, číselná hodnota, jež se užívá při statickém testování hypotéz. +more Typicky se jako hranice pro určení relevance získaných dat stanovuje hodnota 0,05. Pokud je p-hodnota menší než 0,05, má se za to, že mezi zkoumanými vzorky existují rozdíly. Na druhou stranu pokud je p-hodnota větší než 0,05, nelze tvrdit, že by mezi vzorky existovala prokazatelná rozdílnost. p-hodnota potvrzuje či vyvrací možnost rozdílů mezi vzorky, ale neurčuje, jak velké tyto rozdíly jsou.

* Pokud budou získaná data opakovaně podrobována stejnému zkoumání, nevyhnutelně mezi nimi dříve či později statistický rozdíl vznikne, jedná se ale o tzv. falešně pozitivní výsledek. +more V tomto případě se jedná o p-hacking ve smyslu, že se tentýž experiment provádí stále dokola, dokud nedojde k potvrzení dané hypotézy. * Dalšího způsobu p-hackingu může být užito v případech, kdy experiment vyústí v p-hodnotu blížící se hranici 0,05, nicméně stále vyšší. Pokud je po získání prvotních dat uměle jejich objem zvětšen o data dodaná následně, pravděpodobně se autor výzkumu dopracuje k hodnotě nižší, než 0,05. Takovýto výsledek se ovšem nemůže považovat za směrodatný, neboť se jedná o p-hacking. Ve správném případě musí být předem známo co, do jaké míry a jakým způsobem se zkoumá a pro validitu experimentu se musí těchto předem vytyčených hranic držet, i přes riziko vyvrácení hypotézy. * Alternativně pokud výzkumník začne vyhodnocovat získaná data již v procesu jejich kolekce, vyhodnotí z nich požadovaný výsledek a na základě toho předčasně ukončí sběr dat, jedná se také o p-hacking. * Nelze opomenout fakt, že p-hackingu se lze dopouštět i neúmyslně. Například se toho může omylem dopustit výzkumník v momentě, kdy získaná data předá k analýze svému asistentovi. Lze předpokládat, že ten bude hledat výsledky analýzy, o kterých bude soudit, že s nimi jeho nadřízený bude spokojen. Ač fyzické ovlivnění dat učinil asistent, právě výzkumník samotný mohl předpokládat, že k tomuto může dojít, a tedy se bez svého vědomí dopustil p-hackingu. Ve skutečnosti je p-hacking velice častým jevem. Lze to ilustrovat prostřednictvím výzkumu Leslie K. John a kol. Výzkum spočíval ve sběru dat skrze dotazníky. Respondenti byli dotazováni, zda se někdy ocitnuli v situaci, kdy došli při výzkumu k řadě pochybných výsledků a pokud ano, zdali si myslí, že jejich skutky byly na stupnici 0-2 (0 = ne, 1 = možná, 2 = ano) obhajitelné. Přes 50 % účastníků dotazníku se přiznalo k “selhání v nahlášení všech měření závislých na příslušné studii” a k “rozhodování se, zda sbírat více dat po tom, co se již podívali, zda jsou pro ně výsledky podstatné,” tyto výsledky ale ovšem dosáhly průměrného hodnocení vyššího než 1,5. ”.

Prvotním varováním před potenciálním p-hackingem by čtenáři mělo být podezřele vysoké množství p-hodnot v analýzách dat na dané téma, které se pohybují těsně kolem hranice 0,05, typicky lehce pod ní. Často se tento jev projevuje ve studiích, které se dotýkají subjektivně vnímaných podnětů a pocitů lidí: typicky výzkumy spojené se zdravím, životosprávou, psychikou a psychologií člověka.

Odkazy

Reference

Související články

Vědecký podvod

Externí odkazy

https://www.aeaweb.org/content/file?id=12747 * https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4359000/

Kategorie:Vědecká pochybení Kategorie:Testování statistických hypotéz

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top