Metoda maximální věrohodnosti
Author
Albert FloresMetoda maximální věrohodnosti označuje jednu z centrálních metod matematické statistiky. Jednou z hlavních úloh matematické statistiky je, zjednodušeně řečeno, odhad neznámých veličin v závislosti na pozorovaných (experimentálních) datech.
Odhad v kontextu matematické statistiky sestává ze dvou částí # formulace pravděpodobnostního modelu, který popisuje danou reálnou situaci # ověření shody daného modelu se skutečností na základě pozorovaných dat. Z těchto dat se dále odhadují hodnoty volných parametrů modelu. +more Metoda maximální věrohodnosti je univerzální metoda pro konstrukci odhadů parametrů.
Definice
Pozorovaná data se uvažují jako soubor stejně rozdělených nezávislých náhodných veličin X_1, X_2, \ldots, X_n s neznámou funkcí hustoty f_{\theta}. Dostupnou informací je, že tato funkce náleží do parametrické množiny \{ g_\theta, \theta \in \Theta \} , jejíž prvky se liší pouze hodnotou parametru \Theta . +more Jinými slovy existuje hodnota \theta_0 taková, že f_{\theta} = g_{\theta_0}. Protože hodnota \theta_0 je neznámá, je potřeba se jí pomocí nějakého odhadu \hat{\theta} co nejlépe přiblížit.
Pro soubor stejně rozdělených, nezávislých náhodných veličin platí, že jejich sdruženou hustotu lze faktorizovat (tj. rozdělit na součin hustot jednotlivých rozdělení) : f( X_1, X_2, \ldots, X_n | \theta ) = f( X_1 | \theta )f(X_2 | \theta)\ldots f(X_n | \theta) = \prod_{i=1}^N f(X_i|\theta)
Chceme-li odhadovat hodnoty \theta, pak získáme přepsáním předchozí rovnice vztah pro odhad \mathcal{L}(\theta | . ) : \mathcal{L}(\theta | X_1, X_2, \ldots, X_n ) = f( X_1 | \theta )f(X_2 | \theta)\ldots f(X_n | \theta) = \prod_{i=1}^N f(X_i|\theta) Funkci \mathcal{L}(\theta | . +more) nazýváme věrohodnostní funkce.
Velmi často se využívá logaritmus věrohodnostní funkce \mathcal{L}, tj. : \log\mathcal{L}(\theta | X_1, X_2, \ldots, X_n ) = \sum_{i=1}^N \log f(X_i|\theta) Jednou z výhod logaritmu je převod součinu na součet, se kterým se v některých případech lépe pracuje.
Jestliže existuje hodnota \hat\theta taková, že pro všechny možné hodnoty parametru \theta platí : \mathcal{L}(\theta | X_1, X_2, \ldots, X_n ) \leq \mathcal{L}(\hat\theta | X_1, X_2, \ldots, X_n )
pak nazveme \hat\theta maximálním věrohodným odhadem.
Alternativní formulace je : \hat\theta = \arg\max_{\theta \in \Theta} \mathcal{L}(\theta | X_1, X_2, \ldots, X_n )
Příklady
Diskrétní rozdělení
Uvažujme náhodný výběr (X_1, X_2, X_3, X_4) z alternativního rozdělení, tj. X nabývá pouze hodnot 0 a 1 a sice s pravděpodobností P(X=1) = p a P(X=0) = 1-p. +more Získaná data jsou (0,0,1,0). Úkol je odhadnout hodnotu parametru p, přičemž náš model předpokládá hodnoty buď p = 0,25 nebo p=0,8.
Pro pravděpodobnost pozorovaných dat máme podle alternativního rozdělení: : P(X_1=0, X_2=0, X_3=1, X_4=0) = p(1-p)^3
což je pro p=0,25 rovno 0,1055 a pro p=0,8 rovno 0,0064. Princip maximálního věrohodného odhadu spočívá v tom, že za odhad p vezmeme tu hodnotu, pro kterou je výsledek nejpravděpodobnější, tedy p=0,25.
Spojité rozdělení
Uvažujme situaci popsanou normálním rozdělením \mathcal{N}(\mu, \sigma^2) s hustotou : f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\ \sigma\ } \exp{\left(-\frac {(x-\mu)^2}{2\sigma^2} \right)},
kde parametr \sigma^2 je znám. Pro odhad parametru \mu metodou maximální věrohodnosti dostáváme vztah : \log\mathcal{L}(\theta | X_1, X_2, \ldots, X_n ) = \log \left( \prod_{i=1}^N \frac{1}{\sqrt{2\pi}\ \sigma\ } \exp{\left(-\frac {(X_i-\theta)^2}{2\sigma^2} \right)} \right) = -\frac{n}{2}\log 2\pi - \frac{n}{2} \log \sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^N (X_i-\theta)^2
Pro výpočet maximálního věrohodného odhadu \hat\theta postačuje pomocí první derivace určit maxima funkce na pravé straně, tj. najít řešení rovnice : \frac{\partial \log\mathcal{L}(\theta | X_1, X_2, \ldots, X_n )}{\partial \theta} = \frac{1}{\sigma^2}\sum_{i=1}^N (X_i-\theta) = 0
které je : \hat\theta = \frac{1}{n}\sum{X_i} = \bar{X}_n
tedy výběrový průměr.
Vlastnosti
Statistické odhady lze charakterizovat pomocí několika základních vlastností: * Odhad \phi(x) parametrické funkce g(\theta) nazveme nestranný odhad, jestliže odhad není zatížen systematickou chybou, tj. \mathbb{E}_{\theta} \phi(x) = \theta. +more * Odhad \phi_n(X_1, X_2, \ldots, X_n) parametrické funkce g(\theta) na základě náhodného výběru X_1, X_2, \ldots, X_n nazveme konzistentní odhad, jestliže zvyšováním počtu pozorování lze chybu odhadu udělat libovolně malou, tj. platí \textstyle P_{\theta} \left( \lim_{n \to \infty} \phi_n(X_1, X_2, \ldots, X_n) = g(\theta) \right) = 1 .
Přednosti
V některých případech odhadu parametrů založeném na malém počtu pozorování se maximálně věrohodný odhad nechová nestranně, nicméně při splnění mírných předpokladů má řadu důležitých vlastností . # Je konzistentní. +more # Pro dostatečně velká n má přibližně normální rozdělení, tj. pro odhad \hat\theta a parametr \theta \in \Theta platí \sqrt{n} (\hat\theta - \theta) \xrightarrow{d} \mathcal{N} \left(0, \mathcal{I}^{-1}(\theta) \right) . #: Přičemž se jedná o tzv. konvergenci v distribuci. Veličina \mathcal{I}(\theta) označuje Fisherovu informaci, kterou lze chápat jako míru informace o parametru \theta obsažené v jednom pozorování. # Je asymptoticky (pro počet pozorování n \to \infty) eficientní, tj. odhaduje neznámý parametr nejlepším možným způsobem. # Pro spojité parametrické funkce g(\theta) je maximální věrohodný odhad roven g(\hat\theta).
Nedostatky
Základní předpoklad pro využití maximálního věrohodnostního odhadu je přesný a správný popis pravděpodobnostního modelu. Je-li tento popis reálné situace nepřesný, pak jsou získané odhady nekonzistentní s pozorovanými daty. +more * Věrohodnostní funkce mohou být na základě zvoleného modelu a neznámých parametrů libovolně komplikované. Důsledkem jsou věrohodnostní rovnice, pro které nemusí existovat analytické řešení a při hledání maxima věrohodnostní funkce je pak nutné použít numerické metody. * Přednosti maximálního věrohodnostního odhadu vycházejí z asymptotických vlastností. Pro nízké počty pozorování je tedy vhodnější použít jiné metody odhadu.
Využití
Metoda maximální věrohodnosti má široké využití v matematické statistice, například # při testování hypotéz, # ve faktorové analýze.
Navíc se tato metoda často využívá i v jiných oborech, například # při rozpoznávání objektů v obrazových datech, # v ekonometrii a modelování finančních trhů, # při přesné lokalizaci (pomocí GPS apod.).