Kullbackova nerovnost
Author
Albert FloresKullbackova nerovnost je v teorii informace a statistice spodní mez Kullbackovy-Leiblerovy divergence vyjádřená pomocí poměrové funkce teorie velkých odchylek. Pokud P a Q jsou rozdělení pravděpodobnosti na reálné ose taková, že P je absolutně spojitá funkce vzhledem ke Q (píšeme PD_{KL}(P\|Q) \ge \Psi_Q^*(\mu'_1(P)), kde \Psi_Q^* je poměrová funkce, tj. konvexní transformace kumulantové vytvořující funkce rozdělení Q, a \mu'_1(P) je první moment rozdělení P.
Důsledkem Kullbackovy nerovnosti je Cramérova-Raova mez.
Důkaz
Nechť P a Q jsou rozdělení pravděpodobnosti (míry) na reálné ose, jejichž první momenty existují, a [[Absolutně spojitá funkce|PQ_\theta(A) = \frac{\int_A e^{\theta x}Q(dx)}{\int_{-\infty}^\infty e^{\theta x}Q(dx)} = \frac{1}{M_Q(\theta)} \int_A e^{\theta x}Q(dx) pro každou měřitelnou množinu A, kde M_Q je momentová vytvořující funkce rozdělení Q. Přitom Q0=Q. +more Pak :D_{KL}(P\|Q) = D_{KL}(P\|Q_\theta) + \int_{\mathrm{supp}P}\left(\log\frac{\mathrm dQ_\theta}{\mathrm dQ}\right)\mathrm dP. Gibbsova nerovnost říká, že D_{KL}(P\|Q_\theta) \ge 0, z čehož plyne :D_{KL}(P\|Q) \ge \int_{\mathrm{supp}P}\left(\log\frac{\mathrm dQ_\theta}{\mathrm dQ}\right)\mathrm dP = \int_{\mathrm{supp}P}\left(\log\frac{e^{\theta x}}{M_Q(\theta)}\right) P(dx) Zjednodušením pravé strany dostáváme pro každé reálné θ, pro něž M_Q(\theta) :D_{KL}(P\|Q) \ge \mu'_1(P) \theta - \Psi_Q(\theta), kde \mu'_1(P) je první moment neboli střední hodnota rozdělení P, a \Psi_Q = \log M_Q se nazývá kumulantová vytvořující funkce. Použitím suprema uzavřeme proces konvexní transformace a dostaneme vzorec pro poměrovou funkci: :D_{KL}(P\|Q) \ge \sup_\theta \left\{ \mu'_1(P) \theta - \Psi_Q(\theta) \right\} = \Psi_Q^*(\mu'_1(P)).
Důsledek: Cramérova-Raova mez
Použití Kullbackovy nerovnosti
Nechť Xθ je rodina rozdělení pravděpodobnosti na reálné ose indexované reálným parametrem θ vyhovující určitým podmínkám regularity. Pak : \lim_{h\rightarrow 0} \frac {D_{KL}(X_{\theta+h}\|X_\theta)} {h^2} \ge \lim_{h\rightarrow 0} \frac {\Psi^*_\theta (\mu_{\theta+h})}{h^2},
kde \Psi^*_\theta je konvexní transformace kumulantové vytvořující funkce rozdělení X_\theta a \mu_{\theta+h} je prvním momentem X_{\theta+h}.
Levá strana
Postupnými úpravami levé strany dostáváme:
:\begin{align} \lim_{h\to 0} \frac {D_{KL}(X_{\theta+h}\|X_\theta)} {h^2} &=\lim_{h\to 0} \frac 1 {h^2} \int_{-\infty}^\infty \log \left( \frac{\mathrm dX_{\theta+h}}{\mathrm dX_\theta} \right) \mathrm dX_{\theta+h} \\ &=\lim_{h\to 0} \frac 1 {h^2} \int_{-\infty}^\infty \log\left( 1- \left (1-\frac{\mathrm dX_{\theta+h}}{\mathrm dX_\theta} \right ) \right) \mathrm dX_{\theta+h} \text{... funkci } \log(1-t) \text{ vyjádříme Taylorovým rozvojem } \\ &= \lim_{h\to 0} \frac 1 {h^2} \int_{-\infty}^\infty \left[ \left( 1 - \frac{\mathrm dX_\theta}{\mathrm dX_{\theta+h}} \right) +\frac 1 2 \left( 1 - \frac{\mathrm dX_\theta}{\mathrm dX_{\theta+h}} \right) ^ 2 + o \left( \left( 1 - \frac{\mathrm dX_\theta}{\mathrm dX_{\theta+h}} \right) ^ 2 \right) \right]\mathrm dX_{\theta+h} \\ &= \lim_{h\to 0} \frac 1 {h^2} \int_{-\infty}^\infty \left[ \frac 1 2 \left( 1 - \frac{\mathrm dX_\theta}{\mathrm dX_{\theta+h}} \right)^2 \right]\mathrm dX_{\theta+h} \\ &= \lim_{h\to 0} \frac 1 {h^2} \int_{-\infty}^\infty \left[ \frac 1 2 \left( \frac{\mathrm dX_{\theta+h} - \mathrm dX_\theta}{\mathrm dX_{\theta+h}} \right)^2 \right]\mathrm dX_{\theta+h} \\ &= \frac 1 2 \mathcal I_X(\theta) \end{align} což je polovina Fisherovy informace parametru θ.
Pravá strana
Pravou stranu nerovnosti lze upravit takto: : \lim_{h\rightarrow 0} \frac {\Psi^*_\theta (\mu_{\theta+h})}{h^2} = \lim_{h\rightarrow 0} \frac 1 {h^2} {\sup_t \{\mu_{\theta+h}t - \Psi_\theta(t)\} }.
Tohoto suprema je dosaženo pro t=τ, kde první derivace kumulantové vytvořující funkce je \Psi'_\theta(\tau) = \mu_{\theta+h}, přičemž \Psi'_\theta(0) = \mu_\theta,, takže :\Psi_\theta(0) = \frac{d\mu_\theta}{d\theta} \lim_{h \rightarrow 0} \frac h \tau. Navíc :\lim_{h\rightarrow 0} \frac {\Psi^*_\theta (\mu_{\theta+h})}{h^2} = \frac 1 {2\Psi_\theta(0)}\left(\frac {d\mu_\theta}{d\theta}\right)^2 = \frac 1 {2\mathrm{Var}(X_\theta)}\left(\frac {d\mu_\theta}{d\theta}\right)^2.
Dosazení do původní nerovnosti
Máme: :\frac 1 2 \mathcal I_X(\theta) \ge \frac 1 {2\mathrm{Var}(X_\theta)}\left(\frac {d\mu_\theta}{d\theta}\right)^2, což lze upravit na :\mathrm{Var}(X_\theta) \ge \frac{(d\mu_\theta / d\theta)^2} {\mathcal I_X(\theta)}.