Vícerozměrná náhodná proměnná
Author
Albert FloresVícerozměrná náhodná proměnná nebo náhodný vektor je v teorii pravděpodobnosti a statistice seznam matematických proměnných, jehož žádná hodnota není známa, buď protože zatím nebyla pozorována, nebo protože její hodnotu neznáme přesně. Jednotlivé proměnné jsou sdružené v náhodném vektoru, protože tvoří části jednoho matematického systému - často reprezentují různé vlastnosti určité statistické jednotky. Pokud například chceme zachytit, že každá osoba má určitý věk, výšku a hmotnost, lze tyto vlastnosti blíže neurčené osoby z určité skupiny reprezentovat náhodným vektorem. Prvky náhodných vektorů jsou obvykle reálná čísla.
Náhodné vektory se často používají jako podkladová implementace různých typů agregátů náhodných proměnných, například náhodných matic, náhodných stromů, náhodných posloupností, náhodných procesů apod.
Formálněji vícerozměrná náhodná proměnná je sloupcový vektor \mathbf{X}=(X_1,...,X_n)^T (nebo řádkový vektor, který je jeho transpozicí), jehož složkami jsou skalární náhodné proměnné, všechny na stejném pravděpodobnostním prostoru (\Omega, \mathcal{F}, P), kde \Omega je prostor elementárních jevů, \mathcal{F} je sigma algebra (kolekce všech událostí) a P je pravděpodobnostní míra (funkce vracející pravděpodobnost každé události).
Pravděpodobnost rozdělení
Hodnoty náhodného vektoru vytváří pravděpodobnostní míru na \mathbb{R}^n s borelovskou algebrou jako podkladovou sigma-algebrou, která definuje sdružené rozdělení pravděpodobnosti, sdružené rozdělení nebo vícerozměrné rozdělení náhodného vektoru.
Rozdělení pravděpodobnosti každé složky náhodného vektoru X_i se nazývají marginální rozdělení. Podmíněné rozdělení pravděpodobnosti X_i pro dané X_j je rozdělení pravděpodobnosti X_i, je-li X_j známé, aby byla určitý hodnota.
Distribuční funkce F_{\mathbf{X}} : \mathbb{R}^n \mapsto \langle 0, 1\rangle náhodného vektoru \mathbf{X}=(X_1,...,X_n)^T je definována jako
{{Rámeček|{{Vzorec|F_{\mathbf{X}}(\mathbf{x}) = \operatorname{P}(X_1 \leq x_1,\ldots,X_n \leq x_n)|1}} | šířka = 6 | rámeček = #0073CF | barva =#F5FFFA|popisek=}}
kde \mathbf{x} = (x_1,...,x_n)^T.
Operace s náhodnými vektory
S náhodnými vektory lze provádět stejné algebraické operace jako s obyčejnými vektory: sčítání, odčítání, násobení skalárem a skalární součin.
Afinní transformace
Podobně nový náhodný vektor \mathbf{Y} lze definovat aplikací afinní transformace g\colon \mathbb{R}^n \to \mathbb{R}^n na náhodný vektor \mathbf{X}:
:\mathbf{Y}=\mathcal{A}\mathbf{X}+b, kde \mathcal{A} je matice n \times n a b je sloupcový vektor n \times 1.
Pokud \mathcal{A} je invertovatelná matice a \textstyle\mathbf{X} má hustotu pravděpodobnosti f_{\mathbf{X}}, pak hustota pravděpodobnosti \mathbf{Y} je
:f_{\mathbf{Y}}(y)=\frac{f_{\mathbf{X}}(\mathcal{A}^{-1}(y-b))}
\det\mathcal{A} |
---|
Invertovatelná zobrazení
Obecněji můžeme studovat invertovatelná zobrazení náhodných vektorů.
Nechť g je bijektivní zobrazení z otevřené podmnožiny \mathcal{D} \subseteq \mathbb{R}^n na podmnožinu \mathcal{R} \subseteq \mathbb{R}^n, nechť g má spojité parciální derivace v \mathcal{D} a nechť Jacobián g není nulový v žádném bodě \mathcal{D}. Předpokládejme, že reálný náhodný vektor \mathbf{X} má hustotu pravděpodobnosti f_{\mathbf{X}}(\mathbf{x}) a vyhovuje P(\mathbf{X} \in \mathcal{D}) = 1. +more Pak náhodný vektor \mathbf{Y}=g(\mathbf{X}) má hustotu pravděpodobnosti.
:\left. f_{\mathbf{Y}}(\mathbf{y})=\frac{f_{\mathbf{X}}(\mathbf{x})}{\left |\det\frac{\partial g(\mathbf{x})}{\partial \mathbf{x}}\right |} \right |_{\mathbf{x}=g^{-1}(\mathbf{y})} \mathbf{1}(\mathbf{y} \in R_\mathbf{Y})
kde \mathbf{1} označuje charakteristickou funkci a množina R_\mathbf{Y} = \{ \mathbf{y} = g(\mathbf{x}): f_{\mathbf{X}}(\mathbf{x}) > 0 \} \subseteq \mathcal{R} označuje nosič \mathbf{Y}.
Střední hodnota
Střední hodnota nebo očekávaná hodnota náhodného vektoru \mathbf{X} je pevný vektor \operatorname{E}[\mathbf{X}], jehož prvky jsou střední hodnoty příslušné náhodné proměnné.
{{Rámeček|{{Vzorec|\operatorname{E}[\mathbf{X}] = (\operatorname{E}[X_1],...,\operatorname{E}[X_n])^{\mathrm T} |2}} | šířka = 6 | rámeček = #0073CF | barva =#F5FFFA|popisek=}}
Kovariance a křížová kovariance
Definice
Kovarianční matice (také nazývaná druhý centrální moment) náhodného vektoru n \times 1 je matice, n \times n jejíž prvek (i,j) je kovariance mezi i-tou a j-tou náhodnou proměnnou. Kovarianční matice je střední hodnota, prvek po prvku, matice n \times n vypočítané jako [\mathbf{X}-\operatorname{E}[\mathbf{X}]][\mathbf{X}-\operatorname{E}[\mathbf{X}]]^T, kde horní index T je transpozice vektoru:
{{Rámeček|{{Vzorec|\operatorname{K}_{\mathbf{X}\mathbf{X}} = \operatorname{Var}[\mathbf{X}]=\operatorname{E}[(\mathbf{X}-\operatorname{E}[\mathbf{X}])(\mathbf{X}-\operatorname{E}[\mathbf{X}])^{T}] = \operatorname{E}[\mathbf{X} \mathbf{X}^T] - \operatorname{E}[\mathbf{X}]\operatorname{E}[\mathbf{X}]^T|3}} | šířka = 6 | rámeček = #0073CF | barva =#F5FFFA|popisek=}}
Rozšířením křížová kovarianční matice mezi dvěma náhodnými vektory \mathbf{X} a \mathbf{Y} (\mathbf{X} s n prvky a \mathbf{Y} s p prvky) je matice n \times p
{{Rámeček|{{Vzorec|\operatorname{K}_{\mathbf{X}\mathbf{Y}} = \operatorname{Cov}[\mathbf{X},\mathbf{Y}]=\operatorname{E}[(\mathbf{X}-\operatorname{E}[\mathbf{X}])(\mathbf{Y}-\operatorname{E}[\mathbf{Y}])^{T}] = \operatorname{E}[\mathbf{X} \mathbf{Y}^T] - \operatorname{E}[\mathbf{X}]\operatorname{E}[\mathbf{Y}]^T|4}} | šířka = 6 | rámeček = #0073CF | barva =#F5FFFA|popisek=}}
kde střední hodnota matice se opět bere po složkách. Prvek (i,j) je kovariance mezi i-tým prvkem \mathbf{X} a j-tým prvkem \mathbf{Y}.
Vlastnosti
Kovarianční matice je symetrická matice, tj.. :\operatorname{K}_{\mathbf{X}\mathbf{X}}^T = \operatorname{K}_{\mathbf{X}\mathbf{X}}.
Kovarianční matice je kladně semidefinitní matice, i. e. +more :\mathbf{a}^T \operatorname{K}_{\mathbf{X}\mathbf{X}} \mathbf{a} \ge 0 \quad \forall \mathbf{a} \in \mathbb{R}^n.
Křížová kovarianční matice \operatorname{Cov}[\mathbf{Y},\mathbf{X}] je transpozicí matice \operatorname{Cov}[\mathbf{X},\mathbf{Y}], tj. :\operatorname{K}_{\mathbf{Y}\mathbf{X}} = \operatorname{K}_{\mathbf{X}\mathbf{Y}}^T.
Nekorelovanost
Dva náhodné vektory \mathbf{X}=(X_1,. ,X_m)^T a \mathbf{Y}=(Y_1,. +more,Y_n)^T se nazývají nekorelované, pokud :\operatorname{E}[\mathbf{X} \mathbf{Y}^T] = \operatorname{E}[\mathbf{X}]\operatorname{E}[\mathbf{Y}]^T.
Jsou nekorelované právě tehdy, když jejich křížová kovarianční matice \operatorname{K}_{\mathbf{X}\mathbf{Y}} je nulová.
Korelace a křížová korelace
Definice
Autokorelační matice (také nazývaná druhý moment) náhodného vektoru n \times 1 je matice n \times n, jejíž prvek (i,j) je korelace mezi náhodnými proměnnými i th a j th. Korelační matice je očekávaná hodnota, prvek po prvku, matice n \times n vypočítané jako \mathbf{X} \mathbf{X}^T, kde horní index T znamená transpozici příslušného vektoru:
{{Rámeček|{{Vzorec |\operatorname{R}_{\mathbf{X}\mathbf{X}} = \operatorname{E}[\mathbf{X} \mathbf{X}^{\mathrm T}]|5}} | šířka = 6 | rámeček = #0073CF | barva =#F5FFFA|popisek=}}
Rozšířením křížové korelační matice mezi dvěma náhodnými vektory \mathbf{X} a \mathbf{Y} (\mathbf{X} s n prvky a \mathbf{Y} s p prvky) je matice n \times p
{{Rámeček|{{Vzorec |\operatorname{R}_{\mathbf{X}\mathbf{Y}} = \operatorname{E}[\mathbf{X} \mathbf{Y}^T]|6}} | šířka = 6 | rámeček = #0073CF | barva =#F5FFFA|popisek=}}
Vlastnosti
Korelační matice má souvislost s kovarianční matice by :\operatorname{R}_{\mathbf{X}\mathbf{X}} = \operatorname{K}_{\mathbf{X}\mathbf{X}} + \operatorname{E}[\mathbf{X}]\operatorname{E}[\mathbf{X}]^T. Podobně pro křížová korelace matice a křížová kovarianční matice: :\operatorname{R}_{\mathbf{X}\mathbf{Y}} = \operatorname{K}_{\mathbf{X}\mathbf{Y}} + \operatorname{E}[\mathbf{X}]\operatorname{E}[\mathbf{Y}]^T
Ortogonalita
Dva náhodné vektory stejné velikosti \mathbf{X}=(X_1,...,X_n)^T a \mathbf{Y}=(Y_1,...,Y_n)^T se nazývají ortogonální, jestliže :\operatorname{E}[\mathbf{X}^T \mathbf{Y}] = 0.
Nezávislost
Dva náhodné vektory \mathbf{X} a \mathbf{Y} se nazývají nezávislé, jestliže pro všechny \mathbf{x} a \mathbf{y} :F_{\mathbf{X,Y}}(\mathbf{x,y}) = F_{\mathbf{X}}(\mathbf{x}) \cdot F_{\mathbf{Y}}(\mathbf{y}) kde F_{\mathbf{X}}(\mathbf{x}) a F_{\mathbf{Y}}(\mathbf{y}) značí kumulativní rozdělení funkce \mathbf{X} a \mathbf{Y} aF_{\mathbf{X,Y}}(\mathbf{x,y}) označuje jejich sdružené distribuční funkce. Nezávislost \mathbf{X} a \mathbf{Y} se často značí \mathbf{X} \perp\. +more\. \. \perp \mathbf{Y}. Rozepsáno po složkách, o \mathbf{X} a \mathbf{Y} říkáme, že jsou nezávislé, pokud pro všechny x_1,\ldots,x_m,y_1,\ldots,y_n :F_{X_1,\ldots,X_m,Y_1,\ldots,Y_n}(x_1,\ldots,x_m,y_1,\ldots,y_n) = F_{X_1,\ldots,X_m}(x_1,\ldots,x_m) \cdot F_{Y_1,\ldots,Y_n}(y_1,\ldots,y_n).
Charakteristická funkce
Charakteristická funkce náhodného vektoru \mathbf{X} s n složkami je funkce \mathbb{R}^n \to \mathbb{C} které převádí každý vektor \mathbf{\omega} = (\omega_1,\ldots,\omega_n)^T na složitý rumber. je definovaný by
: \varphi_{\mathbf{X}}(\mathbf{\omega}) = \operatorname{E} \left [ e^{i(\mathbf{\omega}^T \mathbf{X})} \right ] = \operatorname{E} \left [ e^{i( \omega_1 X_1 + \ldots + \omega_n X_n)} \right ].
Další vlastnosti
Střední kvadratická forma
Střední hodnotu kvadratické formy můžeme vyjádřit náhodným vektorem \mathbf{X} takto:
:\operatorname{E}[\mathbf{X}^{T}A\mathbf{X}] = \operatorname{E}[\mathbf{X}]^{T}A\operatorname{E}[\mathbf{X}] + \operatorname{tr}(A K_{\mathbf{X}\mathbf{X}}),
kde K_{\mathbf{X}\mathbf{X}} je kovarianční matice \mathbf{X} a \operatorname{tr} je stopa matice - tj. součet prvků na její hlavní diagonále (shora zleva dolů doprava). +more Protože kvadratická forma je skalární, bude skalár i její střední hodnota.
Důkaz: Nechť \mathbf{z} jsou náhodný vektor m \times 1 s \operatorname{E}[\mathbf{z}] = \mu a \operatorname{Cov}[\mathbf{z}]= V a nechť A je nestochastická matice m \times m.
Pak podle vzorce pro kovarianci, jestliže označíme \mathbf{z}^T = \mathbf{X} a \mathbf{z}^T A^T = \mathbf{Y}, vidíme, že:
:\operatorname{Cov}[\mathbf{X},\mathbf{Y}] = \operatorname{E}[\mathbf{X}\mathbf{Y}^T]-\operatorname{E}[\mathbf{X}]\operatorname{E}[\mathbf{Y}]^T
Tudíž
:\begin{align} \operatorname{E}[XY^T] &= \operatorname{Cov}[X,Y]+\operatorname{E}[X]\operatorname{E}[Y]^T \\ \operatorname{E}[z^T Az] &= \operatorname{Cov}[z^T,z^T A^T] + \operatorname{E}[z^T]\operatorname{E}[z^T A^T ]^T \\ &=\operatorname{Cov}[z^T , z^T A^T] + \mu^T (\mu^T A^T)^T \\ &=\operatorname{Cov}[z^T , z^T A^T] + \mu^T A \mu , \end{align}
nyní zbývá pouze ukázat, že
:\operatorname{Cov}[z^T , z^T A^T ]=\operatorname{tr}(AV).
To je splněno díky tomu, že můžeme cyklicky permutovat matici bez změny konečného výsledku (např.: \operatorname{tr}(AB) = \operatorname{tr}(BA)).
Vidíme, že
:\begin{align} \operatorname{Cov}[z^T,z^T A^T] &= \operatorname{E} \left[\left(z^T - E(z^T) \right)\left(z^T A^T - E\left(z^T A^T \right) \right)^T \right] \\ &= \operatorname{E} \left[ (z^T - \mu^T) (z^T A^T - \mu^T A^T )^T \right]\\ &= \operatorname{E} \left[ (z - \mu)^T (Az - A\mu) \right]. \end{align}
Protože
:\left( {z - \mu } \right)^T \left( {Az - A\mu } \right)
je skalár, pak
:(z - \mu)^T ( Az - A\mu)= \operatorname{tr}\left( {(z - \mu )^T (Az - A\mu )} \right) = \operatorname{tr} \left((z - \mu )^T A(z - \mu ) \right)
triviálně. Při použití permutace dostaneme:
:\operatorname{tr}\left( {(z - \mu )^T A(z - \mu )} \right) = \operatorname{tr}\left( {A(z - \mu )(z - \mu )^T} \right),
a dosazením do původní formule dostaneme:
:\begin{align} \operatorname{Cov} \left[ {z^T,z^T A^T} \right] &= E\left[ {\left( {z - \mu } \right)^T (Az - A\mu)} \right] \\ &= E \left[ \operatorname{tr}\left( A(z - \mu )(z - \mu )^T \right) \right] \\ &= \operatorname{tr} \left( {A \cdot \operatorname{E} \left((z - \mu )(z - \mu )^T \right) } \right) \\ &= \operatorname{tr} (A V). \end{align}
Střední hodnota součinu dvou různých kvadratických forem
Můžeme vzít střední hodnotu součinu ze dvou různý kvadratických forem náhodný vektor \mathbf{X} ve vícerozměrném normálním rozdělení s nulovou střední hodnotou takto:
:\operatorname{E}\left[(\mathbf{X}^{T}A\mathbf{X})(\mathbf{X}^{T}B\mathbf{X})\right] = 2\operatorname{tr}(A K_{\mathbf{X}\mathbf{X}} B K_{\mathbf{X}\mathbf{X}}) + \operatorname{tr}(A K_{\mathbf{X}\mathbf{X}})\operatorname{tr}(B K_{\mathbf{X}\mathbf{X}})
kde opět K_{\mathbf{X}\mathbf{X}} je kovarianční matice \mathbf{X}. Opět, protože obě kvadratické formy jsou skaláry a tedy jejich součin je skalár, střední hodnota jejich součinu je také skalární.
Aplikace
Teorie portfolia
V teorii portfolia ve finančnictví často slouží účelová funkce k výběru portfolia rizikového majetku tak, aby rozdělení výnosu náhodného portfolia mělo požadované vlastnosti. Můžeme například chtít vybrat výnos portfolia, který bude mít nejnižší rozptyl pro danou střední hodnotu. +more Náhodný vektor je zde vektor \mathbf{r} náhodných výnosů z určitého majetku a výnos portfolia p (náhodná skalární hodnota) je skalárním součinem vektoru náhodných výnosů s vektorem w vah portfolia - části portfolia alokovaného na příslušný majetek. Protože p = wT\mathbf{r}, střední hodnota výnosu portfolia je wTE(\mathbf{r}) a rozptyl výnosu portfolia bude wTCw, kde C je kovarianční matice \mathbf{r}.
Teorie regrese
V teorii lineární regrese máme data z n pozorování závislé proměnné y a n pozorování každé z k nezávislých proměnných xj. Pozorování závislých proměnných jsou uspořádána do sloupcového vektoru y; pozorování každé nezávislé proměnné jsou uspořádána do sloupcových vektorů, které tvoří regresní matici X (neznamenající v tomto kontextu náhodný vektor) pozorování nezávislé proměnné. +more Pak následující regresní rovnice prohlásíme za popis procesu, který generoval data:.
:y = X \beta + e,
kde β je pevný, ale neznámý vektor k koeficientů odezvy a e je neznámý náhodný vektor odrážející náhodné vlivy na závislou proměnnou. Nějakou zvolenou technikou jako například pomocí obyčejných nejmenších čtverců dostaneme vektor \hat \beta, který je odhadem β, pomocí něhož vypočítáme \hat e, odhad vektoru e
:\hat e = y - X \hat \beta.
Statistik pak musí analyzovat vlastnosti \hat \beta a \hat e, na které pohlížíme jako na náhodné vektory, protože náhodný výběr n pozorovaných případů způsobuje, že budou mít různé hodnoty.
Vektorová časová řada
Vývoj náhodného vektoru k×1 \mathbf{X} v čase lze modelovat jako vektorovou autoregresi (VAR) takto:
:\mathbf{X}_t = c + A_1 \mathbf{X}_{t-1} + A_2 \mathbf{X}_{t-2} + \cdots + A_p \mathbf{X}_{t-p} + \mathbf{e}_t, \,
kde vektor pozorování \mathbf{X}_{t-i} o i period zpět se nazývá i-té zpoždění \mathbf{X}, c je k × 1 vektor konstant, Ai je časově invariantní matice k × k a \mathbf{e}_t je náhodný vektor k × 1 chybových členů.