Multikolinearita
Author
Albert FloresMultikolinearita je statistický pojem, který popisuje situaci, kdy existuje vysoká korelace mezi dvěma nebo více nezávislými proměnnými ve statistické analýze. Toto je problém, protože vysoká korelace mezi proměnnými může způsobit nepřesné výsledky a nespolehlivost statistických modelů. Multikolinearita může nastat při analýze regresních modelů, kdy jsou nezávislé proměnné vzájemně korelované. Tento jev může být detekován pomocí různých statistických testů, jako je například VIF (variance inflation factor). Pokud je multikolinearita přítomna, může být nezbytné přijmout opatření, jako je odebrání některých proměnných, transformace dat nebo přeformulování modelu, aby bylo dosaženo spolehlivějších výsledků.
Multikolinearita je v ekonometrii výraz pro vadu vyskytující se v matici pozorování regresorů X, kdy není splněn jeden z Gauss-Markovových požadavků pro odhad metodou nejmenších čtverců a sice, že matice X nemá plnou hodnost - případ tzv. perfektní multikolinearity, popř. matice pozorování XTX má determinant velmi blízký nule a z toho důvodu lze odhadnout inverzní matici (XTX)−1 pouze za cenu velkých statistických chyb odhadu parametrů v regresním modelu.
Perfektní kolinearita
det (X^T X)^{-1} = 0
Vzniká právě tehdy, pokud jsou sloupce matice X ortogonální (jejich skalární součin je roven nule) nebo pokud je matice X singulární. V praxi není běžná a znamená spíše chybu ve specifikaci modelu.
Multikolinearita
det (X^T X)^{-1} \dot= 0
Příčiny vzniku
# Makroúdaje často vykazují stejné přírůstky za určité období a vyvíjí se stejným směrem # Použití zpožděné proměnné # V důsledku neexperimentálního charakteru dat může multikolinearita objevit i v průřezových datech # Při použití nula-jednotkových proměnných při špatné specifikaci modelu
Důsledky
# Ve statistickém výběru pozorování jsou velké standardní chyby sbj # Silná náchylnost odhadnutého vektoru parametrů b na malé změny v matici X # Vznik pochybností o modelu # Koeficient vícenásobné determinace R vyjde blízko 1 a současně jsou t-testy odhadnutých parametrů statisticky nevýznamné
Měření multikolinearity
Regrese u modelu s max. dvěma regresory a úrovňovou konstantou
Použití párových korelačních koeficientů R_{X_i , X_j} a pokud je R_{X_i , X_j} \geq 0.8, pak předpokládáme multikolinearitu.
Vícenásobná regrese - k > 3
Použijeme metodu tzv. pomocných regresí, kdy vybereme j-tou exogenní proměnnou a vyjádříme ji zbylými k - 1 exogenními proměnnými.
X_j = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_{k-1} X_{k-1}
Spočteme následně koeficient vícenásobné determinace modelu R2. Pokud je R2 blízký 1, pak usuzujeme na existenci kolinearity. +more Pro potvrzení výsledku můžeme použít statistický F-test založený na testování významnosti celého modelu pomocné regrese.
Empirické pravidlo pro rozpoznání významné multikolinearity je, že pokud je R^{2} , kde R^{2} je koeficient vícenásobné determinace modelu a R_j{}^{2} je koeficient vícenásobné determinace j-té pomocné regrese, pak usuzujeme na významnou multikolinearitu.
Farrar - Glauberův test
Farrar navrhuje sestavit matici (X^{*T}X^*) = R = \begin{pmatrix} r_{11} & r_{12} & \dots & r_{1k}\\ r_{21} & r_{22} & \dots & r_{2k}\\ \vdots & \vdots & \ddots & \vdots \\r_{k1} & r_{k2} & \dots & r_{kk}\\ \end{pmatrix} kde r_{jh} = r_{hj} jsou párové korelační koeficienty mezi proměnnými matice X normovanými podle vzorce: x_{ji}^* = \frac{x_{ji} - \bar{x_{j}}} {s_{b_{j}} / \sqrt{n}}
Je zřejmé, že 0 \leq det R \leq 1.
Pokud je determinant matice R roven jedné, jsou sloupce matice X nekorelované. Pokud je determinant roven 0, jedná se o perfektní multikolinearitu. +more Neexistuje však test statistické významnosti, jež by ukazoval, jaká hodnota det R je již "dostatečně" malá, abychom mohli soudit, že existuje statisticky významná multikolinearita. Z toho lze usoudit, že použití tohoto postupu je pouze aproximativní a na multikolinearitu ukazují až hodnoty blízko nule. [1].
Postup při existenci silné multikolinearity
# zvětšit počet pozorování # využití apriorních omezení z ekonomické teorie (které vyústí např. ve sloučení dvou proměnných) # vypuštění nedominantní závislé proměnné # použití tzv. +more smíšeného odhadu - využití jak průřezových, tak časových dat # normování proměnných - např. užití prvních diferencí, centrování apod.
Reference
[1] Hušek R., Ekonometrická analýza, Praha, 2007, nakladatelství Oeconomica, str. 98
Příbuzná témata
Literatura
Hušek, R. Ekonometrická analýza, Praha, 2007, nakladatelství Oeconomica,