Korelace

Technology

12 hours ago

Author

Korelace (z lat. souvztažnost) znamená vzájemný vztah mezi dvěma náhodnými procesy nebo náhodnými veličinami. Pokud se jedna z náhodných veličin mění, mění se i druhá a naopak. Pokud se mezi dvěma náhodnými procesy identifikuje korelace, je pravděpodobné, že na sobě závisejí. Z korelovanosti náhodných procesů nebo náhodných veličin však nelze usuzovat na příčinný vztah. Tedy jeden z nich nemusí být příčinou a druhý následkem. Toto samotná korelace nedovoluje rozhodnout, jelikož korelace neimplikuje kauzalitu a ani směr kauzality.

Ve statistice se pojem korelace užívá pro vyjádření lineárního vztahu mezi náhodnými veličinami X a Y. Sílu korelace pak vyjadřuje korelační koeficient, který nabývá hodnoty −1 až +1.

Korelace ve statistice

+more1|vpravo'>Na obrázku je několik příkladů grafického zobrazení dat a koeficienty jejich korelace s funkcí y = x Vztah mezi znaky či náhodnými veličinami X a Y může být kladný, pokud (přibližně) platí Y = kX, nebo záporný (Y = -kX). Hodnota korelačního koeficientu −1 značí zcela nepřímou závislost (antikorelaci), tedy čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků, např. vztah mezi uplynulým a zbývajícím časem. Hodnota korelačního koeficientu +1 značí zcela přímou závislost, např. vztah mezi rychlostí bicyklu a frekvencí otáček kola bicyklu. Pokud je korelační koeficient roven 0 (nekorelovanost), pak mezi znaky není žádná statisticky zjistitelná lineární závislost. Je dobré si uvědomit, že i při nulovém korelačním koeficientu na sobě veličiny mohou záviset, pouze tento vztah nelze vyjádřit lineární funkcí (např. Y=X^2 ), a to ani přibližně.

Pearsonův korelační koeficient

Pearsonův korelační koeficient je definován, pokud jsou druhé mocniny náhodných veličin X a Y E(X^2),E(Y^2) konečné a jejich rozptyly nenulové. Vypočte se normováním kovariance tak, že ji podělíme směrodatnými odchylkami obou proměnných na bezrozměrné číslo nabývající hodnoty -1 až 1:

:\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}

Jelikož \mu_X = E(X) , \sigma^2_X = E(X^2) - E^2(X) a obdobně pro Y, lze výše uvedený vzorec upravit do přehlednějšího výpočetního tvaru:

:\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}~\sqrt{E(Y^2)-E^2(Y)}}

Korelační koeficient nabývá hodnot z intervalu \langle -1,1\rangle. Při nezávislosti náhodných veličin X a Y je korelační koeficient roven 0. +more Nulový korelační koeficient však neznamená, že jsou náhodné veličiny X a Y nezávislé. Nulový korelační koeficient má například dvojice náhodných veličin X a Y=X^2.

Tuto míru asociace jako první odvodil anglický psycholog a antropolog sir Francis Galton.

Existují nicméně i jiné koeficienty asociace, například Spearmanovo rhó či Kendallovo tau pro ordinální (pořadová) data.