Regresní analýza

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Regresní analýza je označení statistických metod, pomocí nichž odhadujeme hodnotu jisté náhodné veličiny (takzvané závisle proměnné, nazývané též cílová proměnná, regresand anebo vysvětlovaná proměnná) na základě znalosti jiných veličin (nezávisle proměnných, regresorů, kovariát anebo vysvětlujících proměnných).

Regresní analýza dnes patří k nejvýznamnějším metodám matematické statistiky a samostatně či ve spojení s jinými metodami se používá prakticky v každé oblasti empirické a aplikované vědy.

Do statistiky zavedl pojem regrese britský učenec Francis Galton kolem roku 1880, a to jako „regres(i) k průměru. “ Tím označil fakt, že např. +more synové vysokých rodičů jsou sice v průměru (statisticky) vyšší než průměrná populace, zároveň ale individuálně nedosahují extrémních hodnot předchozí generace. Jako kdyby se jedinci postupně „vraceli k průměru. “ Podobně je tomu i s jinými vlastnostmi, nejen u lidí. Galtonův název se z jeho eugenických výzkumů přenosu vlastností mezi generacemi rozšířil na jakékoli zkoumání souvislostí mezi náhodnými veličinami a vznikla statistická regresní analýza. Přitom se však význam pojmu posunul, takže zde může docházet k nedorozuměním.

Různé modely regresivní analýzy se používají v lingvistice při zpracování přirozeného jazyka.

Modely regresivní analýzy

Lineární regrese * Polynomická regrese * Logistická regrese a další

Matematická formulace

Podívejme se nejdříve na případ, kdy závisle proměnná Y je skalár nebo vektor z nějakého lineárního prostoru. V takovém případě bývá úloha regrese obvykle formulována jako úloha hledání podmíněné střední hodnoty jakožto funkce nezávisle proměnných X_1,\cdots,X_p:

:\mathbb{E}(Y|X_1,\cdots,X_p)=f(X_1,\cdots,X_p),

přičemž \mathbb{E} je symbol střední hodnoty (nepřesně řečeno průměru), svislítko „|“ zde můžeme číst jako „se znalostí“ a f je regresní funkce, kterou je třeba odhadnout. Nejčastěji se to děje tak, že se tato funkce předpokládá v nějakém obecném tvaru závislém na neznámých regresních parametrech čili regresních koeficientech, a tyto koeficienty se poté odhadují na základě pozorovaných dat. +more Nejčastějším případem je lineární regresní funkce, což vede na regresní rovnici.

:\mathbb{E}(Y|X_1,\cdots,X_p)=\beta^0 + \sum_{j=1}^p \beta^j X_j

s regresními koeficienty \beta^j. Tomuto důležitému zvláštnímu případu se říká lineární regrese. +more Vedle něj existují i regresní modely podstatně nelineární, například některé typy neuronových sítí.

Druhou základní možností je, že závisle proměnná Y je diskrétní. Například by mohlo jít o situaci, kdy na základě věku a pohlaví zákazníka predikujeme, jaký nápoj si koupí. +more V tomto případě by Y nabývala hodnot z množiny {voda, ovocná limonáda, cola, pivo, víno, tvrdý alkohol}, a není tudíž definována její střední hodnota. Regresní analýza v této situaci se označuje jako diskriminační analýza a jejím úkolem je hledat podmíněné pravděpodobnosti toho, že zkoumaný objekt patří do jednotlivých tříd:.

:p_k(Y|X_1,\cdots,X_p)=f(X_1,\cdots,X_p),

kde p_k je pravděpodobnost, že objekt patří do k-té třídy. Typické metody používané pro řešení úloh tohoto typu jsou Pearsonova lineární diskriminační analýza, logistická regrese a metody z nich odvozené.

Příklady použití

Příkladem uvažování v duchu regresní analýzy z běžného života může být například, odhadujeme-li ráno, jaké bude přes den počasí (regresand) na základě znalosti předpovědi počasí a toho, jaké je venku počasí nyní (dva regresory).

Příklad skutečné regresní analýzy v praxi je odhadování očekávané pooperační délky života pacientů trpících rakovinou. Na základě zkušeností z minulých let, kdy se shromáždily předoperační údaje o zdravotním stavu většího počtu pacientů, například velikost a typ nádorů, věk pacientů apod. +more (regresory) jakož i záznamy o délce života po operaci (regresand), lze pomocí vhodného typu regresní analýzy (v tomto případě obvykle tzv. Coxovy regrese) stanovit vzorec, s jehož pomocí bude možné u nového pacienta na základě znalosti jeho zdravotního stavu odhadnout střední hodnotu očekávané doby přežití v případě operace. Je-li navíc k dispozici podobná analýza pro pacienty léčené konzervativně, lze pak tomuto novému pacientovi doporučit, který způsob léčby mu v dané situaci dává naději na delší přežití.

Odkazy

Reference

Literatura

J. Hanousek - P. Charamza, Moderní metody zpracování dat - matematická statistika pro každého. Praha: Grada 1992

Externí odkazy

[url=http://www. sixsigmafirst. +morecom/regression. htm]Regression Analysis SixSigmaFirst[/url] * [url=https://web. archive. org/web/20060507151227/http://www. ebicom. net/~dhyams/cftp. htm]Curve Expert (shareware)[/url] fits functions to data (limited to one dependant and one independent variable. * [url=https://web. archive. org/web/20190923083507/http://zunzun. com/]Online curve and surface fitting[/url] Online curve and surface fitting * [url=http://www. systat. com]TableCurve2D and TableCurve3D by Systat[/url] automates curve fitting * [url=http://www. math. kent. edu/~blewis/stat/lsq. html]LMS applet[/url] * [url=http://www. softintegration. com/chhtml/lang/lib/libch/numeric/CGI_Curvefit. html]Another choice[/url] * [url=http://curvefit. com/]online curve-fitting textbook[/url].

Kategorie:Statistika Kategorie:Ekonometrie

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top