Paretovo rozdělení
Author
Albert FloresPočet obyvatel německých měst (žlutý histogram) lze dobře popsat Paretovým rozdělením (modrá čára). Paretovo rozdělení, pojmenované podle italského ekonoma Vilfreda Pareta (1848-1923), je rodina spojitých rozdělení pravděpodobnosti na nekonečném intervalu [x_{\min},\infty), charakterizovaných dvěma kladnými parametry: exponentem k a minimální hodnotou x_{\min}. Paretovo rozdělení se charakteristicky vyskytuje tam, kde náhodné kladné hodnoty probíhají několik řádů velikosti a jsou výsledkem vlivu mnoha nezávislých faktorů.
Distribuce byla Paretem původně použita k popisu rozdělení příjmů v Itálii. Ve druhém svazku Paretova Kursu politické ekonomie (Cours d'économie politique, 1897) se říká, že počet lidí ve státě, kteří mají příjem vyšší než jistou hodnotu x, je přibližně úměrný 1/x^k, kde parametr k je podle Pareta ve všech zemích někde kolem 1,5. +more Tato specifikace kumulativní distribuční funkce definuje rozdělení pravděpodobnosti pojmenované po Paretovi. Také mnoho dalších empirických distribucí lze dobře popsat jako Paretova rozdělení, například velikosti měst nebo výše škod v pojistné matematice.
Definice
Paretova hustota pravděpodobnosti f(x) s (x min = 1). +more Kumulativní distribuční funkce F(x) Spojitá náhodná proměnná X má Paretovo rozdělení \operatorname{Par}(k,x_{\min}) s parametry k>0 a x_{\min}>0 pokud má hustotu pravděpodobnosti.
: f(x)= \begin{cases}\displaystyle \frac{k x_{\min}^k}{x^{k+1}} & x\geq x_{\min} \\ 0 & x
Číslo x_{\min} je minimální hodnota a zároveň modus (nejčastější hodnota) distribuce, tj. místo maximální hustoty pravděpodobnosti. +more S rostoucí vzdáleností mezi x a x_{\min} klesá pravděpodobnost, že X nabývá hodnotu x. Vzdálenost mezi x a x_{\min} se zde přitom chápe jako poměr mezi těmito dvěma veličinami.
Parametr k je exponent určující, jak rychle zmíněná pravděpodobnost klesá v závislosti na velikosti hodnoty x. S větším k křivka je výrazně strmější, tj. +more náhodná proměnná X nabývá velké hodnoty s menší pravděpodobností, a naopak malé hodnoty k vedou k plochým (platykurtickým) rozdělením s těžkým pravým ohonem.
Pravděpodobnost, že náhodná proměnná X nabude hodnotu menší nebo rovnou x, se stanoví z distribuční funkce F. Pro všechna x \geq x_{\min} tak platí:
: P\left\{X \leq x\right\} = F(x) = \int_{x_{\min}}^{x} f(t) \, dt = 1-\left(\frac{x_{\min}}{x}\right)^{k} .
Z toho plyne pravděpodobnost, že náhodná proměnná X nabude hodnoty větší než x \geq x_{\min}:
: {\rm P}\left\{X > x\right\} = 1-P\left\{X \leq x\right\} = \left(\frac{x_{\min}}{x}\right)^{k} .
Vlastnosti
Střední hodnota
Střední hodnota je:
: \operatorname{E}(X) = \begin{cases}\displaystyle x_{\min} \frac{k}{k-1} & k > 1,\\ \infty & k \leq 1. \end{cases}
Kvantily
Medián
Medián je
: \operatorname{m}(X) = x_{\min} \sqrt[k]{2}\ .
Přezkoumání Paretova principu
Stejným způsobem se získá pro 4. kvintil, který uvádí Paretův princip:
: Q_{0{,}8} = x_{\min} \sqrt[k]{5} .
Střední hodnota \operatorname{E}(X|X>Q_{0{,}8}), omezená na hodnoty větší než 4. kvintil, je pro k>1:
: \operatorname{E}(X|X>Q_{0{,}8}) = x_{\min} \frac{k}{k-1} /5^{(k-1)/k} .
Pro k=1{,}5, což Pareto považuje za typické, to vede k výsledku 1/\sqrt[3]{5}, tj. cca 58 % z celkové očekávané hodnoty. +more Pokud by příjem populace odpovídal Paretově rozdělení s parametrem 1,5, 20 % lidí s nejvyššími příjmy získává pouze 58 % z celkového příjmu - ne 80 %, jak naznačuje Paretův princip. Paretovo pravidlo 80% : 20% přesně platí jen pro k=\log_4 5\approx1{,}16, tedy pro distribuci mnohem plošší, než by naznačovala Paretova typická hodnota k=1{,}5.
Rozptyl
Rozptyl je
: \operatorname{Var} (X) = \begin{cases}\displaystyle x_{\min}^2 \left( \frac{k}{k-2} - \frac{k^2}{(k-1)^2} \right) = x_{\min}^2 \frac{k}{(k-2)(k-1)^2} & k > 2, \\ \infty & 1
Směrodatná odchylka
Pro k > 2 je směrodatná odchylka
: \sigma(X) = \frac{x_{\min}}{k-1} \sqrt{\frac{k}{k-2}}\ .
Variační koeficient
Z očekávané hodnoty a směrodatné odchylky vychází pro k > 2 variační koeficient
: \operatorname{VarK}(X) = \frac{1}{\sqrt{k(k-2)}}\ .
Šikmost
Šikmost je pro k > 3
: \operatorname{v}(X) = \frac{\displaystyle\frac{k}{k-3}-3\frac{k^2}{(k-2)(k-1)}+2\frac{k^3}{(k-1)^3}} {\displaystyle\left(\frac{k}{k-2}-\frac{k^2}{(k-1)^2}\right)^{\frac{3}{2}}} =\frac{2(1+k)}{k-3}\,\sqrt{\frac {k-2}k}\ > 0.
Pro k > 3 je Paretovo rozdělení zešikmené doprava podle definice 3. centrálního momentu. Pro 3 \ge k > 0 třetí moment diverguje, i když distribuce je stále zešikmená.
Momenty
Dále n -tý obecný moment je
: \operatorname{E}(X^n) = \begin{cases}\displaystyle x_{\min}^n \frac{k}{k-n} & k > n,\\ \infty & k \leq n. \end{cases}
Charakteristická funkce
: k(-ix_\mathrm{min}t)^k\Gamma(-k,-ix_\mathrm{min}t)\ .
kde \Gamma je neúplná funkce gama .
Momentová vytvořující funkce
Momentová vytvořující funkce v uzavřené formě pro Paretovo rozdělení neexistuje.
Entropie
Entropie je: \log\left(\frac{k}{x_\text{min}}\right) - \frac{1}{k} - 1\! .
Zipfův zákon
Zipfův zákon je matematicky totožný s Paretovým rozdělením (jen osy x a y se prohodí). Zatímco Paretovo rozdělení se dívá na pravděpodobnost určitých náhodných hodnot, Zipfův zákon se zaměřuje na pravděpodobnost, s jakou náhodné hodnoty zaujímají určitou pozici v pořadí podle frekvence.
: Y(x) = \log(y) = \log(a)+b \log(x).
Identifikace Paretova rozdělení
Velikosti německých obcí a měst na dvojitém logaritmickém papíře To, zda je empirická distribuce přibližně paretovsky rozdělená, lze odhadnout graficky pomocí vynesení empirické distribuční funkce v grafu s logaritmickými stupnicemi na obou osách. +more Pokud jde o paretovská data, budou body ležet zhruba na přímce. Je to proto, že pravděpodobnost {\rm P}\left\{X > x\right\} lze vyjádřit v mocninném tvaru a upravit na.
: {\rm P}\left\{X > x\right\} = \left(\frac{x_{\min}}{x}\right)^{k} = ax^b, \quad \text{kde}\quad a=x_{\min}^k \text{, }\quad b=-k
a po zavedení logaritmického měřítka na ose x, tj. X=\log(x), máme
: Y(X) = \log(a)+b X,
což je přímka se směrnicí b, což je hodnota opačná k parametru k, který se tak dá graficky snadno odhadnout.
Reference
Literatura
Rainer Schlittgen : Einführung in die Statistik. Analyse und Modellierung von Daten. +more 10. přepracované vydání. Oldenbourg Wissenschaftsverlag, Mnichov 2003, ISBN 3-486-27446-5, s. 231, * Karl Mosler, Friedrich Schmid: Wahrscheinlichkeitsrechnung und schließende Statistik. 2. vylepšené vydání. Springer, Berlín a. A. 2006, ISBN 3-540-27787-0, s. 99. * Vilfredo Pareto: Cours d'Économie Politique. 2 svazky. Rouge, Lausanne 1896-1897.