Paretovo rozdělení

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Počet obyvatel německých měst (žlutý histogram) lze dobře popsat Paretovým rozdělením (modrá čára). Paretovo rozdělení, pojmenované podle italského ekonoma Vilfreda Pareta (1848-1923), je rodina spojitých rozdělení pravděpodobnosti na nekonečném intervalu [x_{\min},\infty), charakterizovaných dvěma kladnými parametry: exponentem k a minimální hodnotou x_{\min}. Paretovo rozdělení se charakteristicky vyskytuje tam, kde náhodné kladné hodnoty probíhají několik řádů velikosti a jsou výsledkem vlivu mnoha nezávislých faktorů.

Distribuce byla Paretem původně použita k popisu rozdělení příjmů v Itálii. Ve druhém svazku Paretova Kursu politické ekonomie (Cours d'économie politique, 1897) se říká, že počet lidí ve státě, kteří mají příjem vyšší než jistou hodnotu x, je přibližně úměrný 1/x^k, kde parametr k je podle Pareta ve všech zemích někde kolem 1,5. +more Tato specifikace kumulativní distribuční funkce definuje rozdělení pravděpodobnosti pojmenované po Paretovi. Také mnoho dalších empirických distribucí lze dobře popsat jako Paretova rozdělení, například velikosti měst nebo výše škod v pojistné matematice.

...

Definice

Paretova hustota pravděpodobnosti f(x) s (x min = 1). +more Kumulativní distribuční funkce F(x) Spojitá náhodná proměnná X má Paretovo rozdělení \operatorname{Par}(k,x_{\min}) s parametry k>0 a x_{\min}>0 pokud má hustotu pravděpodobnosti.

: f(x)= \begin{cases}\displaystyle \frac{k x_{\min}^k}{x^{k+1}} & x\geq x_{\min} \\ 0 & x

Číslo x_{\min} je minimální hodnota a zároveň modus (nejčastější hodnota) distribuce, tj. místo maximální hustoty pravděpodobnosti. +more S rostoucí vzdáleností mezi x a x_{\min} klesá pravděpodobnost, že X nabývá hodnotu x. Vzdálenost mezi x a x_{\min} se zde přitom chápe jako poměr mezi těmito dvěma veličinami.

Parametr k je exponent určující, jak rychle zmíněná pravděpodobnost klesá v závislosti na velikosti hodnoty x. S větším k křivka je výrazně strmější, tj. +more náhodná proměnná X nabývá velké hodnoty s menší pravděpodobností, a naopak malé hodnoty k vedou k plochým (platykurtickým) rozdělením s těžkým pravým ohonem.

Pravděpodobnost, že náhodná proměnná X nabude hodnotu menší nebo rovnou x, se stanoví z distribuční funkce F. Pro všechna x \geq x_{\min} tak platí:

: P\left\{X \leq x\right\} = F(x) = \int_{x_{\min}}^{x} f(t) \, dt = 1-\left(\frac{x_{\min}}{x}\right)^{k} .

Z toho plyne pravděpodobnost, že náhodná proměnná X nabude hodnoty větší než x \geq x_{\min}:

: {\rm P}\left\{X > x\right\} = 1-P\left\{X \leq x\right\} = \left(\frac{x_{\min}}{x}\right)^{k} .

Vlastnosti

Střední hodnota

Střední hodnota je:

: \operatorname{E}(X) = \begin{cases}\displaystyle x_{\min} \frac{k}{k-1} & k > 1,\\ \infty & k \leq 1. \end{cases}

Kvantily

Medián

Medián je

: \operatorname{m}(X) = x_{\min} \sqrt[k]{2}\ .

Přezkoumání Paretova principu

Stejným způsobem se získá pro 4. kvintil, který uvádí Paretův princip:

: Q_{0{,}8} = x_{\min} \sqrt[k]{5} .

Střední hodnota \operatorname{E}(X|X>Q_{0{,}8}), omezená na hodnoty větší než 4. kvintil, je pro k>1:

: \operatorname{E}(X|X>Q_{0{,}8}) = x_{\min} \frac{k}{k-1} /5^{(k-1)/k} .

Pro k=1{,}5, což Pareto považuje za typické, to vede k výsledku 1/\sqrt[3]{5}, tj. cca 58 % z celkové očekávané hodnoty. +more Pokud by příjem populace odpovídal Paretově rozdělení s parametrem 1,5, 20 % lidí s nejvyššími příjmy získává pouze 58 % z celkového příjmu - ne 80 %, jak naznačuje Paretův princip. Paretovo pravidlo 80% : 20% přesně platí jen pro k=\log_4 5\approx1{,}16, tedy pro distribuci mnohem plošší, než by naznačovala Paretova typická hodnota k=1{,}5.

Rozptyl

Rozptyl je

: \operatorname{Var} (X) = \begin{cases}\displaystyle x_{\min}^2 \left( \frac{k}{k-2} - \frac{k^2}{(k-1)^2} \right) = x_{\min}^2 \frac{k}{(k-2)(k-1)^2} & k > 2, \\ \infty & 1

Směrodatná odchylka

Pro k > 2 je směrodatná odchylka

: \sigma(X) = \frac{x_{\min}}{k-1} \sqrt{\frac{k}{k-2}}\ .

Variační koeficient

Z očekávané hodnoty a směrodatné odchylky vychází pro k > 2 variační koeficient

: \operatorname{VarK}(X) = \frac{1}{\sqrt{k(k-2)}}\ .

Šikmost

Šikmost je pro k > 3

: \operatorname{v}(X) = \frac{\displaystyle\frac{k}{k-3}-3\frac{k^2}{(k-2)(k-1)}+2\frac{k^3}{(k-1)^3}} {\displaystyle\left(\frac{k}{k-2}-\frac{k^2}{(k-1)^2}\right)^{\frac{3}{2}}} =\frac{2(1+k)}{k-3}\,\sqrt{\frac {k-2}k}\ > 0.

Pro k > 3 je Paretovo rozdělení zešikmené doprava podle definice 3. centrálního momentu. Pro 3 \ge k > 0 třetí moment diverguje, i když distribuce je stále zešikmená.

Momenty

Dále n -tý obecný moment je

: \operatorname{E}(X^n) = \begin{cases}\displaystyle x_{\min}^n \frac{k}{k-n} & k > n,\\ \infty & k \leq n. \end{cases}

Charakteristická funkce

Charakteristická funkce je:

: k(-ix_\mathrm{min}t)^k\Gamma(-k,-ix_\mathrm{min}t)\ .

kde \Gamma je neúplná funkce gama .

Momentová vytvořující funkce

Momentová vytvořující funkce v uzavřené formě pro Paretovo rozdělení neexistuje.

Entropie

Entropie je: \log\left(\frac{k}{x_\text{min}}\right) - \frac{1}{k} - 1\! .

Zipfův zákon

Zipfův zákon je matematicky totožný s Paretovým rozdělením (jen osy x a y se prohodí). Zatímco Paretovo rozdělení se dívá na pravděpodobnost určitých náhodných hodnot, Zipfův zákon se zaměřuje na pravděpodobnost, s jakou náhodné hodnoty zaujímají určitou pozici v pořadí podle frekvence.

: Y(x) = \log(y) = \log(a)+b \log(x).

Identifikace Paretova rozdělení

Velikosti německých obcí a měst na dvojitém logaritmickém papíře To, zda je empirická distribuce přibližně paretovsky rozdělená, lze odhadnout graficky pomocí vynesení empirické distribuční funkce v grafu s logaritmickými stupnicemi na obou osách. +more Pokud jde o paretovská data, budou body ležet zhruba na přímce. Je to proto, že pravděpodobnost {\rm P}\left\{X > x\right\} lze vyjádřit v mocninném tvaru a upravit na.

: {\rm P}\left\{X > x\right\} = \left(\frac{x_{\min}}{x}\right)^{k} = ax^b, \quad \text{kde}\quad a=x_{\min}^k \text{, }\quad b=-k

a po zavedení logaritmického měřítka na ose x, tj. X=\log(x), máme

: Y(X) = \log(a)+b X,

což je přímka se směrnicí b, což je hodnota opačná k parametru k, který se tak dá graficky snadno odhadnout.

Reference

Literatura

Rainer Schlittgen : Einführung in die Statistik. Analyse und Modellierung von Daten. +more 10. přepracované vydání. Oldenbourg Wissenschaftsverlag, Mnichov 2003, ISBN 3-486-27446-5, s. 231, * Karl Mosler, Friedrich Schmid: Wahrscheinlichkeitsrechnung und schließende Statistik. 2. vylepšené vydání. Springer, Berlín a. A. 2006, ISBN 3-540-27787-0, s. 99. * Vilfredo Pareto: Cours d'Économie Politique. 2 svazky. Rouge, Lausanne 1896-1897.

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top