Viterbiho algoritmus
Author
Albert FloresViterbiho algoritmus je algoritmus dynamického programování pro hledání/nalezení nejpravděpodobnější posloupnosti skrytých stavů - nazývané Viterbiho cesta - jehož výsledkem je posloupnost pozorovaných událostí, především v kontextu Markovových informačních zdrojů a skrytých Markovových modelů.
Pojmy „Viterbiho cesta“ a „Viterbiho algoritmus“ se používají i pro další podobné algoritmy dynamického programování, které hledají nejpravděpodobnější vysvětlení určitého pozorování. Například algoritmus dynamického programování pro statistické parsování lze použít na hledání nejpravděpodobnějšího bezkontextového odvození (parse) řetězce, který se někdy nazývá „Viterbiho odvození“.
Algoritmus navrhl Andrew Viterbi v roce 1967 pro dekódování konvolučních kódů na digitálních komunikačních linkách se šumem. Od té doby se používá při dekódování konvolučních kódů používaných v mobilních sítích CDMA a GSM i v běžných telefonních modemech, pro komunikaci se satelity a kosmickými sondami do vzdáleného vesmíru, i v bezdrátových sítích podle standardu +more11'>802. 11. Často se používá i při rozpoznávání a syntéze řeči, v počítačové lingvistice, pro vyhledávání klíčových slov a v bioinformatice. Například při rozpoznávání řeči se zvukový signál považuje za pozorovanou posloupnost událostí, a textový řetězec za „skrytou příčinu“ zvukového signálu. Viterbiho algoritmus hledá nejpravděpodobnější řetězec textu k danému zvukovému signálu.
Algoritmus
Předpokládejme, že je dán skrytý Markovův model (HMM) se stavovým prostorem S, pravděpodobnostmi \pi_i začátku ve stavu i (počáteční pravděpodobnosti), pravděpodobnostmi a_{i, j} pro přechod ze stavu i do stavu j (přechodové pravděpodobnosti). Pokud pozorujeme výstupní posloupnost y_1, \dots, y_T, pak nejpravděpodobnější posloupnost stavů x_1, \dots, x_T, která produkuje pozorovaný výstup, je dána rekurentními vztahy: : \begin{array}{rcl} V_{1,k} &=& \mathrm{P}\big( y_1 \ | \ k \big) \cdot \pi_k \\ V_{t,k} &=& \mathrm{P}\big( y_t \ | \ k \big) \cdot \max_{x \in S} \left( a_{x,k} \cdot V_{t-1,x}\right) \end{array}
kde V_{t,k} je pravděpodobnost nejpravděpodobnější posloupnosti stavů odpovědné za prvních t pozorování, jejíž koncový stav je k. Pro získání Viterbiho cesty lze používat zpětné ukazatele, které zachycují, jaký stav x byl použit ve druhé rovnici. +more Nechť \mathrm{Ptr}(k,t) je funkce, která vrací hodnotu x použitou pro výpočet V_{t,k} pokud t > 1, nebo k pokud t=1. Pak:.
: \begin{array}{rcl} x_T &=& \arg\max_{x \in S} (V_{T,x}) \\ x_{t-1} &=& \mathrm{Ptr}(x_t,t) \end{array}
(používáme standardní definici arg max).
Složitost tohoto algoritmu je O(T\times\left|{S}\right|^2).
Pseudokód
Pokud je dán prostor pozorování O=\{o_1,o_2,\dots,o_N\}, stavový prostor S=\{s_1,s_2,\dots,s_K\} , posloupnost pozorování Y=\{y_1,y_2,\ldots, y_T\} , matice přechodů A velikosti K\times K tak, že A_{ij} obsahuje přechodovou pravděpodobnost přechodu ze stavu s_i do stavu s_j, výstupní matice B velikosti K\times N taková, že B_{ij} obsahuje pravděpodobnosti pozorování o_j ze stavu s_i, pole počátečních pravděpodobností \pi velikosti K takové, že \pi_i obsahuje pravděpodobnost, že x_1 == s_i . Nechť posloupnost X=\{x_1,x_2,\ldots,x_T\} je cestou, která generuje pozorování Y=\{y_1,y_2,\ldots, y_T\} .
V tomto problému dynamického programování vytváříme dvě dvourozměrné tabulky T_1, T_2 velikosti K\times T. Každý prvek T_1, T_1[i,j], obsahuje pravděpodobnost zatím nejpravděpodobnější cesty \hat{X}=\{\hat{x}_1,\hat{x}_2,\ldots,\hat{x}_j\} s \hat{x}_j=s_i , která generuje Y=\{y_1,y_2,\ldots, y_j\}. +more Každý prvek T_2 , T_2[i,j] , obsahuje \hat{x}_{j-1} zatím nejpravděpodobnější cesty \hat{X}=\{\hat{x}_1,\hat{x}_2,\ldots,\hat{x}_{j-1},\hat{x}_j\} pro každé j, 2\leq j \leq T .
Naplníme položky dvou tabulek T_1[i,j],T_2[i,j] rostoucí posloupností K\cdot j+i .
:T_1[i,j]=\max_{k}{(T_1[k,j-1]\cdot A_{ki}\cdot B_{iy_j})} , a : T_2[i,j]=\arg\max_{k}{(T_1[k,j-1]\cdot A_{ki}\cdot B_{iy_j})}
VSTUP: Prostor pozorování O=\{o_1,o_2,\dots,o_N\}, stavový prostor S=\{s_1,s_2,\dots,s_K\} , posloupnost pozorování Y=\{y_1,y_2,\ldots, y_T\} taková, že y_t==i pokud pozorování v čase t je o_i , matice přechodů A velikosti K\cdot K tak, že A_{ij} obsahuje přechodovou pravděpodobnost přechodu ze stavu s_i do stavu s_j , emission matrix B velikosti K\cdot N tak, že B_{ij} obsahuje pravděpodobnost pozorování o_j ze stavu s_i , pole počátečních pravděpodobností \pi velikosti K takové, že \pi_i obsahuje pravděpodobnost, že x_1 == s_i VÝSTUP: Nejpravděpodobnější skrytá posloupnost stavů X=\{x_1,x_2,\ldots,x_T\} A01 function VITERBI(O, S, π, Y, A, B): X A02 for each state si do A03 T1[i,1]←πi\cdotBiy_1 A04 T2[i,1]←0 A05 end for A06 for i←2,3,. ,T do A07 for each state sj do A08 T1[j,i]←\max_{k}{(T_1[k,i-1]\cdot A_{kj}\cdot B_{jy_i})} A09 T2[j,i]←\arg\max_{k}{(T_1[k,i-1]\cdot A_{kj}\cdot B_{jy_i})} A10 end for A11 end for A12 zT←\arg\max_{k}{(T_1[k,T])} A13 xT←szT A14 for i←T,T-1,. +more,2 do A15 zi-1←T2[zi,i] A16 xi-1←szi-1 A17 end for A18 return X A19 end function.
Příklad
Představte si lékaře, který má pečovat o ženu císaře trpící neustále se vracející nemocí. Projevy nemoci lze léčit; tato léčba je nepříjemná, ale nemocné uleví. +more Problém je, že lékař císařovnu nemůže sám vyšetřit, dostává pouze každý třetí den lísteček s informací, jak se císařovna cítí (výborně, slabě, na umření). Na základě těchto informací má lékař posoudit, zda je císařovna zdravá nebo nemocná a má být podrobena léčbě.
Lékař se domnívá, že zdravotní stav císařovny se chová jako diskrétní Markovův řetězec. Situaci, kdy lékař nemůže přímo zkoumat zdravotní stav císařovny, lze popsat jako skrytý Markovův model (HMM).
Lékař ví, jaká je pravděpodobnost nemoci císařovny a jak pravděpodobně se cítí, když je zdravá nebo nemocná. Jinak řečeno parametry HMM jsou známé. +more Mohou být reprezentovány následujícím programem v jazyce Python:.
states = ('Zdravá', 'Nemocná')
observations = ('výborně', 'slabě', 'na umření')
start_probability = {'Zdravá': 0.6, 'Nemocná': 0.4}
transition_probability = { 'Zdravá' : {'Zdravá': 0.7, 'Nemocná': 0.3}, 'Nemocná' : {'Zdravá': 0.4, 'Nemocná': 0.6}, }
emission_probability = { 'Zdravá' : {'výborně': 0.5, 'slabě': 0.4, 'na umření': 0.1}, 'Nemocná' : {'výborně': 0.1, 'slabě': 0.3, 'na umření': 0.6}, }
V tomto kusu kódu start_probability reprezentuje lékařovo přesvědčení, v jakém stavu je HMM, když dostal první zprávu o tom, jak se císařovna cítí (jediné, co ví, je, že je častěji zdravá). Zde použité rozložení pravděpodobnosti není vyvážené; podle přechodové pravděpodobnosti by bylo přibližně {'Zdravá': 0. +more57, 'Nemocná': 0. 43}. transition_probability reprezentuje změnu zdravotního stavu ve skrytém Markovově řetězci. V tomto příkladě je jenom 30% pravděpodobnost, že za tři dny bude císařovna nemocná, když je dnes zdravá. emission_probability reprezentuje pravděpodobnosti jednotlivých informací. Pokud je císařovna zdravá, je 50% pravděpodobnost, že se cítí výborně; pokud je nemocná, je 60% pravděpodobnost, že se cítí na umření.
Na obrázcích jsou použity názvy z původního anglického příkladu (skryté zdravotní stavy jsou Healthy = Zdravá, Fever = Nemocná; oznámené pocity jsou Dizzy = na umření, Cold = slabě, Normal = výborně)
Grafická reprezentace zadaného HMM
Lékař dostal s postupně tři zprávy o tom, jak se císařovna cítí, první zpráva byla výborně, druhá slabě, třetí na umření a chce zjistit, jaká je nejpravděpodobnější posloupnost zdravotních stavů císařovny, která by vysvětlila tato pozorování? Odpověď poskytne Viterbiho algoritmus:
# Vizualizace Viterbiho algoritmu. def print_dptable(V): print(" "), for i in range(len(V)): print("%7d" % i), print
for y in V[0].keys: print("%.5s: " % y), for t in range(len(V)): print("%.7s" % ("%f" % V[t][y])), print
def viterbi(obs, states, start_p, trans_p, emit_p): V = [{}] path = {}
# Initialize base cases (t == 0) for y in states: V[0][y] = start_p[y] * emit_p[y][obs[0]] path[y] = [y]
# Run Viterbi for t > 0 for t in range(1,len(obs)): V.append({}) newpath = {}
for y in states: (prob, state) = max([(V[t-1][y0] * trans_p[y0][y] * emit_p[y][obs[t]], y0) for y0 in states]) V[t][y] = prob newpath[y] = path[state] + [y]
# Don't need to remember the old paths path = newpath
print_dptable(V) (prob, state) = max([(V[len(obs) - 1][y], y) for y in states]) return (prob, path[state])
Argumenty funkce viterbi jsou: obs je posloupnost pozorování, např. ['výborně', 'slabě', 'na umření']; states je množina skrytých stavů; start_p je start pravděpodobnost; trans_p jsou přechodové pravděpodobnosti; a emit_p jsou výstupní pravděpodobnosti. +more Pro jednoduchost kódu předpokládáme, že posloupnost pozorování obs je neprázdná a že trans_p[i][j] a emit_p[i][j] jsou definované pro všechny stavy i,j.
V našem příkladě se dopředný Viterbiho algoritmus používá takto:
def example: return viterbi(observations, states, start_probability, transition_probability, emission_probability) print(example)
To ukazuje, že pozorování ['výborně', 'slabě', 'na umření'] byla s největší pravděpodobností generována posloupností stavů ['Zdravá', 'Zdravá', 'Nemocná']. Jinými slovy, na základě pozorovaných dat byla císařovna s největší pravděpodobností při odeslání první a druhé zprávy zdravá (poprvé se cítila výborně, podruhé slabě), a při odeslání třetí byla nemocná.
Funkci Viterbiho algoritmu lze vizualizovat pomocí trellis diagramu. Viterbiho cesta je v zásadě nejkratší cesta tímto trellisem. +more Trellis pro příklad s císařovnou je níže; odpovídající Viterbiho cesta je tučně: [[Soubor:Viterbi animated demo. gif|okraj|střed|Animace trellis diagramu Viterbiho algoritmu. Po třetí informaci o stavu je nejpravděpodobnější cesta ['Zdravá', 'Zdravá', 'Nemocná']]].
Při implementaci Viterbiho algoritmu je nutné zmínit, že mnoho jazyků používá aritmetiku s pohyblivou řádovou čárkou - pokud jsou hodnoty pravděpodobností malé, může dojít k podtečení výsledku. Obvyklá technika, jak se tomu vyhnout, je používat během celého výpočtu logaritmus pravděpodobnosti, tatáž technika použitá v Logarithmic Number System. +more Po skončení algoritmu lze získat správnou hodnotu pomocí exponenciální funkce.
Rozšíření
Zobecnění Viterbiho algoritmu nazývané max-sum algoritmus (nebo max-product algoritmus) lze použít pro nalezení nejpravděpodobnějšího přiřazení všech nebo určitých podmnožinách skrytých proměnných ve velkém množství grafických modelů, např. Bayesovské sítě, Markov náhodná pole a podmíněná náhodná pole. +more Skryté proměnné musí být obecně propojeny nějakým způsobem na HMM, s omezeným počtem spojení mezi proměnnými a určitým typem lineární struktury mezi proměnnými. Obecný algoritmus využívá mechanismus předávání zpráv a v zásadě se podobá algoritmu belief propagation (který je zobecněním forward-backward algoritmu).
Pomocí algoritmu nazývaného iterativní Viterbiho dekódování lze najít podposloupnost pozorování, která vyhovuje nejlépe (v průměru) dané HMM. Tento algoritmus navrhl Qi Wang, etc. +more pro zpracování turbo kódů. Iterativní Viterbi dekódování pracuje iterativně vyvoláním modifikovaného Viterbiho algoritmu, znovu odhadnutím skóre pro výplňku při konvergenci.
Nedávno byl navržen alternativní algoritmus, líný Viterbiho algoritmus. Pro mnoho kódů používaných v praxi, při rozumném šumu, je dekodér používající líný Viterbiho algoritmus mnohem rychlejší než tradiční Viterbiho dekodér. +more Líný Viterbiho algoritmus neexpanduje uzly, dokud to není opravdu nutné, a obvykle vyžaduje mnohem méně výpočtů, aby došel ke stejnému výsledku jako normální Viterbiho algoritmus - není ho však snadné hardwarově paralelizovat.
Existuje rozšíření Viterbiho algoritmu, aby pracoval s deterministickým konečným automatem pro zlepšení rychlosti při stochastické konverzi písmen na fonémy.
Literatura
(note: the Viterbi decoding algoritmus je described in section IV. ) Subscription required. +more * * Subscription required. * * (Describes the forward algoritmus and Viterbi algorithm for HMMs). * Shinghal, R. a Godfried T. Toussaint, "Experiments in text recognition with the modified Viterbi algoritmus," IEEE Transactions on Pattern Analysis a Machine Intelligence, Vol. PAMI-l, April 1979, pp. 184-193. * Shinghal, R. a Godfried T. Toussaint, "The sensitivity of the modified Viterbi algoritmus to the source statistics," IEEE Transactions on Pattern Analysis a Machine Intelligence, vol. PAMI-2, March 1980, pp. 181-185.
Reference
Implementace
[url=http://www. ka9q. +morenet/code/fec/]C a Jazyk symbolických adres[/url] * [url=https://web. archive. org/web/20120320191509/http://www. sjsuasr. com/doku. php. id=wiki_viterbi. c]C[/url] * [url=http://bozskyfilip. blogspot. com/2009/01/viterbi-algorithm-in-c-a-using-stl. html]C++[/url] * [url=http://codingplayground. blogspot. com/2009/02/viterbi-algorithm-in-boost-a-c. html]C++ a Boost[/url] autor: Antonio Gulli * [url=http://pcarvalho. com/forward_viterbi/]C#[/url] * [url=https://gist. github. com/2482912]F#[/url] * [url=https://web. archive. org/web/20140504055101/http://www. cs. stonybrook. edu/~pfodor/viterbi/Viterbi. java]Java[/url] * [url=http://search. cpan. org/dist/Algorithm-Viterbi/]Perl[/url] * [url=https://web. archive. org/web/20120502010115/http://www. cs. stonybrook. edu/~pfodor/viterbi/viterbi. P]Prolog[/url] * [url=http://opencores. org/project,viterbi_decoder_axi4s]VHDL[/url].
Externí odkazy
[url=http://en. wikibooks. +moreorg/wiki/Algorithm_Implementation/Viterbi_algorithm]Implementace v jazyce Java, F#, Clojure, C# na Wikibooks[/url] * [url=http://home. netcom. com/~chip. f/viterbi/tutorial. html]Učební text[/url] o konvolučním kódování s Viterbiho dekódováním, autor: Chip Fleming * [url=http://arxiv. org/abs/cs/0504020v2]Historie Viterbiho algoritmu[/url], autor: David Forney * [url=http://www. cambridge. org/resources/0521882672/7934_kaeslin_dynpro_new. pdf]Jemný úvod do dynamického programování a Viterbiho algoritmu[/url] * [url=http://www. kanungo. com/software/hmmtut. pdf]Učební text o sadě nástrojů pro modelování skrytého Markovova modelu (implementovaná v jazyce C), který obsahuje popis Viterbiho algoritmu[/url].
Kategorie:Detekce a oprava chyb Kategorie:Dynamické programování Kategorie:Markovovy modely