Statistický strojový překlad

Technology

12 hours ago

Author

Statistický strojový překlad je přístup ke strojovému překladu, který využívá statistické modely pro vyhodnocování a překladání přirozených jazyků. Tento přístup se používá k překladu mezi různými jazyky a je založen na analýze a porovnání velkého množství paralelních textů. Využívá statistické metody pro určování nejpravděpodobnějších překladů na základě existujících dat. Statistický strojový překlad je jedním z nejrozšířenějších přístupů v oblasti strojového překladu a je používán ve vědeckých výzkumech i komerčních aplikacích. V posledních letech se však objevují nové přístupy jako neuronové sítě, které mohou poskytnout ještě lepší výsledky při překladu.

Statistický strojový překlad (anglicky: statistical machine translation, SMT) je paradigma strojového překladu, kde jsou překlady generovány na základě statistických modelů, jejichž parametry jsou odvozeny z analýzy dvojjazyčných textových korpusů. Statistický přístup se liší od pravidlových i příkladových přístupů k strojovému překladu.

První myšlenky o statistickém strojovém překladu byly představeny Warrenem Weaverem v roce 1949, včetně možností aplikace Claude Shannonovy informační teorie. Statistický strojový překlad byl znovu představen koncem 80. +more a začátkem 90. let vědci ve výzkumném středisku Thomase J. Watsona IBM a v posledních letech přispěl k významnému obnovení zájmu o něj.

Základ

Myšlenka statistického strojového překladu vychází z teorie informací. Dokument je přeložen podle funkce rozdělení pravděpodobnosti p(e|f), takže řetězec ev cílovém jazyce (například v angličtině) je překlad řetězce fve zdrojovém jazyce (například francouzsky).

Problém modelování rozdělení pravděpodobnosti p(e|f) byl zpracován několika způsoby. Jedním z nich, který je vhodný pro počítačové zpracování, he aplikace Bayesovy věty, tedy p(e|f) \propto p(f|e) p(e), kde překladový model p(f|e)vyjadřuje pravděpodobnost že zdrojový řetězec je překladem cílového řetězce a jazykový model p(e) vyjadřuje pravděpodobnost získání tohoto cílového řetězce. +more Toto rozložení je přitažlivé, jelikož rozděluje původní problém do dvou menších. Nalezení nejlepšího překladu \tilde{e}je pak řešeno vybráním toho, který má nejvyšší pravděpodobnost:.

: \tilde{e} = arg \max_{e \in e^*} p(e|f) = arg \max_{e\in e^*} p(f|e) p(e) .

K důsledné implementaci tohoto procesu je nutné provést důkladné prohledání všech řetězců e^*ve vstupním jazyce. Efektivitu tohoto hledání připravuje dekodér strojového překladu, který použije vstupní řetězec, heuristiku a další metody k omezení prohledávaného zároveň se zachováním dostatečné kvality. +more Tento kompromis mezi časovou efektivitou a kvalitou se vyskytuje také u rozpoznávání řeči.

Protože překladové systémy nejsou schopny ukládat všechny původní řetězce a jejich překlady, je dokument obvykle přeložen po jednotlivých větách, ale ani to nestačí. Jazykové modely jsou obvykle nahrazoványvyhlazenými n- gramovými modely, a podobné přístupy jsou použity u překladatelských modelů, ale objevují se další problémy kvůli např. +more různým délkám vět a pořadí slov v různých jazycích.

Modely statistického překladu byly původně založeny na slovech (modely 1-5 z IBM skrytých Markovových modelů Stephana Vogela a model 6 Franze-Josepha Ocha), ale se zavedením frázových modelů došlo k výrazným pokrokům. Nedávné práce zahrnovaly syntaktické nebo kvazi-syntaktické struktury.

Výhody

Efektivnější využití lidských a datových zdrojů ** Existuje mnoho paralelních korpusů ve strojově čitelném formátu a ještě více jednojazyčných dat. ** Obecně nejsou systémy SMT přizpůsobeny žádné konkrétní dvojici jazyků. +more ** Překladové systémy založené na pravidlech vyžadují manuální sestavení jazykových pravidel, což může být nákladné, a navíc se výsledky často nedají zevšeobecnit do dalších jazyků. * Plynulejší překlady díky použití jazykového modelu.

Important

IBM

Syntax

Fráze (syntax)

Synchronní bezkontextová gramatika

rozdělení pravděpodobnosti

jazykový model

Strojový překlad

Rozpoznávání řeči

Nedostatky

Vytváření korpusu může být nákladné. * Konkrétní chyby je těžké předvídat a opravit. +more * Výsledky mohou mít zdánlivou plynulost, která maskuje problémy s překladem. * Statistický strojový překlad obvykle funguje hůř pro jazykové páry s výrazně odlišným slovosledem. * Přínosy získané při překladu mezi západoevropskými jazyky nejsou reprezentativní pro výsledky pro jiné jazykové páry, a to kvůli menším korpusům a větším gramatickým rozdílům.

Překlad založený na slovech

Pro tuto metodu strojového překladu je základní jednotkou překladu slovo v přirozeném jazyce. Počet slov v přeložených větách se obvykle liší kvůli existenci složených slov, morfologie a idiomů. +more Poměr délek sekvencí přeložených slov se nazývá plodnost, která říká kolik cizích slov každé rodné slovo produkuje. Teorie informací předpokládá, že každé zahrnuje stejný koncept, ale v praxi to tak není. Například, anglické slovo corner může být ve španělštině buď Rincón nebo Esquina, v závislosti na tom, zda se jedná o vnitřní nebo vnější úhel.

Základní podoba této metody nedokáže překládat mezi jazyky s různou plodností. Je možné ji jednoduše upravit aby snesla vysokou plodnost, například mapování jediného slova na více možných překladů, ale zpětně to není možné. +more Například, pokud bychom překládali z angličtiny do francouzštiny, každé slovo v angličtině může vyprodukovat několik francouzských slov - a někdy i jen jedno, nebo žádné. Ale neexistuje způsob jak spojit dvě anglická slova tak, aby vyprodukovala jediné slovo francouzské.

Příkladem překladového systému založeného na slovech je volně dostupný balíček GIZA ++ (GPLed), který zahrnuje trénovací program pro modely IBM a HMM model a model 6.

Slovně založený překlad se dnes již moc nepoužívá; frázové systémy jsou častější. Většina systémů založených na frázích stále používají GIZA++ k seřazení korpusu. +more Řazení je používáno k přípravě frází a dedukci syntaktických pravidel. A odpovídající slova v bi-textu jsou stále aktivně diskutovaným problémem. Kvůli trvalé převaze GIZA++ lze dnes najít několik implementací online.

Frázový překlad

V případě překladů založených ve frázích je cílem zabránit problémům překladů založených na slovech překladem celých sekvencí slov, jejichž délky se mohou lišit. Sekvence slov se nazývají bloky nebo fráze, ale obvykle se nejedná o lingvisticky motivované fráze, jen o frazémy získané pomocí statistických metod z korpusů. +more Ukázalo se, že omezení frází na ty lingvistické (syntakticky motivované skupiny slov) snižuje kvalitu překladu.

Vybrané fráze jsou dále mapovány 1:1 na základě tabulky překladů frází a mohou být přeřazeny. Tuto tabulku lze systém naučit na základě zarovnání slov nebo přímo z paralelního korpusu. +more Druhý model je školen pomocí algoritmu maximalizace očekávání, podobně jako u modelu IBM pro překlad založený na slovech.

Překlad založený na syntaxi

Překlad založený na syntaxi je založen na myšlence překladu syntaktických jednotek, tj. (částečných) parsových stromů vět/výroků, nikoli na jednotlivých slovech nebo řetězcích slov (jako ve frázovém strojovém překladu). +more Myšlenka překladu založeného na syntaxi je ve strojovém překladu dost stará, ale jeho statistická podoba se objevila až po příchodu silných stochastických parserů v 90. letech. Mezi příklady tohoto přístupu patří například synchronní bezkontextové gramatiky.

Hierarchický frázový překlad

Hierarchický frázový překlad kombinuje silné stránky frázového a syntakticky založeného překladu. Používá pravidla synchronních bezkontextových gramatik, ale mohou být konstruovány rozšířením metod pro frázový překlad bez odkazu na lingvisticky motivované syntaktické složky. +more Tato myšlenka byla poprvé představena v Chiangově systému Hiero (2005).

Jazykové modely

Jazykový model je nezbytnou součástí každého statistického systému strojového překladu, který pomáhá zajistit co nejplynulejší překlad. Je to funkce, která bere přeloženou větu a vrací pravděpodobnost, že ji řekne rodilý mluvčí. +more Dobrý jazykový model například přiřadí vyšší pravděpodobnost větě „ten dům je malý“ než „malý ten je dům“. Kromě slovosledu jazykové modely mohou také pomoci s výběrem slova: pokud cizí slovo má několik možných překladů, tyto funkce mohou poskytnout lepší pravděpodobnost některých překladů v určitých kontextech v cílovém jazyce.

Problémy statistického strojového překladu

Problémy, které musí statistický strojový překlad řešit, zahrnují:

Přiřazování vět

V paralelních korpusech lze najít jednotlivé věty v jednom jazyce přeloženy do několika vět v druhém a naopak. Dlouhé věty mohou být rozděleny, krátké věty sloučeny. +more Existují dokonce i jazyky, které používají psací systémy bez jasného označení věty (například thajština). Zarovnání věty lze provést pomocí Gale-Churchova zarovnávacího algoritmu. Prostřednictvím tohoto a dalších matematických modelů je možné účinné vyhledávání a získávání zarovnání vět s nejvyšším skóre.

Přiřazování slov

Zarovnání věty je obvykle zajištěno korpusem nebo získáno výše uvedeným Gale-Churchovým zarovnávacím algoritmem. Ale abychom se naučili například překladový model, musíme vědět, která slova stojí naproti sobě ve zdrojově-cílovém páru vět. +more Řešením jsou modely IBM nebo modely HMM.

Jedním z prezentovaných problémů jsou gramatická slova, která v cílovém jazyce nemají jasný ekvivalent. Například při překladu z angličtiny do němčiny věta „John does not live here“ nemá slovo „does“ v přeložené větě „John wohnt hier nicht“ jasný protějšek. +more Logickým zdůvodněním může být zarovnáno se slovy „wohnt“ (které v angličtině obsahuje gramatické informace pro slovo „live“) nebo „nicht“ (protože se objevuje ve větě pouze proto, že je negována) nebo může být bez protějšku.

Statistické anomálie

Reálné tréninkové sady mohou převážit překlady, například u vlastních jmen. Příkladem by mohlo být to, že „Jel jsem vlakem do Berlína“ se překládá špatně jako „Jel jsem vlakem do Paříže“ kvůli množství výskytů „vlaku do Paříže“ v tréninkové sadě.

Idiomy

V závislosti na použitých korpusech nemusí být idiomy překládány „idiomaticky“. Například při použití Canadian Hansardu jako dvojjazyčného korpusu může být „hear“ téměř vždy přeloženo do „Bravo. +more“ protože v parlamentu „Hear, hear. “ se stává „Bravo. “.

Tento problém je spojen s přiřazováním slov, protože ve velmi specifických kontextech se může idiomatický výraz přiřadit ke slovům, která vedou k idiomatickému vyjádření stejného významu v cílovém jazyce. Je to však nepravděpodobné, protože toto zarovnání obvykle nefunguje v jiných kontextech. +more Z tohoto důvodu by se idiomy měly podrobovat pouze frázovému zarovnání, protože je nelze dále rozkládat, aniž by ztratily svůj význam. Tento problém je tedy specifický pro překlad založený na slovech.

Různé pořadí slov

Pořadí slov v jazycích se liší. Určitou klasifikaci lze provést pojmenováním typického pořadí předmětu (subject, S), slovesa (verb, V) a objektu (object, O) ve větě a lze mluvit například o jazycích SVO nebo VSO. +more Existují také další rozdíly v pořadí slov, například dle umístění modifikátorů substantiv, nebo použití téže slov v tázací nebo oznamovací větě.

Při rozpoznávání řeči lze řečový signál a odpovídající textovou reprezentaci promítat na sebe v blocích ve stejném pořadí. Tak to nemusí být u stejného textu ve dvou jazycích. +more Pro SMT může strojový překladač spravovat pouze malé sekvence slov a pořadí slov musí připravit konstruktér programu. Pokusy o řešení zahrnovaly modely pro znovuseřazení, kde je distribuce změn umístění pro každou položku překladu odhadnuta ze zarovnaného bi-textu. Různé jazykové změny lze zhodnotit pomocí jazykového modelu a následně vybrat ty nejlepší.

Hlasový komunikátor Skype nedávno začal testovat překlad řeči. Strojový překlad však následuje technologické trendy v řeči pomaleji než rozpoznávání řeči. +more Některé nápady z výzkumu rozpoznávání řeči byly dokonce přebrány a využity statistickým strojovým překladem.

Slova mimo slovník (out of vocabulary, OOV)

SMT systémy obvykle ukládají různé slovní formy jako samostatné symboly bez jakéhokoli vztahu k sobě navzájem a slovní formy nebo fráze, které nebyly v tréninkových datech, tak nelze přeložit. Důvodem může být nedostatek tréninkových údajů, nebo rozdíly v morfologii.

Mobilní zařízení

Rychlý nárůst výkonu tabletů a chytrých telefonů v kombinaci s širokou dostupností vysokorychlostního mobilního přístupu k internetu jim umožňuje provozovat systémy strojového překladu. Experimentální systémy již byly vyvinuty na pomoc zahraničním zdravotnickým pracovníkům v rozvojových zemích. +more Podobné systémy jsou již na trhu k dispozici. Například Apple iOS 8 umožňuje uživatelům diktovat textové zprávy. Vestavěný systém ASR rozpoznává řeč a výsledky rozpoznávání jsou editovány online systémem.

Projekty, jako je Universal Speech Translation Advanced Research (U-STAR1, pokračování projektu A-STAR) a EU-BRIDGE2, v současné době provádějí výzkum v oblasti překladů celých vět rozpoznaných z promluvy. V posledních letech roste zájem o kombinaci rozpoznávání řeči, strojového překladu a syntézy řeči. +more Pro dosažení překladu řeči na řeč jsou n-best seznamy předávány z ASR do systému statistického strojového překladu. Kombinace těchto systémů však vyvolává problémy jako jsou segmentace vět, de-normalizace a predikce interpunkce, které je potřeba eliminovat pro dosažení kvalitních překladů.

Systémy implementující statistický strojový překlad

Google Překladač * Překladač Microsoft * Omniscien Technologies * Systran * Yandex.Translate

Odkazy

Reference

Externí odkazy

[url=http://www. statmt. +moreorg/]Statistický strojový překlad[/url] - zahrnuje úvod do výzkumu, konference, korpusy a výpisy softwaru * [url=http://www. statmt. org/moses/]Moses[/url] - SMT systém s otevřeným zdrojovým kódem * [url=http://www-nlp. stanford. edu/links/statnlp. html]Anotovaný seznam statistických zdrojů zpracování přirozeného jazyka[/url] - zahrnuje odkazy na volně dostupný statistický strojový překladový software.

Kategorie:Strojový překlad Kategorie:Počítačová lingvistika Kategorie:Statistika