Historie strojového překladu

Technology

12 hours ago

Author

Strojový překlad je dlouhodobě důležitým úkolem zpracování přirozeného jazyka zabývající se procesem automatického překladu přirozených jazyků za pomoci počítače.

Ačkoliv první zmínky o strojovém překladu pochází již ze 17. století, skutečný výzkum této oblasti byl zahájen až v 50. +more letech 20. století. Tehdy se výzkumem zabývalo kolem 20 amerických a přes 10 evropských pracovišť. Od roku 1957 i Univerzita Karlova, která v této oblasti vyvinula experimentální systém APAČ (Automatický překladač z angličtiny do češtiny).

Jedním z prvním zaznamenaných projektů byl americký Georgetownský experiment z roku 1954. Obdobné pokusy byly následně prováděny i v Sovětském svazu. +more Úspěch experimentů vyústil ve významnou finanční podporu vývoje strojového překladu ze stran vlád. Pokrok ve výzkumu byl však výrazně pomalejší, než se předpokládalo. Zpráva ALPACu z roku 1966 zhodnotila vývoj strojového překladu jako neefektivní a nenaplňující původní očekávání po experimentu v Georgetownu, což mělo za následek snížení financování výzkumu.

Zvyšování výpočetní síly počítačů umožnilo v 90. letech 20. +more masivní nástup statistických metod strojového překladu. Přestože v současnosti neexistuje žádný autonomní systém „plně automatického překladu neomezeného textu“, máme k dispozici mnoho programů, které jsou schopny v rámci určitých omezení poskytnout užitečný výstup. Některé z těchto programů jsou k dispozici online (Google Translate a SYSTRAN).

Počátky vývoje

V roce 1933 podal gruzínský vědec Georges Artsrouni přihlášku na patent vynálezu prvního překládacího stroje. Ve stejném roce jej následoval sovětský vědec Petr Trojanski, který k patentové přihlášce předložil svůj značně podrobnější návrh. +more Trojanského stroj byl sestaven roku 1941 na Harvardově univerzitě v USA pod názvem Mark I. Stroj se podobal automatické telefonní ústředně.

Oba navržené mechanizmy fungovaly pouze jako mechanizované dvojjazyčné či vícejazyčné slovníky, jejichž původní návrhy pochází již ze 17. století.

Teprve až v roce 1946 se objevily první myšlenky strojového překladu založeného na elektronických počítačích. Průkopníky v této oblasti byli Andrew Booth a Warren Weaver. +more V roce 1947 Booth připravil první program pro překlad textu slovo po slově, Weaver poté roku 1949 rozeslal 200 adresátům slavné memorandum v němž shrnul své návrhy na počítačem řízený strojový překlad. Weaver strojový překlad považoval za realizovatelný a inicioval jeho uskutečnění. Zájem o strojový překlad byl podnícen na několika pracovištích a v následujících letech byly zakládány první lingvistické skupiny zabývající se jeho výzkumem.

Generace

Strojový překlad 1. generace

Systém strojového překladu tzv. 1. +more generace vytvářely překlad typu „slovo-slovo“ v nejlepším případě „sousloví za sousloví“. Jednalo se o velmi hrubý překlad. Veškerá logika systému spočívala v nalézání slovníkové jednotky a přidávání slovníkového ekvivalentu. Tyto strojové systémy obvykle zahrnovaly lematizátor slov vstupního textu.

Vyzkoušené systémy strojového překladu 1. generace se staly základem automatizace nazývané dnes indikativní nebo orientační překlad. +more Smyslem takových systémů je rychle poskytnout informaci, o čem pojednává text v cizím jazyce.

Strojový překlad 2. generace

V systémech 2. generace jsou nějakým konzistentním způsobem odděleny pracovní fáze (programové moduly), které řeší:

* Analýzu konstrukcí vstupního jazyka a vyjádření (alespoň určité základní úrovně) jejich významu konkrétními formalizovanějšími prostředky. * Vlastní překlad elementárních výrazů vstupního jazyka odpovídajícími výrazy výstupního jazyka. +more * Syntézu konstrukcí výstupního jazyka potřebných ke korektnímu vyjádření daného významu.

Strojový překlad 3. generace

Tyto systémy navíc uplatňují některé přístupy umělé inteligence. Někteří odborníci považují za 1. +more generaci jen systémy typu „slovo za slovo“, u 2. generace hovoří v souvislosti s jakýmkoliv zpracováním syntaktických struktur a 3. generaci vnímají jako zapojení jakékoli sémantiky do strojového překladu.

Important

SYSTRAN

Babel Fish

Jehošua Bar-Hillel

Georgetownský experiment

Google

Mikropočítač

Edinburská univerzita

IBM

Rosetta (strojový překlad)

Osobní počítač

Harvardova univerzita

Mainframe

50. léta

V roce 1952 se v USA konala první konference o strojovém překladu organizovaná izraelským lingvistou Jehošuou Bar-Hillelem. O rok později byla v newyorském sídle IBM uspořádána první veřejná demonstrace rusko-anglického systému pro strojový překlad (tzv. +more Georgetownský experiment). Jednalo se o první funkční prototyp strojového překladu. Demonstrace systému vyvolala nadšení a zprávy o experimentu se šířily médii napříč celým světem. Systém byl velmi primitivní (jeho slovník obsahoval pouze 250 slov a překládal asi 60 pečlivě vybraných vět z ruštiny do angličtiny), ovšem ve veřejnosti vzbudil dojem, že plně automatizovaného strojového překladu je možno dosáhnout v řádu několika let. Georgetownský experiment tak díky pozitivním ohlasům zajistil dlouhodobé financování rozvoje strojového překladu ze strany vlády USA. Sovětský svaz se začal po smrti Stalina více otevírat západním vědám (kybernetika, strukturální lingvistika, počítače) a po zprávách z Georgetownské demonstrace se i zde od roku 1955 pomalu rozvíjí oblast strojového překladu.

Následující léta byla zaměřena především na řešení teorie jednotlivých fází strojového překladu a na vývoj mnoha nových projektů. Oblast strojového překladu podnítila rozvoj a výzkum teoretické lingvistiky, počítačové lingvistiky i umělé inteligence.

60. léta

Období přelomu padesátých a šedesátých let minulého století se vyznačovalo především ve znamení kritiky vývoje strojového překladu a zklamání ze špatných výsledků. Bar-Hillel kritizoval většinu lingvistických skupin pro jejich nerealistické cíle. +more Tvrdil, že počítače nejsou bez encyklopedických znalostí schopné lexikální desambiguace (odstranění homonymie) a že plně automatizovaný překlad ve vysoké kvalitě není dosažitelný.

Výzkum 60. let se v Sovětském svazu a USA soustředil především překlady mezi ruštinou a angličtinou. +more Zaměřen byl zvláště na technické a vědecké dokumenty (články z vědeckých časopisů). Překlady vyprodukované tehdejšími systémy byly již pro základní porozumění dostačující.

V roce 1966 vydala poradní komise pro automatické zpracování textu ALPAC zprávu, v níž vědci svolaní americkou vládou zhodnotili kvalitu a použitelnost systémů strojového překladu. Výsledkem bylo znepokojení nad neefektivním vývojem strojového překladu navzdory výrazným nákladům. +more Bylo tak navrženo omezení výdajů na další projekty strojového překladu.

Zveřejnění zprávy mělo významný negativní dopad na strojový překlad jako vědeckou oblast. Obzvlášť špatná byla situace v USA, kde došlo k pozastavení financování vývoje strojového překladu. +more Trvalo zhruba 15 let, než zde strojový překlad na poli věd dosáhl svého dřívějšího postavení. Na výzkum v Evropě a Japonsku neměla zpráva ALPACu tak významný dopad a vývoj zde nepřerušovaně pokračoval i nadále.

70. léta

V 70. letech se zvyšuje poptávka po nízkonákladových systémech, které by dokázaly přeložit velké množství technických a komerčních dokumentů. +more Tento požadavek byl podnícen zejména vzrůstající mírou globalizace.

V roce 1970 byl dokončen systém SYSTRAN, který byl instalován v letectvu Spojených států amerických. Jednalo se o systém strojového překladu zprvu určeného pro armádní účely (zejména pro překlad z ruštiny do angličtiny). +more Od roku 1976 systém sloužil také Evropské komisi. SYSTRAN je dodnes velmi populární systém, z něhož později vycházel i překladač Yahoo Babel Fish a až do roku 2007 jeho technologii využíval i Google.

Francouzský Institut Textile de France představil systém TITUS pro překlad abstraktů z oblasti textilního průmyslu.

V Montrealu byl zahájen vývoj projektu TAUM pro anglicko-francouzský překlad.

V roce 1975 Čínská univerzita v Hongkongu vyvíjí systém CULT pro překlad matematických textů z čínštiny do angličtiny.

V Sovětském svazu je od roku 1976 největší část výzkumu strojového překladu soustředěna v překladatelském centru v Moskvě. V roce 1977 zde byl dokončen první sovětský program pro strojový překlad AMPAR (rusko-anglický překlad). +more Následovaly jej projekty NERPA (německo-ruský překlad) a FRAP (francouzsko-anglický překlad).

Roku 1977 byl v Kanadě instalován systém METEO vyvinutý na Université de Montréal, který sloužil k překladu předpovědí počasí z angličtiny do francouzštiny. Jeho praktická implementace sloužila až do roku 2001.

Od roku 1978 se vyvíjí také transferový strojový překlad. Francouzská univerzita v Grenoblu přišla se systémem ARIANE pro rusko-francouzský, anglicko-francouzský a německo-francouzský překlad. +more Evropská komise založila a financovala oficiální projekt EU zvaný Eurotra, který se neúspěšně pokusil nahradit systém SYSTRAN. V USA odstartoval vývoj německo-anglických systémů LOGOS a METAL. Pozadu nezůstalo ani Japonsko, na univerzitě Kyoto byl vybudován japonsko-anglický systém Mu.

80. léta

Začátkem 80. let narůstá rozmanitost i množství instalovaných systémů pro strojový překlad. +more Všechny tyto systémy jako např. SYSTRAN, Logos, Ariane-G5 nebo Metal však nalézaly uplatnění výhradně u mainframů. Postupně tedy narůstá poptávka po systémech strojových překladačů určených pro mikropočítače (osobní počítače).

Významného pokroku v oblasti strojového překladu dosahuje v tomto období Japonsko. Byl zahájen projekt Systému páté generace počítačů (Fifth Generation Computer System - FGCS) a jedním z úkolů, kterým Japonsko mínilo překonat konkurenci na poli počítačového hardwaru a softwaru, bylo vybudování softwaru pro obousměrný překlad angličtiny.

V 80. letech došlo k rozvoji pravidlových systémů s interlinguou (abstraktní reprezentací jazykových znalostí nezávislých na konkrétním jazyce). +more Významný byl například projekt Rosetta vyvíjený ve Výzkumných laboratořích Philips v Nizozemsku, který pro interlinguickou reprezentaci využil Montagueovy gramatiky. V holandském Ultrechtu byl započat projekt DLT, který si jako interlinguu zvolil modifikovanou formu Esperanta.

Kolem roku 1986 byl na základě dosažených úspěchů v oblasti rozpoznávání a syntéze řeči zahájen výzkum překladu řeči (japonský projekt ATR, americký projekt JANUS na univerzitě Carnegie-Mellon, později také německý Verbmobil).

Dostupnost rozsáhlých dvojjazyčných korpusů podpořila v roce 1988 myšlenku výzkumu strojového překladu založeného na korpusech. Byl tedy započat vývoj prvních datových systémů, tzv. +more example-based machine translation (strojový překlad na základě příkladů).

90. léta

V 90. letech pokračuje vývoj překladu řeči. +more V Německu byl roku 1992 zahájen projekt Verbmobil, v rámci kterého byl vyvíjen systém pro rozpoznávání, překlad a syntézu řeči. Na projektu se podílelo více než 30 univerzit a měl fungovat jako plnohodnotný nástupce systému Eurotra.

V IBM byl zahájen výzkum statistického strojového překladu. Celému oboru však stále dominovaly pravidlové systémy.

Postupně se začaly prosazovat první automatické metody měření kvality strojového překladu (tzv. metriky). +more Až dosud bylo posuzování kvality překladu zastáváno pouze člověkem (rámec pro hodnocení strojového překladu FEMTI).

Strojový překlad již dlouho nebyl záležitostí výhradně mainframových systémů. Příchod levnějších výkonných počítačů znamenal i rozsáhlý vývoj nových překladačů určených pro osobní počítače a pracovní stanice (verzi pro PC začal nabízet například SYSTRAN).

Od 90. let se v překladatelské praxi začaly rozšiřovat nástroje, které místo slovníku využívají tzv. +more překladové paměti. Jedná se o zarovnaný dvojjazyčný korpus, v němž je možno vyhledávat dle slov či frází. Vedoucí postavení na trhu si mezi komerčními systémy využívající překladové paměti udržuje vedoucí postavení nástroj SDL Trados, který byl spuštěn v roce 1993.

Strojový překlad postupně rozšířil svou působnost i na web. Systran od roku 1996 začal nabízet online překlad webových stránek. +more AltaVista spustil v roce 1997 svůj bezplatný internetový překladač Babel Fish. Následovaly jej i společnosti PROMPT a Google, který podobně jako Babel Fish zpočátku využíval technologii Systranu.

Vývoj po roce 2000

Počátkem roku 2004 se na trhu objevuje několik open-sourcových sad nástrojů pro strojový překlad: GIZA++ (nástroj pro trénování modelů se zarovnáním slov), Moses (platforma pro budování statistických systémů), Joshua (dekodér pro syntaktické statistické systémy), Apertium (platforma pro budování pravidlových systémů), LetsMT (cloudová podpora výzkumu strojového překladu).

V rámci překladu řeči se v Evropě i USA vyvíjí automatické překladače projevů v parlamentu a televizních zpráv (TC-STAR, STR-DUST a US-DARPA-GALE).

V roce 2006 byl založen projekt Euromatrix vedený profesorem Philippem Koehnem na Edinburské univerzitě. Projekt měl za cíl vyvíjet a zdokonalovat systémy strojového překladu mezi všemi jazyky Evropské unie (tzn. +more přes 500 jazykových párů). Projekt podpořil i vývoj open-sourcového nástroje pro statistický strojový překlad Moses (2007).

Online platforma LetsMT pro sdílení a vytváření systémů statistického strojového překladu s jednoduchým uživatelským prostředím byla vytvořena v roce 2010 v Baltských státech.

Oblasti strojového překladu začaly již postupně dominovat statistické metody. Objevují se i systémy, které kombinují výhody pravidlových a statistických systémů (tzv. +more hybridní strojový překlad). Převažují komerční systémy a online překladače. Uplatnění nalézají také překladače určené pro speciální účely (např. pro lékařství). Postupně jsou vyvíjeny překladače pro menší jazyky (např. africké či indiánské).

Spolu s příchodem statistických strojových překladů se vyvíjely i nové metody automatického hodnocení kvality překladu. Metrika BLEU (Bilingual Evaluation Understudy, 2001) určuje kvalitu na základě statistické míry podobnosti mezi výstupem strojového překladu a lidským překladem. +more Mezi další nové metriky patří také např. NIST (2001) nebo METEOR (2005).

Reference

Kategorie:Strojový překlad

5 min read

Share this post:

Like it 8