Transformátor (model strojového učení)
Author
Albert FloresArchitektura modelu transformeru s více hlavovou pozornostíTransformer, česky transformátor, je typ jazykového modelu založeného na hlubokém učení, využívající více hlavový mechanismus pozornosti (attention), jenž dává různé váhy různým částem vstupních dat (zahrnujících rekurzivní výstup). Transformátory jsou trénovány na textových korpusech či datasetech (ty mohou být i obrazové či audio), díky kterým vznikne jazykový model, se kterým transformátor pracuje.
Používá se především pro zpracování přirozeného jazyka, počítačové vidění, zpracování zvuků (například převod zvuku na spektogram) nebo generování obrazů z textů (Midjourney či DALL-E).
Lepší paralelizace umožňuje učení na větších datech a následné lepší výsledky, než jak dokázaly dříve používané modely RNN a CNN. Vyznačuje se tím, že vyžaduje méně času na trénování než předchozí rekurentní neuronové architektury, jako je například LSTM. +more To umožnilo vývoj systémů, jako jsou BERT a GPT, trénovaných na velkých jazykových datech, jako je [url=https://www. english-corpora. org/wiki/]Wikipedia Corpus[/url] a [url=https://commoncrawl. org]Common Crawl[/url], jež lze je doladit na konkrétní úkoly.
Trénování transformátorového modulu
Aby transformátor mohl plnit úkoly například pro zpracování přirozeného jazyka, je nezbytné jej natrénovat. Trénování je dvojí. +more Buď je použit kauzální jazykový model (causal language model(ing), CLM), nebo maskovaný jazykový model (masked language model(ing), MLM). Tzv. předtrénované modely jsou trénované na velmi rozsáhlém souboru neanotovaných textových dat. Jedná se o tzv. samoučení (self-supervised learning), některými je tento proces označován jako učení bez učitele.
* CLM: úloha, jejímž cílem je předpovědět další slovo ve větě po přečtení n předchozích slov. Vezme sekvenci, která má být dokončena, a vypíše kompletní sekvenci. +more Výstup závisí na minulých a současných vstupech, ale ne na budoucích. Tento způsob trénování je vhodnější, pokud chceme následně generovat text. * MLM: procento slov ve větě je maskováno a model má za úkol předpovědět tato maskovaná slova pomocí ostatních slov ve stejné větě. Jedním ze způsobů, jak si to představit, je představit si to jako problém typu "vyplň prázdná místa". Tento způsob trénování je vhodnější, pokud chceme, aby následná aplikace lépe rozuměla textu, třeba při jeho klasifikaci. Kauzální jazykové modelování Maskované jazykové modelování Následuje proces tzv. jemného doladění neboli fine-tuning. Forma učení s učitelem, kdy jsou natrénové modely uzpůsobeny tak, aby mohly být snadno použity pro jiné účely, aniž by se muselo začínat opět jazykovým modelováním. Toto paradigma umožňuje efektivní přenos učení. Obecné znalosti a jazykové porozumění získané během předběžného tréninku lze přenést na různé úlohy s relativně malým množstvím dalšího tréninku. To usnadňuje přizpůsobení modelu novým úlohám, aniž by bylo nutné začínat od nuly.
V tomto paradigmatu jsou předtrénované modely často středně velké modely typu Bert nebo T5. Učí se obecné rysy jazyka, které mohou být užitečné v mnoha navazujících úlohách.
Historie
Vývoj nástrojů pro zpracování přirozeného jazyka. +more Moderní transformer byl představen v roce 2017 v článku s názvem Attention Is All You Need od Ashishe Vaswanima a kolektivu z týmu Google Brain. Mechanismus pozornosti (attention) založený na softmaxu navrhli Bahdanau, Cho a Bengio pro strojový překlad již v roce 2014 a transformátory s linearizovanou pozorností (bez softmaxu) představil již v roce 1992 Schmidhuber.