Transformer (deep learning architecture)
Transformer (architektura hlubokého učení) je typ modelu umělé inteligence, který byl poprvé představen v práci "Attention is All You Need" v roce 2017. Tato architektura se stala základem pro mnoho moderních jazykových modelů a různých úloh v oblasti zpracování přirozeného jazyka. Hlavním rysem transformátorů je mechanismus pozornosti, který umožňuje modelům efektivně zpracovávat a porozumět kontextu ve větách bez nutnosti sekvenčního zpracování, jaké bylo běžné u dřívějších modelů, jako jsou rekurentní neuronové sítě (RNN). Transformery fungují na principu paralelního zpracování dat, což zrychluje trénink a zlepšuje výkon modelů. Architektura se skládá z bloků sestávajících z mechanismu pozornosti a plně propojených neuronových sítí. Díky své flexibilitě a schopnosti učit se z velkého množství dat se transformery intenzivně používají v různých aplikacích, od překladů a generování textu po analýzu sentimentu a další úkoly související se zpracováním jazyka. Tato architektura se postupně rozšířila i do dalších oborů, jako je počítačové vidění a generativní modelování.