GPT-3
Author
Albert FloresGPT-3, v angličtině též jako third generation Generative Pre-trained Transformer, je základní model Generative pre-trained transformeru v oblasti zpracování přirozeného jazyka, založený na strojovém učení neuronové sítě. Jedná se o autoregresivní jazykový model, který je schopen hlubokého učení textu, trénovaný za pomocí internetových dat. Model, podobně jako lidský mozek, si zapamatovává data, ze kterých je následně schopen produkovat nejen nový text, ale také generovat kód, příběhy i básně.
Produkt představila v květnu 2020 společnost OpenAI jakožto nástupce předchozího jazykového modelu s názvem GPT-2, který nebyl schopný obsáhnout takové množství dat a produkovat kvalitní texty. Výzkumná laboratoř OpenAI se sídlem v americkém San Franciscu předvedla v červenci roku 2020 úspěšné beta testování modelu. +more GPT-3 model na rozdíl od svého předchůdce produkuje texty, ze kterých je mnohem těžší rozpoznat, zda jej psal člověk či tato umělá inteligence. V roce 2022 byl na této platformě spuštěn chatbot ChatGPT, který získal značnou mediální pozonost.
Přístup k základnímu modelu má pouze společnost Microsoft, na jejíž používání získala v září 2020 licenční smlouvu. Všichni ostatní uživatelé mohou používat alespoň veřejné rozhraní API.
Historie GPT
V roce 2015 byl projekt GPT-3 vyvíjen pod křídly neziskové organizace OpenAI. Cílem projektu bylo vytvořit a popularizovat „přátelskou umělou inteligenci“ schopnou přinést užitek lidstvu jako celku. +more První verze GPT byla vydána v roce 2017 a obsahovala 117 milionů parametrů. Druhá verze GPT-2, vyšla v roce 2019 a obsahovala 1,5 miliardy parametrů.
Nejnovější verze, GPT-3, svou konkurenci více než stonásobně překonala. Model byl trénován na 175 miliardách parametrů. +more Nejvýkonnějším předchůdcem byla Turing NLG společnosti Microsoft s 10 miliardami parametrů. Jedná se o mnohem robustnější verzi, která je schopna lépe zpracovávat data v užších specializacích. Verze GPT i GPT-2 byl kritizovány za nedostatečný výkon v hudební oblasti a za špatné schopnosti v oblasti vyprávění příběhů a psaní textu. GPT-3 je v těchto ohledech díky masivní datové základně mnohonásobně více výkonný model, zvládá úkony jako odpovídání na otázky, psaní esejí, shrnutí textu, překlad textu a také generování zdrojového kódu.
Trénovací data
K trénování modelu byla v nejvyšší míře použita datová sada Common Crawl2, která obsahuje téměř miliardu slov. Jedná se o nezpracovaná data webových stránek, extrahovaná metadata a textové extrakce. +more Takováto velikost je k trénování modelu dostačující, nicméně nefiltrovaná nebo málo filtrovaná verze datasetu by mohla vést k nekvalitním výstupům.
Ke zlepšení kvality datové sady vedly 3 kroky, konkrétně:
* Filtrování stažené verze Common Crawl na základě podobností s řadou vysoce kvalitních referenčních dat. * Byla provedena Fuzzy deduplikace na úrovni dokumentů v rámci datasetů i napříč nimi, aby bylo zabráněno redundanci a došlo k zachování integrity dat. +more * CommonCrawl dataset byl rozšířen o další kvalitní referenční korpusy, což vedlo ke zvýšení rozmanitosti modelu.
Konkrétně se jednalo o rozšíření datasety WebText2, který zahrnuje veškeré příspěvky na Redditu datované od 2005-2020. Dále Books1 a Books2, datasety internetových knižních korporací. +more V poslední řadě a v nejmenším rozsahu byl použit dataset anglických článku z Wikipedie.
"Váha" se vztahuje k podílu příkladů během tréninku, které jsou vybrány z daného souboru dat. Tento podíl záměrně není úměrný velikosti datasetu. Některé datové sady se tak během trénování objeví až 3,4×, zatímco jiné dokonce méně než jednou. Common Crawl2 410 mld. 60% 0,44 WebText2 19 mld. 22% 2,9 Books1 12 mld. 8% 1,9 Books2 55 mld. 8% 0,43 Wikipedia 3 mld. 3% 3,4
Jak GPT-3 funguje
Výstup GPT-3: úvod ke článku o vývoji výzkumu prvočísel v angličtině GPT-3 je řada modelů jazykové predikce, nejedná se o jeden model, ale o rodinu modelů. +more Každý model v rodině má jiný počet trénovatelných parametrů. Nejvýkonnější z rodiny GPT-3 je model s názvem text-davinci-003, trénovaný na nejvyšším množství parametrů. Zvládne jakoukoli úlohu, kterou zvládnou ostatní modely, často ve vyšší kvalitě, s delším výstupem a lepším dodržováním pokynů. Podporuje také vkládání doplnění v textu. Dalším členem rodiny je například podobně schopný model text-curie-001,který je rychlejší a levnější než Davinci. Zatímco Davinci je silnější, pokud jde o analýzu složitých textů, model Curie je výkonný pro mnoho nuancovaných úloh, jako je klasifikace sentimentu a sumarizace. Dalšími oficiálně dostupnými modely jsou Babbage a Ada, které jsou určeny spíše k rychlým a jednoduchým úlohám, jako je klasifikace textu.
Architektura modelů GPT-3 je postavena na principu strojového učení neuronové sítě, který dokáže přijmout text jako vstup a transformovat jej na to, co předpovídá jako nejužitečnější výsledek. Toho je dosaženo trénováním systému na rozsáhlém množství internetových textů. +more GPT-3 se zaměřuje na výstup v podobě textu, čehož je s vysokou úspěšností schopen na základě toho, že byl předem vycvičen na obrovském množství textu. Když uživatel zadá vstupní text, systém analyzuje jazyk a pomocí prediktoru vytvoří nejpravděpodobněji nejužitečnější výstup.
Obecné možnosti využití GPT-3
Generování a překlad textu
Model dokáže psát beletrii, vyprávět vtipy, psát básně a vytvářet konverzační rukopisy a řadu dalších věcí. Za předpokladu správného podnětu, tzv. +more promptu, dokáže psát přesvědčivé a poutavé články, nicméně však nedokáže uvést zdroje a nelze spoléhat na pravost a pravdivost informací, jedná-li se o informativní či naučný článek. Je také schopen generovat všechny druhy dokumentů, od obchodních poznámek až po právní dokumenty. Kromě psaní jej lze využít k opravě gramatických chyb v textu a nebo jako nástroj pro překlad.
Generování kódu
Pomocí GPT-3 lze překládat přirozený jazyk do kódu a naopak. Lze také překládat kód z jednoho programovacího jazyka do druhého, vysvětlit část složitého kódu, opravit kód nebo odpovědět na otázky týkající se používání programovacího jazyka.
Automatizace zákaznické péče
Startupy jako ActiveChat využívají GPT-3 k vývoji chatbotů, možností živého chatu a dalších konverzačních služeb s umělou inteligencí, které pomáhají odlehčit zátěž online zákaznické péče.
Většina interakcí se zákaznickými službami jsou jednoduché dotazy týkající se například ceny nebo otevírací doby. Může se také jednat o běžné problémy, které může mít mnoho nových zákazníků s produktem, onboarding nebo snadno odstranitelné potíže. +more Umělá inteligence dokáže odpovídat na dotazy bez ohledu na denní či noční dobu a v několika cílových jazycích. Zákazníci dostávají téměř okamžité odpovědi a mohou snadněji řešit problémy.
Limitace
Řada modelů GPT-3 je stejně jako většina technologií svazována jistými limitacemi.
Uživatelé identifikovali zejména následující nedostatky modelu:
* Výstupy mohou postrádat sémantickou koherenci, což vede k tomu, že text je psaný nesrozumitelně a v nesouladu s pravidly správného psaní. Se zvyšující se délkou textu je výstup čím dál více náchylný k tomuto jevu. +more * Ve výstupech jsou obsaženy všechny chyby, které se mohou vyskytovat v trénovacích datech. V praxi to znamená, že výstupy mohou obsahovat diskriminaci, a to například rasovou, genderovou nebo v otázkách víry. * Nelze zaručit, že výstupy modelů budou vždy tvrzení odpovídající reálné skutečnosti, tedy pravdivé výstupy.
Model nefunguje na principu neustálého učení. Byl předem vycvičen, což znamená, že nemá trvalou dlouhodobou paměť, která by se učila z každé interakce.
Kromě výše zmíněních limitací trpí GPT-3 stejnými problémy jako všechny neuronové sítě: nemá dostatečné schopnosti vysvětlit a interpretovat, z jakého důvodu vedou dané vstupy k daným výstupům.
Další limitací modelu, taktéž způsobenou absencí principu neustálého učení je fakt, že model bude brzy zastaralý, pokud nebude doučen na nová data. GPT-3 momentálně funguje na základě dat nasbíraných do roku 2019. +more Neví tak například vůbec nic o tématu jako je Covid-19 a proto když GPT-3 pracuje s pojmy jako "lock down" a nebo společenské distancování, nedokáže poskytnout kontext spojený s pandemií, protože o ní jednoduše neví, stala se až po jeho kompletním naučení. Tento problém lze adresovat doučením modelu o nové, aktuální datasety.
Použití v praxi
Copy.ai
V aplikaci slouží GPT-3 zejména obchodníkům a majitelům různých firem. Produkt je totiž schopný generovat text pro blogy, názvy pro produkty, atp. +more a to na základě slovní zásoby zadané uživatelem. Aplikace generuje řadu možných textových výsledků, ze kterých si poté uživatel sám vybírá, co se mu líbí nejvíce.
Jasper.ai
GPT-3 se používá v Jasper. ai, jako generátor obsahu, který má pomáhat obchodníkům a copyeditorům. +more Aplikace se používá k tomu, aby pomohl podnikům rozšiřovat jejich obsahové strategie, pomáhal nerodilým mluvčím efektivněji sdělovat jejich myšlenky a umožňoval lidem rozvíjet každodenní návyky psaní. Nové rozšíření prohlížeče Jasper vydané pro Chrome umožňuje uživatelům vzít si s sebou generativní umělou inteligenci na celou řadu webových stránek a platforem obsahu, které používají.
ChatGPT
Spadá stejně jako samotný model GPT-3 pod křídla společnosti OpenAI. Jedná se o model, který je schopen odpovídat na otázky dialogovým, konverzačním způsobem. +more Model umí díky svému formátu odpovídat na otázky, přiznávat své chyby a zpochybňovat nesprávné předpoklady. Je také postaven tak, aby odmítal nevhodné požadavky.
Microsoft
GPT-3 bude integrován do Microsoft Power Apps, platformy pro vývoj low code aplikací, která umožní všem, od lidí s malými nebo žádnými zkušenostmi s kódováním až po profesionální vývojáře s hlubokými znalostmi programování, vytvářet aplikace pro zlepšení produktivity nebo podnikových procesů.
Excelformulabot
S využitím GPT-3 umožňuje převádět textové pokyny do vzorců pro aplikace Excel nebo Google Sheets nebo naopak vysvětlit již existující vzorce a jejich dekompozici. Textové pokyny lze převést i do VBA kódu.
CodexDB
Codex syntetizuje specifický kód pro zpracování dotazů SQL pomocí modelu GPT-3 Codex od společnosti OpenAI. Uživatelé si vygenerovaný kód přizpůsobí pomocí instrukcí v přirozeném jazyce. +more Laičtí uživatelé mohou například v přirozeném jazyce popsat výstup, který se má generovat a který jim pomůže při ladění dotazů SQL.
TextCortex AI
Poháněné systémem GPT-3, TextCortex dokáže generovat texty pro blogy nebo marketingové kopie, názvy produktů, značky a další. Uživatelé zadají požadovaný slovník a aplikace vytvoří řadu možných výsledků; uživatelé si pak mohou vybrat ten, který se jim nejvíce líbí.