Základní model

Technology

12 hours ago

Author

Základní model (anglicky foundation model nebo base model) je velký model umělé inteligence (AI) trénovaný na obrovském množství dat, který lze pak přizpůsobit široké škále úkolů. Často vzniká metodou samoučení (self-supervised learning) nebo částečného učení s učitelem (semi-supervised learning). Základní modely znamenají zásadní změnu způsobu, jakým se budují systémy umělé inteligence. Pohánějí například prominentní chatboty a další uživatelsky orientované aplikace umělé inteligence. Termín základní model popularizovalo výzkumné středisko Center for Research on Foundation Models (CRFM) Stanfordského institutu pro umělou inteligenci zaměřenou na člověka (Stanford Institute for Human-Centered Artificial Intelligence's, HAI).

Prvními příklady základních modelů byly předtrénované velké jazykové modely (Large language models, LLM) jako BERT společnosti Google a různé modely nadace OpenAI, zejména její řada modelů GPT-x, jež pohánějí mimo jiné chatbot ChatGPT. Takovéto obecné modely lze pak upravit pro specifické úlohy a/nebo oblasti, dokonce i když využívají posloupnosti jiných typů znaků, například lékařské kódy.

Dále byly vytvořeny základní modely vizuálních a multimodálních dat například DALL-E, Flamingo, Florence a NOOR. Vizuální základní modely (Visual foundation models, VFM) byly pak zkombinovány s textovými LLM za účelem vytvoření sofistikovaných modelů pro složitější úkoly kombinující oba typy dat.

Definice

Stanfordské výzkumné středisko Center for Research on Foundation Models (CRFM) zavedlo termín „foundation model“ (základní model) v srpnu 2021 a předběžně mělo na mysli „jakýkoli model, který je trénován na rozsáhlých datech (obecně s využitím samoučení) a který lze přizpůsobit (např. doladit) pro širokou škálu navazujících úloh“. +more To bylo založeno na jejich pozorování, že existující překrývající se termíny nejsou adekvátní. Pojen „(velký) jazykový model“ je příliš úzký, protože nejde pouze o jazyk; „model založený na samoučení“ je příliš specifický co do metody vzniku takového modelu; a „předtrénovaný model“ zní, jako by to podstatné nastávalo až po „předtrénování“. Po zvážení mnoha možných označení se stanfordští vědci shodli na „základním modelu“, aby zdůraznili zamýšlenou funkci (tj. možnost dalšího rozvoje) spíše než modalitu, architekturu nebo implementaci.

Poznamenávají také, že sám koncept není vlastně nový, protože se zakládá na hlubokém učení neuronových sítí a samoučení, ale tvrdí, že rozsah, ve kterém se oblast v posledních letech [tj. kolem roku 2020] rozvinula, a rostoucí potenciál modelů sloužit pro nejrůznější účely si zasluhují nové označení.

Základní model je „paradigma pro budování systémů umělé inteligence“, ve kterém lze model trénovaný na velkém množství dat bez nezávisle proměnné (unlabeled data) přizpůsobit mnoha aplikacím. Základní modely jsou „navrženy tak, aby je bylo možné přizpůsobit (např. +more doladit) pro různé navazující úlohy, poněvadž jsou předtrénovány na široké škále dat“.

Klíčovými charakteristikami základních modelů jsou emergence a homogenizace. Vzhledem k tomu, že trénovací data nejsou popsána lidmi, model spíše emerguje, než aby byl explicitně popsaný. +more Mohou se u něj objevit vlastnosti, které nebyly předpokládány. Například model trénovaný na velké jazykové datové sadě se může naučit psát vlastní příběhy nebo provádět aritmetické operace, aniž by k tomu byl výslovně naprogramován. Homogenizace znamená, že stejná metoda se používá v mnoha doménách, což umožňuje výrazný pokrok, ale zároveň se objevuje možnost selhání napříč různými aplikacemi následkem jediného nedostatku základního modelu.

Personalizace základních modelů

Vzhledem k tomu, že základní modely jsou trénovány na obecném datovém souboru, nejsou bez dalšího schopny zpracovat specifické „personalizované“ výstupy, které by uživatele mohly zajímat. Byla navržena řada metod k rozšíření základního modelu o takové specifické položky bez přeškolování celého modelu. +more Například základní model vidění a jazyka (CLIP) lze přizpůsobit přidáním nového konceptu do jeho slovní zásoby. Pro generování obrázků na základě textových vstupů lze podobně použít přístup nazvaný textová inverze (textual inversion), aby se systém naučil novému konceptu, který lze později generovat ve spojení s koncepty, jež základní model již zná.