Zpětnovazební učení

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Zpětnovazební učení je technika strojového učení pomocí zpětné vazby. Po celý svůj život dostáváme ze svého okolí nepřetržitě zpětnou vazbu. Často ji ale sami neregistrujeme a naše budoucí chování pak není ovlivněno, protože jsme mezi své zkušenosti a znalosti nepřidali informace získané zpětnou vazbou. Kritickým faktorem zpětnovazebního učení je tedy uvědomění zpětné vazby. V praxi se k tomu využívá často lektor, který nám zpětnou vazbu pomůže identifikovat,nebo nám ji podá.

Vlastnosti zpětné vazby a informací ve vztahu k učení

Objektivní zpětná vazba - na základě objektivity zpětné vazby nevznikají při učení pochyby. jak naše chování ovlivnit. +more * Subjektivní zpětná vazba - vznikají pochyby, zda zpětná vazba má patřičný význam, důležitost či pravdivost.

* Intrizitivní informace - vlastní. neboli vnitřní proprioceptivní (zrak, sluch); * Extrinzitivní informace - vnější. +more neboli exteroceptivní (poskytnutí zpětné vazby druhým člověkem, nebo záznamem na videu).

Zpětnovazební učení v agentních systémech

Inspirováno behavioristy psychologie. Zpětnovazební (zesilující) učení je oblast informatiky tykající se chování agentů. +more Agenti jsou umísťování do nějakého prostředí a jejich cílem je naučit se chovat tak, aby bylo dosaženo maximálního užitku. U řady komplexních prostředí je to jediný efektivní způsob, jak navrhovat agenty a jejich funkce. Díky své obecnosti je zohledňován v mnoha dalších oborech, jako je například teorie řízení, operační výzkum, teorie informace, simulačně založené optimalizace, statistiky a genetické algoritmy. Operační výzkum a kontrola literatury jsou oblasti, kde metody zpětnovazebního učení se odrážejí především v dynamickém programování. Zpětnovazební učení je tak jedním ze základních východisek umělé inteligence. V operativním výzkumu a řízení existují oblasti jejichž zkoumání se nazývá aproximační dynamické programování a jež přináší problém výzkumu v teorii optimálního řízení. Většina existujících studií se zabývá existencí optimálních řešení a jejich charakterizace ale již se nezabývá zpětnovazebním učením nebo jejich aproximačních aspektů. V ekonomice a teorii her je zpětnovazební učení často spojováno s vysvětlením na základě rovnováhy omezené racionality. Ve strojovém učení je prostředí obvykle formulována jako Markovův rozhodovací proces a mnoho algoritmů zpětnovazebního učení se díky této souvislosti vztahuje k technikám dynamického programování.

Model zpětnovazebního učení se většinou skládá:

# množiny stavů prostředí S # množiny možných akcí A # pravidel přechodových funkcí # pravidla, která určují bezprostřední odměnu přechodu do jiného stavu # pravidla, definují cíle agenta

Pravidla jsou často stochastická. Pozorování často zahrnují bezprostřední odměna spojenou s posledním přechodem z jednoho stavu do druhého. +more V závislosti na možnosti zkoumání aktuálního stavu životního prostředí někdy případě hovoříme o plné pozorovatelnosti, zatímco v druhém případě hovoříme o částečné pozorovatelnosti. Soubor akcí které má agent k dispozici může být omezen omezena (např. , nemůže utratit více peněz, než má).

Se svým prostředím reaguje agent v diskrétním čase. A v každém kroku t získá agent informace o prostředí či situaci o_t,které často obsahují hodnotu užitku. +morer_t. Následně provede volbu akce a_t z množiny přípustných akcí a po jejím provedení je tato akce zaslána do prostředí. Prostředí se tak dostává do nového stavu s_{t+1} s užitkem r_{t+1} spojeným s přechodem (s_t,a_t,s_{t+1}). Cílem zpětnovazebního učení agentů je získat co největší užitek.

Síla zpětnovazebního učení je dána především díky použití vzorků k optimalizaci výkonu a aproximaci chování ve velkých prostředích. Díky těmto dvěma klíčovými vlastnostem, může být zpětnovazební učení použito ve velkých prostředích za některý z následujících situací: * Model životního prostředí je známý, ale analytické řešení není k dispozici * Je uveden pouze simulační model životního prostředí * Jediný způsob, jak sbírat informace o životním prostředí je interakcí s ním. +more První dva z těchto případů, je možné považovat za problémy při plánování. Nicméně podle metodiky zpětnovazebního učení metodiky mohou být převedeny do problémů strojového učení. Poslední zmíněný případ by mohl být považován za skutečný problém při učení.

Algoritmy zpětnovazebního učení

Neberou v úvahu pozorovatelnost prostředí a to i v případě,kdy byl stav pozorovatelný. Problémem zůstává na základě minulých zkušeností zjistit, jaké akce jsou dobré. +more Mezi nejznámější algoritmy patří: * Kritérium optimality (Criterion of optimality) ** Algoritmus jenž stanovuje vlastnosti(parametry) kritérii optimálních rozhodnutí, zužující výběr následující akce. * Hrubá síla (Brute force) ** Skládá se ze dvou hlavních kroků: *** Pro každou možnou strategii zjisti její užitek *** Zvol strategii s největším užitkem ** Velkou nevýhodou této metody je, že počet strategií může být extrémně velký nebo také nekonečný. * Přístup založený na užitkových funkcích (Value function approaches) ** Přístup založený na užitkové funkci. * Metody Monte Carlo ** Založen na ohodnocování stavů metodou Monte Carlo. * Temporální diference (Temporal difference methods) * Přímé hledání strategie (Direct policy search).

Zpětnovazební učení a umělá inteligence

Zpětnovazební učení je také jedním ze základních stavebních kamenů umělé inteligence. Při zpětnovazebném učení agentů dva základní přístupy. +more Prvním je pasivní učení a druhým aktivní.

Pasivní učení

Je takové učení, kde je pevně dána strategie a učení je založeno na užitku z dosahovaných stavů a vykonaných akcí. Při procesu učení je tady cílem ohodnotit kvalitu zvolené strategie na základě očekávaného užitku. +more Protože však ale agent nezná přechodový model a ani užitkovou funkci, snaží se procházet prostředím za použití dané strategie a v každém stavu pak získá ocenění stavu formou vlastního vjemu.

Přímý model

Založen na principu (reward-to-go). Pro stavy v každém vzorku vypočte ocenění stavů cesty od počátku do cíle. +more Protože jeden stav se může vyskytovat ve více vzorcích, ohodnotíme stav tak uděláme průměr ocenění cest. V podstatě se jedná o učení s učitelem, kdy vstupem jsou všechny stavy a výstupem je očekávaný užitek. Hlavním problémem je, že stavy oceňujeme jako kdyby byly nezávislé, ale mezi stavy je vztah daný Bellmanovými rovnicemi. π(s) = R(s) + γ Σ P(s‘|s, π (s)) U π(s‘) V přímém modelu pak prohledáváme zbytečně velký prostor hypotéz (i ty hypotézy, které nesplňují Bellmanovy rovnice) a tím je dosaženo pomalejší konvergence k optimální strategii.

Adaptivní dynamické programování pro pasivní učení

Založeno na tom, že oproti přímému modelu bere navíc v úvahu Bellmanovy rovnice. Užitek se z Bellmanových rovnic dopočítává například iterací hodnot nebo strategií.

Temporální diference

Přístup založený na úpravě hodnot stavů. Místo učení se přechodové tabulky, přímo provádíme úpravy užitku jednotlivých stavů tak, aby odpovídal Bellmanovým rovnicím.

Adaptivní dynamické programování vs Temporální diference

Adaptivní dynamické programování i temporální diference provádějí lokální změny tak, aby užitek daného stavu odpovídal užitku okolních stavů. Hlavní rozdíly jsou následující:

Temporální diference: * nepotřebuje přechodový model * pro update používá pozorovaného následníka * v kroku dělá jedinou změnu Adaptivní dynamické programování: * pro update používá všechny následníky * změnu propaguje, aby byla udržena konzistence

Aktivní učení

Při výše zmíněném pasivním učení je předem dána strategie určující chování agenta. U aktivního učení se agent učí (učí se strategii) co má dělat a zkoumá k tomu prostředí. +more Aktivní agent se sám rozhoduje, jaké akce provede (a tím určuje i strategii).

Hladový agent

Rozšířením pasivního agenta adaptivního dynamického programování o model přechodů dostaneme tzv. hladového agenta. +more Protože užitek je definován optimální strategií danou dle Bellmanových rovnic.

Uπ(s) = R(s) + γ max Σs‘ P(s‘|s, a) Uπ(s‘)

následně pak můžeme přímo použít ve funkci výpočtu užitku v adaptivního dynamického programování. Obecně tak v každém kroku agent provádí následující: * na základě vypočteného užitku U zvolí nejlepší akci * vykoná akci doporučenou optimální strategií * Ověří zda neexistuje nějaká lepšího varianta

To že není jisté zda agent nalezne optimální strategii je dáno následujícími vlastnostmi:

* Důvody proč výběr optimální akce nedává optimální strategii ** akce je vybrána podle naučeného prostředí ne podle skutečného prostředí ** akce přispívá nejen do funkce užitku, ale také do zdokonalení modelu světa (tento aspekt ADP agent ignoroval) ** zlepšením modelu můžeme v budoucnu získat větší užitek než ten ,který se v současném prostředí jeví jako nejlepší * Agent potřebuje do jisté míry dělat průzkum prostředí.

Aspekty průzkumu prostředí * Poměr mezi průzkumem prostředí a jeho využitím ** Čistý průzkum zlepšuje model, ale model se nikdy nevyužije ** Čisté využití vede k sub-optimální strategii * Základní princip ** Zpočátku je lepší více prozkoumávat prostředí s vírou v nalezení lepších cest ** S větším porozuměním prostředí stačí menší průzkum * Problém n-rukého bandity ** herní automat s n-pákami (nebo n automatů) ** Jakou páku preferovat? *** páku, kde už jsem někdy vyhrál (ale málo) nebo raději páku,kterou jsem ještě nezkoušel?

Q-učení

Q-učení je technika zpětnovazebního učení založená na užitkové funkci pro nějakou akci, která dává očekávaný užitek provedení dané akce v daném stavu a pro pevné dané politiky. Jednou ze silných stránek Q-učení je schopnost porovnat očekávaný užitek z dostupných akcí bez nutnosti znalosti modelu prostředí. +more Varianta tzv. zpožděné Q-learning dosahuje mnohem lepších výsledků, a tím se ukazuje jako vhodné učení pro markovské rozhodovací procesy.

SARSA (State-Action-Reward-State-Action)

Je velmi blízký způsob aktivního učení příbuzný Q-učení s následujícím updatovacím pravidlem:

kde použije celou pětici (s,a,r,s‘,a‘) což znamená že, pro update se čeká na další akci.

SARSA vs. Q-učení

Pro hladového agenta jsou Q-učení a SARSA totožné (vybere vždy akci a‘ maximalizující Q(s‘,a‘). Při průzkumu se výrazně liší v tom, že Q-učení se nestará o aktuální strategii a agent funguje dobře i s náhodnou strategií. +more Naopak SARSA je realističtější, protože se učí Q-funkci na základě toho,co se skutečně stalo, ne co by se mohlo stát a naučí se i reakci na další agenty.

Reference

Literatura

Linhart, Josef. Základy psychologie učení. 1. vyd. Praha : SPN, 1982. 249 s. * Barták, Roman. Přednáška z předmětu Umělá inteligence II na MFF UK.

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top