EITC/AI/ARL Advanced Reinforcement Learning je evropský certifikační program IT zaměřený na přístup DeepMind k posílení vzdělávání v umělé inteligenci.
Kurikulum EITC/AI/ARL Advanced Reinforcement Learning se zaměřuje na teoretické aspekty a praktické dovednosti v technikách posilovacího učení z pohledu DeepMind organizované v následující struktuře, zahrnující komplexní videodidaktický obsah jako referenci pro tuto EITC certifikaci.
Reinforcement learning (RL) je oblast strojového učení zabývající se tím, jak by inteligentní agenti měli podniknout kroky v prostředí, aby maximalizovali představu o kumulativní odměně. Posílení učení je jedním ze tří základních paradigmat strojového učení vedle učení pod dohledem a učení bez dozoru.
Posílení učení se liší od učení pod dohledem v tom, že není nutné, aby byly prezentovány označené páry vstupů a výstupů, a v tom, že není nutné výslovně korigovat suboptimální akce. Místo toho se zaměřujeme na nalezení rovnováhy mezi průzkumem (nezmapovaného území) a exploatací (současných znalostí).
Prostředí se obvykle uvádí ve formě Markovova rozhodovacího procesu (MDP), protože mnoho algoritmů pro učení výztuže pro tento kontext používá techniky dynamického programování. Hlavní rozdíl mezi metodami klasického dynamického programování a algoritmy učení výztuže spočívá v tom, že algoritmy nepředpokládají znalost přesného matematického modelu MDP a zaměřují se na velké MDP, kde jsou přesné metody nemožné.
Díky své obecnosti se učení o posílení studuje v mnoha oborech, jako je teorie her, teorie řízení, operační výzkum, teorie informací, optimalizace založená na simulaci, systémy s více agenty, inteligence rojů a statistika. V literatuře o operačním výzkumu a řízení se učení o posilování nazývá aproximační dynamické programování nebo neuro-dynamické programování. Problémy zájmu o posilovací učení byly studovány také v teorii optimálního řízení, která se zabývá většinou existencí a charakterizací optimálních řešení a algoritmy pro jejich přesný výpočet, a méně učením nebo aproximací, zejména při absenci matematický model prostředí. V ekonomii a teorii her může být posilovací učení použito k vysvětlení, jak může rovnováha vzniknout při omezené racionalitě.
Základní výztuž je modelována jako Markovův rozhodovací proces (MDP). V matematice je Markovův rozhodovací proces (MDP) proces stochastické kontroly v diskrétním čase. Poskytuje matematický rámec pro modelování rozhodování v situacích, kdy jsou výsledky částečně náhodné a částečně pod kontrolou rozhodovatele. MDP jsou užitečné pro studium optimalizačních problémů řešených pomocí dynamického programování. MDP byly známy přinejmenším již v padesátých letech. Jádro výzkumu Markovových rozhodovacích procesů vyplynulo z knihy Ronalda Howarda z roku 1950 nazvané Dynamické programování a Markovovy procesy. Používají se v mnoha oborech, včetně robotiky, automatického řízení, ekonomiky a výroby. Název MDP pochází od ruského matematika Andrey Markova, protože je rozšířením markovských řetězců.
V každém časovém kroku je proces v nějakém stavu S a osoba s rozhodovací pravomocí může zvolit jakoukoli akci a, která je k dispozici ve stavu S. Proces reaguje v dalším časovém kroku náhodným přesunem do nového stavu S 'a zadáním rozhodovatel odpovídající odměnu Ra (S, S ').
Pravděpodobnost, že se proces přesune do svého nového stavu S ', je ovlivněna zvolenou akcí a. Konkrétně je to dáno funkcí přechodu stavu Pa (S, S '). Další stav S 'tedy závisí na aktuálním stavu S a činnosti rozhodovatele a. Ale vzhledem k S a a je podmíněně nezávislý na všech předchozích stavech a akcích. Jinými slovy, přechody stavu MDP uspokojují vlastnost Markov.
Markovské rozhodovací procesy jsou rozšířením markovských řetězců; Rozdíl spočívá v přidání akcí (umožnění volby) a odměn (poskytnutí motivace). Naopak, pokud pro každý stát existuje pouze jedna akce (např. „Počkejte“) a všechny odměny jsou stejné (např. „Nula“), proces Markovova rozhodnutí se redukuje na Markovův řetězec.
Agent pro posílení učení interaguje se svým prostředím v diskrétních časových krocích. V každém okamžiku t agent obdrží aktuální stav S (t) a odměnu r (t). Poté vybere akci a (t) ze sady dostupných akcí, která se následně odešle do prostředí. Prostředí se přesune do nového stavu S (t + 1) a určí se odměna r (t + 1) spojená s přechodem. Cílem agenta pro posílení učení je naučit se politiku, která maximalizuje očekávanou kumulativní odměnu.
Formulování problému jako MDP předpokládá, že agent přímo sleduje aktuální stav prostředí. V tomto případě se říká, že problém má plnou pozorovatelnost. Pokud má agent přístup pouze k podmnožině stavů, nebo pokud jsou pozorované stavy poškozeny šumem, má agent částečnou pozorovatelnost a formálně musí být problém formulován jako částečně pozorovatelný Markovův rozhodovací proces. V obou případech lze omezit sadu akcí dostupných agentovi. Například stav zůstatku na účtu může být omezen tak, aby byl kladný; pokud je aktuální hodnota stavu 3 a přechod stavu se pokusí snížit hodnotu o 4, přechod nebude povolen.
Když je výkon agenta srovnáván s výkonem agenta, který jedná optimálně, rozdíl ve výkonu vyvolává představu o lítosti. Aby agent jednal téměř optimálně, musí uvažovat o dlouhodobých důsledcích svého jednání (tj. Maximalizovat budoucí příjem), ačkoli okamžitá odměna s tím spojená může být negativní.
Posilující učení je tedy zvláště vhodné pro problémy, které zahrnují kompromis mezi dlouhodobou a krátkodobou odměnou. Úspěšně byl aplikován na různé problémy, včetně řízení robotů, plánování výtahů, telekomunikací, backgammonů, dám a Go (AlphaGo).
Díky dvěma prvkům je učení výztuže silné: použití vzorků k optimalizaci výkonu a použití aproximace funkcí k řešení velkých prostředí. Díky těmto dvěma klíčovým komponentám lze učení výztuže použít ve velkých prostředích v následujících situacích:
- Model prostředí je známý, ale analytické řešení není k dispozici.
- Je uveden pouze simulační model prostředí (předmět optimalizace založené na simulaci).
- Jediným způsobem, jak sbírat informace o prostředí, je komunikovat s ním.
První dva z těchto problémů lze považovat za problémy plánování (protože nějaká forma modelu je k dispozici), zatímco poslední z nich lze považovat za skutečný problém učení. Posílení učení však převádí oba problémy plánování na problémy strojového učení.
Kompromis průzkumu vs. vykořisťování byl nejdůkladněji prostudován problémem mnohorukých banditů a MDP pro konečný stav vesmíru v Burnetas a Katehakis (1997).
Posílení učení vyžaduje chytré průzkumné mechanismy; náhodný výběr akcí, bez odkazu na odhadované rozdělení pravděpodobnosti, vykazuje špatný výkon. Případ (malých) konečných Markovových rozhodovacích procesů je poměrně dobře pochopen. Kvůli nedostatku algoritmů, které se dobře přizpůsobují počtu stavů (nebo se přizpůsobují problémům s nekonečnými stavovými prostory), jsou však nejpraktičtější jednoduché metody průzkumu.
I když se nebere v úvahu otázka průzkumu a i když byl stav pozorovatelný, zůstává problémem využít minulé zkušenosti ke zjištění, které akce vedou k vyšším kumulativním odměnám.
Chcete-li se podrobně seznámit s certifikačním kurikulem, můžete rozšířit a analyzovat níže uvedenou tabulku.
Certifikační kurikulum EITC/AI/ARL Advanced Reinforcement Learning odkazuje na didaktické materiály s otevřeným přístupem ve formě videa. Učební proces je rozdělen do struktury krok za krokem (programy -> lekce -> témata) pokrývající příslušné části kurikula. Poskytujeme také neomezené poradenství s odborníky na domény.
Podrobnosti o kontrole certifikačního postupu Jak to funguje.
Zdroje referenčních osnov
Řízení na lidské úrovni prostřednictvím publikace Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Kurz otevřeného přístupu k hlubokému posílení učení na UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL aplikován na problém banditů s K-armbed z Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Stáhněte si kompletní offline přípravné materiály pro samostudium pro EITC/AI/ARL Advanced Reinforcement Learning v souboru PDF
Přípravné materiály EITC/AI/ARL – standardní verze
Přípravné materiály EITC/AI/ARL – rozšířená verze s kontrolními otázkami