Posílené učení: Co je Algorithms, Typy a příklady

Co je posilovací učení?

Posílení učení je definována jako metoda strojového učení, která se zabývá tím, jak by softwaroví agenti měli provádět akce v prostředí. Posílené učení je součástí metody hlubokého učení, která vám pomáhá maximalizovat určitou část kumulativní odměny.

Tato metoda učení neuronové sítě vám pomůže naučit se, jak dosáhnout komplexního cíle nebo maximalizovat konkrétní dimenzi v mnoha krocích.

Důležité součásti metody hlubokého posilování

Důležité součásti hluboké výztuže

Zde jsou některé důležité termíny používané v Reinforcement AI:

  • Činidlo: Je to předpokládaná entita, která provádí akce v prostředí, aby získala nějakou odměnu.
  • Prostředí (e): Scénář, kterému musí agent čelit.
  • Odměna (R): Okamžitý návrat daný agentovi, když vykoná konkrétní akci nebo úkol.
  • Státy: Stav odkazuje na současnou situaci navrácenou prostředím.
  • Zásady (π): Je to strategie, kterou agent používá k rozhodování o další akci na základě aktuálního stavu.
  • Hodnota (V): Očekává se dlouhodobý výnos se slevou ve srovnání s krátkodobou odměnou.
  • Funkce hodnoty: Specifikuje hodnotu stavu, která je celkovou částkou odměny. Je to agent, který by měl být očekáván od tohoto stavu.
  • Model prostředí: To napodobuje chování okolí. Pomáhá vám vyvodit závěry a také určit, jak se bude prostředí chovat.
  • Metody založené na modelu: Je to metoda pro řešení problémů učení se zesílením, která využívá metody založené na modelu.
  • Hodnota Q nebo akční hodnota (Q): Hodnota Q je velmi podobná hodnotě. Jediný rozdíl mezi těmito dvěma je v tom, že jako aktuální akce bere další parametr.

Jak posilovací učení funguje?

Podívejme se na jednoduchý příklad, který vám pomůže ilustrovat mechanismus učení posilování.

Zvažte scénář výuky nových triků vaší kočky

  • Protože kočka nerozumí angličtině ani jinému lidskému jazyku, nemůžeme jí přímo říct, co má dělat. Místo toho sledujeme jinou strategii.
  • Napodobujeme situaci a kočka se snaží reagovat mnoha různými způsoby. Pokud je reakce kočky požadovaným způsobem, dáme jí rybu.
  • Nyní, kdykoli je kočka vystavena stejné situaci, provádí podobnou akci s ještě větším nadšením v očekávání, že dostane více odměny (jídla).
  • Je to jako naučit se, že kočka získá z „co dělat“ z pozitivních zkušeností.
  • Zároveň se kočka také učí, co nedělat, když čelí negativním zkušenostem.

Příklad posilovacího učení

Příklad posilovacího učení
Jak funguje posilovací učení

V tomto případě,

  • Vaše kočka je agent, který je vystaven životnímu prostředí. V tomto případě je to váš dům. Příkladem stavu může být vaše kočka sedící a pro chůzi pro kočku použijete konkrétní slovo.
  • Náš agent reaguje provedením akčního přechodu z jednoho „stavu“ do jiného „stavu“.
  • Například vaše kočka přejde ze sezení do chůze.
  • Reakce agenta je akce a politika je metoda výběru akce daného stavu v očekávání lepších výsledků.
  • Po přechodu mohou na oplátku získat odměnu nebo trest.

Posílení učení Algorithms

Existují tři přístupy k implementaci algoritmu posílení učení.

Na základě hodnoty

V metodě posilování založené na hodnotách byste se měli pokusit maximalizovat hodnotovou funkci V. Při této metodě agent očekává dlouhodobou návratnost aktuálních stavů v rámci politiky π.

Na základě zásad

V metodě RL založené na zásadách se snažíte vymyslet takovou politiku, aby vám akce provedená v každém státě pomohla získat v budoucnu maximální odměnu.

Existují dva typy metod založených na zásadách:

  • Deterministický: Pro každý stav je stejná akce vyvolána politikou π.
  • Stochastic: Každá akce má určitou pravděpodobnost, která je určena následující rovnicí. Stochastic Policy :
    n{a\s) = P\A, = a\S, =S]

Model založený

V této metodě Reinforcement Learning potřebujete vytvořit virtuální model pro každé prostředí. Agent se naučí fungovat v tomto specifickém prostředí.

Charakteristika posilovacího učení

Zde jsou důležité charakteristiky posilovacího učení

  • Neexistuje žádný supervizor, pouze skutečné číslo nebo signál odměny
  • Sekvenční rozhodování
  • Čas hraje v problémech s posilováním zásadní roli
  • Zpětná vazba je vždy zpožděná, nikoli okamžitá
  • Akce agenta určují následující data, která obdrží

Typy posilovacího učení

Existují dva typy metod učení posilování:

Pozitivní:

Je definována jako událost, ke které dochází v důsledku specifického chování. Zvyšuje sílu a frekvenci chování a pozitivně ovlivňuje činnost agenta.

Tento typ zesílení vám pomůže maximalizovat výkon a udržet změny po delší dobu. Příliš mnoho zesílení však může vést k nadměrné optimalizaci stavu, což může ovlivnit výsledky.

Negativní:

Negativní posílení je definováno jako posílení chování, ke kterému dochází v důsledku negativního stavu, který by měl být zastaven nebo se mu měl vyhnout. Pomůže vám definovat minimální úroveň výkonu. Nevýhodou této metody je však to, že poskytuje dostatek pro splnění minimálního chování.

Učební modely posilování

V posilovacím učení existují dva důležité modely učení:

  • Markovův rozhodovací proces
  • Q učení

Markovův rozhodovací proces

K získání řešení se používají následující parametry:

  • Soubor akcí - A
  • Sada stavů -S
  • Odměna - R
  • Zásady- n
  • Hodnota - V

Matematický přístup pro mapování řešení v posilovacím učení je přehodnocen jako Markovův rozhodovací proces neboli (MDP).

Markovův rozhodovací proces

Q-Learning

Q učení je metoda založená na hodnotách poskytování informací, které informují o tom, jakou akci by měl agent provést.

Pojďme pochopit tuto metodu na následujícím příkladu:

  • V budově je pět místností, které jsou propojeny dveřmi.
  • Každý pokoj má číslo 0 až 4
  • Vnější část budovy může být jedna velká venkovní plocha (5)
  • Dveře číslo 1 a 4 vedou do budovy z místnosti 5

Q-Learning

Dále musíte ke každému dveřím přiřadit hodnotu odměny:

  • Dveře, které vedou přímo k cíli, mají odměnu 100
  • Dveře, které nejsou přímo spojeny s cílovou místností, dávají nulovou odměnu
  • Protože dveře jsou obousměrné a pro každou místnost jsou přiřazeny dvě šipky
  • Každá šipka na obrázku nahoře obsahuje okamžitou hodnotu odměny

Vysvětlení:

Na tomto obrázku můžete vidět, že místnost představuje stát

Pohyb agenta z jedné místnosti do druhé představuje akci

Na níže uvedeném obrázku je stav popsán jako uzel, zatímco šipky ukazují akci.

Q-Learning

Například agent přejde z místnosti číslo 2 do místnosti 5

  • Počáteční stav = stav 2
  • Stav 2 -> stav 3
  • Stav 3 -> stav (2,1,4)
  • Stav 4-> stav (0,5,3)
  • Stav 1-> stav (5,3)
  • Stav 0 -> stav 4

Posílené učení vs. učení pod dohledem

parametry Posílení učení Dozorované učení
Styl rozhodování posilovací učení vám pomůže přijímat rozhodnutí postupně. U této metody se rozhoduje o vstupu zadaném na začátku.
Práce na Pracuje na interakci s okolím. Pracuje na příkladech nebo daných vzorových datech.
Závislost na rozhodnutí V metodě RL je rozhodnutí o učení závislé. Proto byste měli označovat všechna závislá rozhodnutí. Pod dohledem se učí rozhodnutí, která jsou na sobě nezávislá, takže každé rozhodnutí je označeno.
Nejvhodnější Podporuje a funguje lépe v AI, kde převládá lidská interakce. Většinou je provozován pomocí interaktivního softwarového systému nebo aplikací.
Příklad Šachová hra Rozpoznávání objektů

Aplikace posilovacího učení

Zde jsou aplikace posilovacího učení:

  • Robotika pro průmyslovou automatizaci.
  • Plánování obchodní strategie
  • Strojové učení a zpracování dat
  • Pomáhá vám vytvářet školicí systémy, které poskytují vlastní výuku a materiály podle požadavků studentů.
  • Řízení letadla a řízení pohybu robota

Proč používat posilovací učení?

Zde jsou hlavní důvody pro použití posilovacího učení:

  • Pomůže vám zjistit, která situace vyžaduje akci
  • Pomůže vám zjistit, která akce přináší nejvyšší odměnu za delší období.
  • Posílení učení také poskytuje učícímu se agentovi funkci odměny.
  • Umožňuje také zjistit nejlepší způsob, jak získat velké odměny.

Kdy nepoužít posilovací učení?

Nemůžete použít model učení posilování je celá situace. Zde jsou některé podmínky, kdy byste neměli používat model učení posilování.

  • Když máte dostatek dat k vyřešení problému pomocí metody učení pod dohledem
  • Musíte si pamatovat, že posilování učení je náročné na výpočetní techniku ​​a časově náročné. zvláště když je akční prostor velký.

Výzvy posilovacího učení

Zde jsou hlavní výzvy, kterým budete čelit při vydělávání posil:

  • Návrh funkce/odměny, který by měl být velmi zapojen
  • Parametry mohou ovlivnit rychlost učení.
  • Realistická prostředí mohou mít částečnou pozorovatelnost.
  • Příliš mnoho zesílení může vést k přetížení stavů, což může snížit výsledky.
  • Realistická prostředí mohou být nestacionární.

Shrnutí

  • Reinforcement Learning je metoda strojového učení
  • Pomůže vám zjistit, která akce přináší nejvyšší odměnu za delší období.
  • Tři metody posilujícího učení jsou 1) Učení založené na hodnotách, 2) Učení založené na zásadách a modelech.
  • Agent, stav, odměna, prostředí, hodnotová funkce Model prostředí, metody založené na modelu, jsou některé důležité pojmy používané v metodě učení RL
  • Příkladem posilovacího učení je, že vaše kočka je agent, který je vystaven prostředí.
  • Největší charakteristikou této metody je, že neexistuje žádný supervizor, pouze reálné číslo nebo signál odměny
  • Dva typy posilovacího učení jsou 1) Pozitivní 2) Negativní
  • Dva široce používané modely učení jsou 1) Markovův rozhodovací proces 2) Q učení
  • Metoda posilovacího učení pracuje na interakci s prostředím, zatímco učení pod dohledem metoda pracuje na zadaných vzorových datech nebo příkladu.
  • Aplikační nebo posilovací učební metody jsou: Robotika pro průmyslovou automatizaci a plánování obchodní strategie
  • Tuto metodu byste neměli používat, pokud máte dostatek dat k vyřešení problému
  • Největší výzvou této metody je, že parametry mohou ovlivnit rychlost učení