Megerősítő tanulás: mi az, Algorithms, Típusok és példák

Mi az a megerősítő tanulás?

Erősítő tanulás egy gépi tanulási módszerként van definiálva, amely azzal foglalkozik, hogy a szoftverügynökök hogyan hajtsanak végre műveleteket egy környezetben. A megerősítő tanulás a mély tanulási módszer része, amely segít a halmozott jutalom egy részének maximalizálásában.

Ez a neurális hálózat tanulási módszere segít megtanulni, hogyan érhet el egy összetett célt vagy maximalizálhat egy adott dimenziót több lépésben.

A mélyerősítő tanulási módszer fontos összetevői

A mélyerősítés fontos összetevői

Íme néhány fontos kifejezés, amelyet az Inforcement AI-ban használnak:

  • Ügynök: Ez egy feltételezett entitás, amely valamilyen jutalom megszerzése érdekében cselekvéseket hajt végre egy környezetben.
  • Környezet (e): Egy forgatókönyv, amellyel egy ügynöknek szembe kell néznie.
  • Jutalom (R): Azonnali visszatérítés, amelyet az ügynöknek adnak, ha meghatározott műveletet vagy feladatot hajt végre.
  • Államok): Az állapot a környezet által visszaadott jelenlegi helyzetre utal.
  • Szabályzat (π): Ez egy olyan stratégia, amelyet az ágens alkalmaz a következő cselekvés eldöntésére az aktuális állapot alapján.
  • Érték (V): Hosszú távú megtérülést várnak kedvezménnyel, a rövid távú jutalomhoz képest.
  • Értékfüggvény: Meghatározza egy állapot értékét, amely a jutalom teljes összege. Ez egy olyan ügynök, amely ettől az állapottól kezdve elvárható.
  • A környezet modellje: Ez utánozza a környezet viselkedését. Segít levonni a következtetéseket, és meghatározni, hogyan fog viselkedni a környezet.
  • Modell alapú módszerek: Megerősített tanulási problémák megoldására szolgáló módszer, amely modell alapú módszereket használ.
  • Q érték vagy műveleti érték (Q): A Q érték nagyon hasonló az értékhez. Az egyetlen különbség a kettő között, hogy egy további paramétert vesz igénybe aktuális műveletként.

Hogyan működik a megerősítő tanulás?

Lássunk néhány egyszerű példát, amely segít szemléltetni a megerősítő tanulási mechanizmust.

Fontolja meg azt a forgatókönyvet, amikor új trükköket taníthat macskájának

  • Mivel a macska nem ért angolul vagy más emberi nyelven, nem tudjuk megmondani neki, hogy mit tegyen. Ehelyett más stratégiát követünk.
  • Utánozunk egy helyzetet, és a macska sokféleképpen próbál reagálni. Ha a macska a kívánt módon reagál, halat adunk neki.
  • Mostantól, amikor a macska ugyanilyen helyzetnek van kitéve, a macska hasonló akciót hajt végre, még lelkesebben, hogy több jutalmat (táplálékot) kapjon.
  • Ez olyan, mintha azt tanulnánk, hogy a macska a pozitív tapasztalatokból „mit kell tennie” kap.
  • Ugyanakkor a macska azt is megtanulja, mit ne tegyen, ha negatív tapasztalatokkal szembesül.

Példa megerősítéses tanulásra

Példa megerősítéses tanulásra
Hogyan működik a megerősítő tanulás

Ebben az esetben,

  • A macskája egy olyan ágens, amely ki van téve a környezetnek. Ebben az esetben ez a te házad. Az állapotra példa lehet az, hogy a macska ül, és egy adott szót használ a macska sétálására.
  • Ügynökünk az egyik „állapotból” a másik „állapotba” való átmenet végrehajtásával reagál.
  • Például a macskája ülésből sétálni kezd.
  • Az ügynök reakciója cselekvés, a politika pedig a cselekvés kiválasztásának módszere egy adott állapotban a jobb eredmények reményében.
  • Az átállás után jutalmat vagy büntetést kaphatnak cserébe.

Erősítő tanulás Algorithms

Három megközelítés létezik a megerősítési tanulási algoritmus megvalósítására.

Érték alapú

Az értékalapú megerősítési tanulási módszerben meg kell próbálnia maximalizálni az értékfüggvényt V(s). Ennél a módszernél az ügynök a jelenlegi állapotok hosszú távú visszatérését várja el a politika alatt π.

Politika alapú

A politika alapú RL-módszerben olyan politikát próbálunk kidolgozni, hogy az egyes állapotokban végrehajtott műveletek segítsenek a jövőben a maximális jutalom elérésében.

A politikaalapú módszerek két típusa:

  • Determinisztikus: Bármely állapot esetén ugyanazt a műveletet hozza létre a π politika.
  • Sztochasztikus: Minden cselekvésnek van egy bizonyos valószínűsége, amelyet a következő egyenlet határoz meg. Sztochasztikus politika:
    n{a\s) = P\A, = a\S, =S]

Modell alapú

Ebben a megerősítési tanulási módszerben minden környezethez létre kell hoznia egy virtuális modellt. Az ügynök megtanul teljesíteni az adott környezetben.

A megerősítéses tanulás jellemzői

Itt vannak a megerősítő tanulás fontos jellemzői

  • Nincs felügyelő, csak valós szám vagy jutalomjel
  • Szekvenciális döntéshozatal
  • Az idő döntő szerepet játszik a megerősítési problémákban
  • A visszajelzés mindig késik, nem azonnali
  • Az ügynök tevékenységei határozzák meg a később kapott adatokat

Az erősítő tanulás típusai

A megerősítő tanulási módszerek két típusa:

Pozitív:

Olyan eseményként határozzák meg, amely meghatározott viselkedés miatt következik be. Növeli a viselkedés erejét és gyakoriságát, és pozitívan befolyásolja az ágens tevékenységét.

Ez a fajta megerősítés segít a teljesítmény maximalizálásában és a változás hosszabb ideig tartó fenntartásában. A túl sok megerősítés azonban az állapot túlzott optimalizálásához vezethet, ami befolyásolhatja az eredményeket.

Negatív:

A negatív megerősítés a viselkedés erősítése, amely egy negatív állapot miatt következik be, amelyet meg kellett volna szüntetni vagy elkerülni. Segít meghatározni a minimális teljesítményt. Ennek a módszernek azonban az a hátránya, hogy elegendő a minimális viselkedés teljesítéséhez.

Tanulási modellek megerősítése

A megerősített tanulásban két fontos tanulási modell létezik:

  • Markov döntési folyamata
  • Q tanulás

Markov döntési folyamata

A következő paramétereket használjuk a megoldáshoz:

  • Cselekvések halmaza - A
  • Állapotkészlet -S
  • Jutalom - R
  • Politika- n
  • Érték - V

A matematikai megközelítés a megoldás feltérképezésére a megerősítésben tanulásban Markov döntési folyamatként vagy (MDP) néven ismert.

Markov döntési folyamata

Q-Learning

A Q-tanulás egy értékalapú információszolgáltatási módszer, amely tájékoztat arról, hogy az ügynöknek milyen lépéseket kell tennie.

Értsük meg ezt a módszert a következő példával:

  • Egy épületben öt szoba található, melyeket ajtók kötnek össze.
  • Minden szoba 0-tól 4-ig van számozva
  • Az épület külső része lehet egy nagy külső terület (5)
  • Az 1-es és 4-es számú ajtó az 5-ös helyiségből vezet be az épületbe

Q-Learning

Ezután minden ajtóhoz hozzá kell rendelnie egy jutalomértéket:

  • A közvetlenül a célhoz vezető ajtók jutalma 100
  • Azok az ajtók, amelyek nem kapcsolódnak közvetlenül a célhelyiséghez, nulla jutalmat adnak
  • Mivel az ajtók kétirányúak, és minden helyiséghez két nyíl van hozzárendelve
  • A fenti képen látható minden nyíl azonnali jutalomértéket tartalmaz

Magyarázat:

Ezen a képen láthatja, hogy a szoba egy állapotot képvisel

Az ügynök mozgása egyik helyiségből a másikba cselekvést jelent

Az alábbi képen egy állapotot csomópontként írunk le, míg a nyilak a műveletet mutatják.

Q-Learning

Például egy ügynök áthalad a 2-es szobából az 5-ösbe

  • Kezdeti állapot = 2. állapot
  • 2. állapot-> 3. állapot
  • 3. állapot -> állapot (2,1,4)
  • 4. állapot-> állapot (0,5,3)
  • 1. állapot-> állapot (5,3)
  • 0. állapot-> 4. állapot

Megerősítő tanulás vs. Felügyelt tanulás

paraméterek Erősítő tanulás Felügyelt tanulás
Döntési stílus a megerősítő tanulás segít abban, hogy a döntéseket sorrendben hozza meg. Ennél a módszernél a döntés az elején megadott bemenet alapján történik.
Működik A környezettel való interakción dolgozik. Példákon vagy megadott mintaadatokon dolgozik.
A döntéstől való függés Az RL módszerben a tanulási döntés függő. Ezért minden függő döntést meg kell címkézni. Az egymástól független döntések felügyelt tanulása, így minden döntéshez címkéket adnak.
Legalkalmasabb Támogatja és jobban működik az AI-ban, ahol az emberi interakció elterjedt. Leginkább interaktív szoftverrendszerrel vagy alkalmazásokkal üzemeltetik.
Példa Sakkjáték Tárgyfelismerés

A megerősítő tanulás alkalmazásai

Itt vannak az erősítő tanulás alkalmazásai:

  • Robotika ipari automatizáláshoz.
  • Üzleti stratégia tervezése
  • Gépi tanulás és adatfeldolgozás
  • Segít olyan képzési rendszerek létrehozásában, amelyek a hallgatók igényei szerint biztosítanak egyedi oktatást és anyagokat.
  • Repülőgép vezérlés és robot mozgásvezérlés

Miért érdemes megerősítő tanulást használni?

Íme az erősítő tanulás használatának fő okai:

  • Segít megtalálni, melyik helyzetben van szükség cselekvésre
  • Segít felfedezni, hogy melyik akció hozza a legmagasabb jutalmat hosszabb időn keresztül.
  • A megerősítő tanulás jutalmazó funkciót is biztosít a tanuló ügynök számára.
  • Azt is lehetővé teszi, hogy kitalálja a legjobb módszert a nagy jutalmak megszerzésére.

Mikor ne használjunk megerősítő tanulást?

Nem alkalmazhatod a megerősítő tanulási modellt, az a helyzet. Íme néhány olyan feltétel, amikor nem érdemes megerősítő tanulási modellt használni.

  • Amikor elegendő adat áll rendelkezésére a probléma felügyelt tanulási módszerrel történő megoldásához
  • Ne feledje, hogy a megerősítő tanulás számításigényes és időigényes. különösen, ha nagy a cselekvési tér.

A megerősítéses tanulás kihívásai

Íme a fő kihívások, amelyekkel meg kell néznie az erősítés keresésekor:

  • Funkció/jutalmak tervezése, amely nagyon fontos
  • A paraméterek befolyásolhatják a tanulás sebességét.
  • A valósághű környezetek részben megfigyelhetők.
  • A túl sok megerősítés az állapotok túlterheléséhez vezethet, ami csökkentheti az eredményeket.
  • A valósághű környezetek lehetnek nem helyhez kötöttek.

Összegzésként

  • A megerősítéses tanulás egy gépi tanulási módszer
  • Segít felfedezni, hogy melyik akció hozza a legmagasabb jutalmat hosszabb időn keresztül.
  • A megerősítő tanulás három módszere: 1) Értékalapú 2) Politika alapú és Modell alapú tanulás.
  • Ügynök, Állapot, Jutalom, Környezet, Értékfüggvény Környezetmodell, Modell alapú módszerek, néhány fontos kifejezés, amelyet az RL tanulási módszerben használnak.
  • A megerősítő tanulás példája az, hogy a macska olyan szer, amely ki van téve a környezetnek.
  • Ennek a módszernek a legnagyobb jellemzője, hogy nincs felügyelő, csak valós szám vagy jutalomjel
  • A megerősítő tanulás két típusa: 1) pozitív 2) negatív
  • Két széles körben használt tanulási modell: 1) Markov döntési folyamat 2) Q tanulás
  • Megerősítés A tanulási módszer a környezettel való interakción dolgozik, míg a felügyelt tanulás módszer adott mintaadatokon vagy példákon működik.
  • Alkalmazási vagy megerősítési tanulási módszerek a következők: Robotika ipari automatizáláshoz és üzleti stratégia tervezéshez
  • Ne használja ezt a módszert, ha elegendő adat áll rendelkezésére a probléma megoldásához
  • A módszer legnagyobb kihívása, hogy a paraméterek befolyásolhatják a tanulás sebességét