Megerősítő tanulás: mi az, Algorithms, Típusok és példák
Mi az a megerősítő tanulás?
Erősítő tanulás egy gépi tanulási módszerként van definiálva, amely azzal foglalkozik, hogy a szoftverügynökök hogyan hajtsanak végre műveleteket egy környezetben. A megerősítő tanulás a mély tanulási módszer része, amely segít a halmozott jutalom egy részének maximalizálásában.
Ez a neurális hálózat tanulási módszere segít megtanulni, hogyan érhet el egy összetett célt vagy maximalizálhat egy adott dimenziót több lépésben.
A mélyerősítő tanulási módszer fontos összetevői
Íme néhány fontos kifejezés, amelyet az Inforcement AI-ban használnak:
- Ügynök: Ez egy feltételezett entitás, amely valamilyen jutalom megszerzése érdekében cselekvéseket hajt végre egy környezetben.
- Környezet (e): Egy forgatókönyv, amellyel egy ügynöknek szembe kell néznie.
- Jutalom (R): Azonnali visszatérítés, amelyet az ügynöknek adnak, ha meghatározott műveletet vagy feladatot hajt végre.
- Államok): Az állapot a környezet által visszaadott jelenlegi helyzetre utal.
- Szabályzat (π): Ez egy olyan stratégia, amelyet az ágens alkalmaz a következő cselekvés eldöntésére az aktuális állapot alapján.
- Érték (V): Hosszú távú megtérülést várnak kedvezménnyel, a rövid távú jutalomhoz képest.
- Értékfüggvény: Meghatározza egy állapot értékét, amely a jutalom teljes összege. Ez egy olyan ügynök, amely ettől az állapottól kezdve elvárható.
- A környezet modellje: Ez utánozza a környezet viselkedését. Segít levonni a következtetéseket, és meghatározni, hogyan fog viselkedni a környezet.
- Modell alapú módszerek: Megerősített tanulási problémák megoldására szolgáló módszer, amely modell alapú módszereket használ.
- Q érték vagy műveleti érték (Q): A Q érték nagyon hasonló az értékhez. Az egyetlen különbség a kettő között, hogy egy további paramétert vesz igénybe aktuális műveletként.
Hogyan működik a megerősítő tanulás?
Lássunk néhány egyszerű példát, amely segít szemléltetni a megerősítő tanulási mechanizmust.
Fontolja meg azt a forgatókönyvet, amikor új trükköket taníthat macskájának
- Mivel a macska nem ért angolul vagy más emberi nyelven, nem tudjuk megmondani neki, hogy mit tegyen. Ehelyett más stratégiát követünk.
- Utánozunk egy helyzetet, és a macska sokféleképpen próbál reagálni. Ha a macska a kívánt módon reagál, halat adunk neki.
- Mostantól, amikor a macska ugyanilyen helyzetnek van kitéve, a macska hasonló akciót hajt végre, még lelkesebben, hogy több jutalmat (táplálékot) kapjon.
- Ez olyan, mintha azt tanulnánk, hogy a macska a pozitív tapasztalatokból „mit kell tennie” kap.
- Ugyanakkor a macska azt is megtanulja, mit ne tegyen, ha negatív tapasztalatokkal szembesül.
Példa megerősítéses tanulásra
Ebben az esetben,
- A macskája egy olyan ágens, amely ki van téve a környezetnek. Ebben az esetben ez a te házad. Az állapotra példa lehet az, hogy a macska ül, és egy adott szót használ a macska sétálására.
- Ügynökünk az egyik „állapotból” a másik „állapotba” való átmenet végrehajtásával reagál.
- Például a macskája ülésből sétálni kezd.
- Az ügynök reakciója cselekvés, a politika pedig a cselekvés kiválasztásának módszere egy adott állapotban a jobb eredmények reményében.
- Az átállás után jutalmat vagy büntetést kaphatnak cserébe.
Erősítő tanulás Algorithms
Három megközelítés létezik a megerősítési tanulási algoritmus megvalósítására.
Érték alapú
Az értékalapú megerősítési tanulási módszerben meg kell próbálnia maximalizálni az értékfüggvényt V(s). Ennél a módszernél az ügynök a jelenlegi állapotok hosszú távú visszatérését várja el a politika alatt π.
Politika alapú
A politika alapú RL-módszerben olyan politikát próbálunk kidolgozni, hogy az egyes állapotokban végrehajtott műveletek segítsenek a jövőben a maximális jutalom elérésében.
A politikaalapú módszerek két típusa:
- Determinisztikus: Bármely állapot esetén ugyanazt a műveletet hozza létre a π politika.
- Sztochasztikus: Minden cselekvésnek van egy bizonyos valószínűsége, amelyet a következő egyenlet határoz meg. Sztochasztikus politika:
n{a\s) = P\A, = a\S, =S]
Modell alapú
Ebben a megerősítési tanulási módszerben minden környezethez létre kell hoznia egy virtuális modellt. Az ügynök megtanul teljesíteni az adott környezetben.
A megerősítéses tanulás jellemzői
Itt vannak a megerősítő tanulás fontos jellemzői
- Nincs felügyelő, csak valós szám vagy jutalomjel
- Szekvenciális döntéshozatal
- Az idő döntő szerepet játszik a megerősítési problémákban
- A visszajelzés mindig késik, nem azonnali
- Az ügynök tevékenységei határozzák meg a később kapott adatokat
Az erősítő tanulás típusai
A megerősítő tanulási módszerek két típusa:
Pozitív:
Olyan eseményként határozzák meg, amely meghatározott viselkedés miatt következik be. Növeli a viselkedés erejét és gyakoriságát, és pozitívan befolyásolja az ágens tevékenységét.
Ez a fajta megerősítés segít a teljesítmény maximalizálásában és a változás hosszabb ideig tartó fenntartásában. A túl sok megerősítés azonban az állapot túlzott optimalizálásához vezethet, ami befolyásolhatja az eredményeket.
Negatív:
A negatív megerősítés a viselkedés erősítése, amely egy negatív állapot miatt következik be, amelyet meg kellett volna szüntetni vagy elkerülni. Segít meghatározni a minimális teljesítményt. Ennek a módszernek azonban az a hátránya, hogy elegendő a minimális viselkedés teljesítéséhez.
Tanulási modellek megerősítése
A megerősített tanulásban két fontos tanulási modell létezik:
- Markov döntési folyamata
- Q tanulás
Markov döntési folyamata
A következő paramétereket használjuk a megoldáshoz:
- Cselekvések halmaza - A
- Állapotkészlet -S
- Jutalom - R
- Politika- n
- Érték - V
A matematikai megközelítés a megoldás feltérképezésére a megerősítésben tanulásban Markov döntési folyamatként vagy (MDP) néven ismert.
Q-Learning
A Q-tanulás egy értékalapú információszolgáltatási módszer, amely tájékoztat arról, hogy az ügynöknek milyen lépéseket kell tennie.
Értsük meg ezt a módszert a következő példával:
- Egy épületben öt szoba található, melyeket ajtók kötnek össze.
- Minden szoba 0-tól 4-ig van számozva
- Az épület külső része lehet egy nagy külső terület (5)
- Az 1-es és 4-es számú ajtó az 5-ös helyiségből vezet be az épületbe
Ezután minden ajtóhoz hozzá kell rendelnie egy jutalomértéket:
- A közvetlenül a célhoz vezető ajtók jutalma 100
- Azok az ajtók, amelyek nem kapcsolódnak közvetlenül a célhelyiséghez, nulla jutalmat adnak
- Mivel az ajtók kétirányúak, és minden helyiséghez két nyíl van hozzárendelve
- A fenti képen látható minden nyíl azonnali jutalomértéket tartalmaz
Magyarázat:
Ezen a képen láthatja, hogy a szoba egy állapotot képvisel
Az ügynök mozgása egyik helyiségből a másikba cselekvést jelent
Az alábbi képen egy állapotot csomópontként írunk le, míg a nyilak a műveletet mutatják.
Például egy ügynök áthalad a 2-es szobából az 5-ösbe
- Kezdeti állapot = 2. állapot
- 2. állapot-> 3. állapot
- 3. állapot -> állapot (2,1,4)
- 4. állapot-> állapot (0,5,3)
- 1. állapot-> állapot (5,3)
- 0. állapot-> 4. állapot
Megerősítő tanulás vs. Felügyelt tanulás
paraméterek | Erősítő tanulás | Felügyelt tanulás |
---|---|---|
Döntési stílus | a megerősítő tanulás segít abban, hogy a döntéseket sorrendben hozza meg. | Ennél a módszernél a döntés az elején megadott bemenet alapján történik. |
Működik | A környezettel való interakción dolgozik. | Példákon vagy megadott mintaadatokon dolgozik. |
A döntéstől való függés | Az RL módszerben a tanulási döntés függő. Ezért minden függő döntést meg kell címkézni. | Az egymástól független döntések felügyelt tanulása, így minden döntéshez címkéket adnak. |
Legalkalmasabb | Támogatja és jobban működik az AI-ban, ahol az emberi interakció elterjedt. | Leginkább interaktív szoftverrendszerrel vagy alkalmazásokkal üzemeltetik. |
Példa | Sakkjáték | Tárgyfelismerés |
A megerősítő tanulás alkalmazásai
Itt vannak az erősítő tanulás alkalmazásai:
- Robotika ipari automatizáláshoz.
- Üzleti stratégia tervezése
- Gépi tanulás és adatfeldolgozás
- Segít olyan képzési rendszerek létrehozásában, amelyek a hallgatók igényei szerint biztosítanak egyedi oktatást és anyagokat.
- Repülőgép vezérlés és robot mozgásvezérlés
Miért érdemes megerősítő tanulást használni?
Íme az erősítő tanulás használatának fő okai:
- Segít megtalálni, melyik helyzetben van szükség cselekvésre
- Segít felfedezni, hogy melyik akció hozza a legmagasabb jutalmat hosszabb időn keresztül.
- A megerősítő tanulás jutalmazó funkciót is biztosít a tanuló ügynök számára.
- Azt is lehetővé teszi, hogy kitalálja a legjobb módszert a nagy jutalmak megszerzésére.
Mikor ne használjunk megerősítő tanulást?
Nem alkalmazhatod a megerősítő tanulási modellt, az a helyzet. Íme néhány olyan feltétel, amikor nem érdemes megerősítő tanulási modellt használni.
- Amikor elegendő adat áll rendelkezésére a probléma felügyelt tanulási módszerrel történő megoldásához
- Ne feledje, hogy a megerősítő tanulás számításigényes és időigényes. különösen, ha nagy a cselekvési tér.
A megerősítéses tanulás kihívásai
Íme a fő kihívások, amelyekkel meg kell néznie az erősítés keresésekor:
- Funkció/jutalmak tervezése, amely nagyon fontos
- A paraméterek befolyásolhatják a tanulás sebességét.
- A valósághű környezetek részben megfigyelhetők.
- A túl sok megerősítés az állapotok túlterheléséhez vezethet, ami csökkentheti az eredményeket.
- A valósághű környezetek lehetnek nem helyhez kötöttek.
Összegzésként
- A megerősítéses tanulás egy gépi tanulási módszer
- Segít felfedezni, hogy melyik akció hozza a legmagasabb jutalmat hosszabb időn keresztül.
- A megerősítő tanulás három módszere: 1) Értékalapú 2) Politika alapú és Modell alapú tanulás.
- Ügynök, Állapot, Jutalom, Környezet, Értékfüggvény Környezetmodell, Modell alapú módszerek, néhány fontos kifejezés, amelyet az RL tanulási módszerben használnak.
- A megerősítő tanulás példája az, hogy a macska olyan szer, amely ki van téve a környezetnek.
- Ennek a módszernek a legnagyobb jellemzője, hogy nincs felügyelő, csak valós szám vagy jutalomjel
- A megerősítő tanulás két típusa: 1) pozitív 2) negatív
- Két széles körben használt tanulási modell: 1) Markov döntési folyamat 2) Q tanulás
- Megerősítés A tanulási módszer a környezettel való interakción dolgozik, míg a felügyelt tanulás módszer adott mintaadatokon vagy példákon működik.
- Alkalmazási vagy megerősítési tanulási módszerek a következők: Robotika ipari automatizáláshoz és üzleti stratégia tervezéshez
- Ne használja ezt a módszert, ha elegendő adat áll rendelkezésére a probléma megoldásához
- A módszer legnagyobb kihívása, hogy a paraméterek befolyásolhatják a tanulás sebességét