Förstärkningsinlärning: Vad är, Algorithms, Typer & Exempel
Vad är förstärkningsinlärning?
Förstärkningslärande definieras som en maskininlärningsmetod som handlar om hur programvaruagenter ska vidta åtgärder i en miljö. Reinforcement Learning är en del av metoden för djupinlärning som hjälper dig att maximera en del av den kumulativa belöningen.
Denna inlärningsmetod för neurala nätverk hjälper dig att lära dig hur du uppnår ett komplext mål eller maximerar en specifik dimension över många steg.
Viktiga komponenter i inlärningsmetoden för djup förstärkning
Här är några viktiga termer som används i Reinforcement AI:
- Ombud: Det är en antagen enhet som utför åtgärder i en miljö för att få belöning.
- Miljö (e): Ett scenario som en agent måste möta.
- Belöning (R): En omedelbar avkastning som ges till en agent när han eller hon utför en specifik åtgärd eller uppgift.
- Stater): Tillstånd avser den nuvarande situationen som återkommer av miljön.
- Policy (π): Det är en strategi som tillämpas av agenten för att bestämma nästa åtgärd baserat på det aktuella tillståndet.
- Värde (V): Det förväntas långsiktig avkastning med rabatt, jämfört med den kortsiktiga belöningen.
- Värdefunktion: Den anger värdet av en stat som är det totala beloppet av belöning. Det är en agent som bör förväntas från det tillståndet.
- Miljömodell: Detta efterliknar miljöns beteende. Det hjälper dig att dra slutsatser som ska göras och även bestämma hur miljön kommer att bete sig.
- Modellbaserade metoder: Det är en metod för att lösa problem med förstärkningsinlärning som använder modellbaserade metoder.
- Q-värde eller åtgärdsvärde (Q): Q-värdet är ganska likt värdet. Den enda skillnaden mellan de två är att den tar en extra parameter som en aktuell åtgärd.
Hur fungerar förstärkningsinlärning?
Låt oss se några enkla exempel som hjälper dig att illustrera förstärkningsinlärningsmekanismen.
Tänk på scenariot att lära ut nya trick till din katt
- Eftersom katten inte förstår engelska eller något annat mänskligt språk, kan vi inte tala om för henne direkt vad hon ska göra. Istället följer vi en annan strategi.
- Vi efterliknar en situation och katten försöker svara på många olika sätt. Om kattens svar är det önskade sättet kommer vi att ge henne fisk.
- Nu när katten utsätts för samma situation, utför katten en liknande handling med ännu mer entusiastiskt i förväntan på att få mer belöning (mat).
- Det är som att lära sig att katten får av "vad man ska göra" från positiva erfarenheter.
- Samtidigt lär sig katten också vad man inte gör när den ställs inför negativa upplevelser.
Exempel på förstärkningsinlärning
I det här fallet,
- Din katt är ett medel som utsätts för miljön. I det här fallet är det ditt hus. Ett exempel på ett tillstånd kan vara att din katt sitter, och du använder ett specifikt ord för att katt ska gå.
- Vår agent reagerar genom att utföra en handlingsövergång från ett "tillstånd" till ett annat "tillstånd".
- Till exempel går din katt från att sitta till att gå.
- En agents reaktion är en handling, och policyn är en metod för att välja en handling som ges ett tillstånd i förväntan på bättre resultat.
- Efter övergången kan de få en belöning eller straff i gengäld.
Förstärkningslärande Algorithms
Det finns tre metoder för att implementera en Reinforcement Learning-algoritm.
Värdebaserad
I en värdebaserad Reinforcement Learning-metod bör du försöka maximera en värdefunktion Mot). Med denna metod förväntar sig agenten en långsiktig avkastning av de nuvarande tillstånden under policy π.
Policybaserad
I en policybaserad RL-metod försöker du komma på en sådan policy att den åtgärd som utförs i varje stat hjälper dig att få maximal belöning i framtiden.
Två typer av policybaserade metoder är:
- Deterministisk: För alla tillstånd produceras samma åtgärd av policyn π.
- Stokastisk: Varje åtgärd har en viss sannolikhet, som bestäms av följande ekvation. Stokastisk policy:
n{a\s) = P\A, = a\S, =S]
Modellbaserad
I denna Reinforcement Learning-metod måste du skapa en virtuell modell för varje miljö. Agenten lär sig att prestera i den specifika miljön.
Egenskaper för förstärkningsinlärning
Här finns viktiga egenskaper för förstärkningsinlärning
- Det finns ingen handledare, bara ett verkligt tal eller belöningssignal
- Sekventiellt beslutsfattande
- Tid spelar en avgörande roll i förstärkningsproblem
- Feedback är alltid försenat, inte omedelbart
- Agentens handlingar avgör den efterföljande data som den får
Typer av förstärkningsinlärning
Två typer av förstärkningsinlärningsmetoder är:
Positiv:
Det definieras som en händelse som inträffar på grund av specifikt beteende. Det ökar styrkan och frekvensen av beteendet och påverkar positivt på de åtgärder som aktören vidtar.
Denna typ av förstärkning hjälper dig att maximera prestanda och upprätthålla förändringar under en längre period. Men för mycket förstärkning kan leda till överoptimering av tillståndet, vilket kan påverka resultaten.
Negativ:
Negativ förstärkning definieras som förstärkning av beteende som uppstår på grund av ett negativt tillstånd som borde ha stoppats eller undvikits. Det hjälper dig att definiera miniminivån för prestanda. Nackdelen med den här metoden är dock att den ger tillräckligt för att uppfylla minimibeteendet.
Inlärningsmodeller för förstärkning
Det finns två viktiga inlärningsmodeller inom förstärkningsinlärning:
- Markov beslutsprocess
- Q lärande
Markov beslutsprocess
Följande parametrar används för att få en lösning:
- Uppsättning åtgärder- A
- Uppsättning av tillstånd -S
- Belöning- R
- Policy- n
- Värde- V
Det matematiska tillvägagångssättet för att kartlägga en lösning inom förstärkningslärande är recon as a Markov Decision Process eller (MDP).
Q-Learning
Q-inlärning är en värdebaserad metod för att tillhandahålla information för att informera om vilka åtgärder en agent bör vidta.
Låt oss förstå denna metod med följande exempel:
- Det finns fem rum i en byggnad som är förbundna med dörrar.
- Varje rum är numrerat 0 till 4
- Utsidan av byggnaden kan vara en stor utomhusyta (5)
- Dörr nummer 1 och 4 leder in i byggnaden från rum 5
Därefter måste du associera ett belöningsvärde till varje dörr:
- Dörrar som leder direkt till målet har en belöning på 100
- Dörrar som inte är direkt anslutna till målrummet ger noll belöning
- Eftersom dörrar är tvåvägs, och två pilar är tilldelade för varje rum
- Varje pil i bilden ovan innehåller ett omedelbart belöningsvärde
Förklaring:
I den här bilden kan du se att rummet representerar ett tillstånd
Agentens förflyttning från ett rum till ett annat representerar en handling
I nedanstående bild beskrivs ett tillstånd som en nod, medan pilarna visar åtgärden.
En agent går till exempel från rum nummer 2 till 5
- Initialt tillstånd = tillstånd 2
- Tillstånd 2-> Tillstånd 3
- Tillstånd 3 -> tillstånd (2,1,4)
- Tillstånd 4-> tillstånd (0,5,3)
- Tillstånd 1-> tillstånd (5,3)
- Tillstånd 0-> Tillstånd 4
Förstärkningsinlärning vs. övervakat lärande
Driftparametrar | Förstärkningslärande | Övervakat lärande |
---|---|---|
Beslutsstil | förstärkningsinlärning hjälper dig att ta dina beslut sekventiellt. | I denna metod tas ett beslut om den input som ges i början. |
fungerar på | Arbetar med att interagera med omgivningen. | Arbetar med exempel eller givna exempeldata. |
Beroende av beslut | I RL-metoden är inlärningsbeslut beroende. Därför bör du ge etiketter till alla beroende beslut. | Övervakad inlärning av beslut som är oberoende av varandra, så etiketter ges för varje beslut. |
Bäst lämpad | Stöder och fungerar bättre inom AI, där mänsklig interaktion är utbredd. | Det drivs mestadels med ett interaktivt mjukvarusystem eller applikationer. |
Exempelvis | Schackspel | Objektigenkänning |
Tillämpningar av förstärkningsinlärning
Här är tillämpningar av förstärkningsinlärning:
- Robotik för industriell automation.
- Planering av affärsstrategi
- Maskininlärning och databehandling
- Det hjälper dig att skapa utbildningssystem som tillhandahåller anpassade instruktioner och material enligt elevernas krav.
- Flygplanskontroll och robotrörelsekontroll
Varför använda Reinforcement Learning?
Här är de främsta anledningarna till att använda förstärkningsinlärning:
- Det hjälper dig att hitta vilken situation som kräver en åtgärd
- Hjälper dig att upptäcka vilken åtgärd som ger den högsta belöningen under den längre perioden.
- Reinforcement Learning ger också inlärningsagenten en belöningsfunktion.
- Det låter den också ta reda på den bästa metoden för att få stora belöningar.
När ska man inte använda förstärkningsinlärning?
Du kan inte tillämpa förstärkningsinlärningsmodellen är hela situationen. Här är några villkor när du inte bör använda förstärkningsinlärningsmodellen.
- När du har tillräckligt med data för att lösa problemet med en övervakad inlärningsmetod
- Du måste komma ihåg att Reinforcement Learning är datortungt och tidskrävande. speciellt när handlingsutrymmet är stort.
Utmaningar med förstärkningsinlärning
Här är de stora utmaningarna du kommer att möta när du tjänar förstärkning:
- Funktions-/belöningsdesign som borde vara mycket involverad
- Parametrar kan påverka inlärningshastigheten.
- Realistiska miljöer kan ha partiell observerbarhet.
- För mycket förstärkning kan leda till en överbelastning av tillstånd som kan minska resultaten.
- Realistiska miljöer kan vara icke-stationära.
Sammanfattning
- Reinforcement Learning är en maskininlärningsmetod
- Hjälper dig att upptäcka vilken åtgärd som ger den högsta belöningen under den längre perioden.
- Tre metoder för förstärkande lärande är 1) Värdebaserat 2) Policybaserat och Modellbaserat lärande.
- Agent, stat, belöning, miljö, värdefunktion Miljömodell, modellbaserade metoder, är några viktiga termer som används i RL-inlärningsmetod
- Exemplet på förstärkningsinlärning är att din katt är en agent som är exponerad för miljön.
- Det största kännetecknet för denna metod är att det inte finns någon handledare, bara ett reellt tal eller belöningssignal
- Två typer av förstärkningsinlärning är 1) Positivt 2) Negativt
- Två mycket använda inlärningsmodeller är 1) Markovs beslutsprocess 2) Q-inlärning
- Förstärkning Lärmetoden fungerar på att interagera med omgivningen, medan övervakad inlärning metoden fungerar på givna exempeldata eller exempel.
- Tillämpning eller förstärkning inlärningsmetoder är: Robotik för industriell automation och affärsstrategiplanering
- Du bör inte använda den här metoden när du har tillräckligt med data för att lösa problemet
- Den största utmaningen med denna metod är att parametrar kan påverka inlärningshastigheten