Versterkend leren: wat is, Algorithms, Typen & Voorbeelden
Wat is versterkend leren?
Versterking leren wordt gedefinieerd als een Machine Learning-methode die zich bezighoudt met hoe softwareagenten acties moeten ondernemen in een omgeving. Reinforcement Learning is een onderdeel van de deep learning-methode die u helpt een deel van de cumulatieve beloning te maximaliseren.
Met deze leermethode met neurale netwerken leert u hoe u een complex doel kunt bereiken of een specifieke dimensie kunt maximaliseren in meerdere stappen.
Belangrijke componenten van de leermethode voor diepe versterking
Hier zijn enkele belangrijke termen die worden gebruikt in Reinforcement AI:
- Tussenpersoon: Het is een veronderstelde entiteit die acties uitvoert in een omgeving om een beloning te krijgen.
- Omgeving (e): Een scenario waarmee een agent te maken krijgt.
- Beloning (R): Een onmiddellijk rendement dat aan een agent wordt gegeven wanneer hij of zij een specifieke actie of taak uitvoert.
- Staat(en): Staat verwijst naar de huidige situatie die door de omgeving wordt geretourneerd.
- Beleid (π): Het is een strategie die door de agent wordt toegepast om de volgende actie te beslissen op basis van de huidige status.
- Waarde (V): Het is het verwachte langetermijnrendement met korting, vergeleken met de kortetermijnbeloning.
- Waardefunctie: Het specificeert de waarde van een staat, namelijk het totale bedrag van de beloning. Het is een middel dat vanaf die staat mag worden verwacht.
- Model van de omgeving: Dit bootst het gedrag van de omgeving na. Het helpt u conclusies te trekken en ook te bepalen hoe de omgeving zich zal gedragen.
- Modelgebaseerde methoden: Het is een methode voor het oplossen van leerproblemen waarbij gebruik wordt gemaakt van modelgebaseerde methoden.
- Q-waarde of actiewaarde (Q): Q-waarde is vrijwel gelijk aan waarde. Het enige verschil tussen de twee is dat er een extra parameter nodig is als huidige actie.
Hoe werkt versterkend leren?
Laten we een eenvoudig voorbeeld bekijken dat u helpt het bekrachtigingsleermechanisme te illustreren.
Overweeg het scenario waarin u uw kat nieuwe trucjes leert
- Omdat de kat geen Engels of enige andere menselijke taal verstaat, kunnen we haar niet direct vertellen wat ze moet doen. In plaats daarvan volgen we een andere strategie.
- We bootsen een situatie na en de kat probeert op veel verschillende manieren te reageren. Als de reactie van de kat de gewenste is, geven we haar vis.
- Telkens wanneer de kat aan dezelfde situatie wordt blootgesteld, voert de kat een soortgelijke actie uit, met nog meer enthousiasme, in de verwachting meer beloning (voedsel) te krijgen.
- Dat is hetzelfde als leren dat een kat leert van “wat te doen” uit positieve ervaringen.
- Tegelijkertijd leert de kat ook wat hij niet moet doen als hij met negatieve ervaringen wordt geconfronteerd.
Voorbeeld van versterkend leren
In dit geval,
- Uw kat is een agent die wordt blootgesteld aan de omgeving. In dit geval is het jouw huis. Een voorbeeld van een toestand zou kunnen zijn dat uw kat zit, en u gebruikt een specifiek woord voor kat om te lopen.
- Onze agent reageert door een actieovergang uit te voeren van de ene ‘staat’ naar de andere ‘staat’.
- Uw kat gaat bijvoorbeeld van zitten naar lopen.
- De reactie van een agent is een actie, en het beleid is een methode om een actie te selecteren in een bepaalde situatie, in afwachting van betere resultaten.
- Na de transitie kunnen zij daarvoor een beloning of boete krijgen.
Versterking leren Algorithms
Er zijn drie benaderingen om een Reinforcement Learning-algoritme te implementeren.
Op waarde gebaseerd
Bij een op waarden gebaseerde Reinforcement Learning-methode moet je proberen een waardefunctie te maximaliseren V(s). Bij deze methode verwacht de agent een langetermijnrendement van de huidige beleidstoestanden π.
Beleidsmatig
Bij een op beleid gebaseerde RL-methode probeer je zo'n beleid te bedenken dat de actie die in elke staat wordt uitgevoerd je helpt om in de toekomst een maximale beloning te behalen.
Twee soorten beleidsgebaseerde methoden zijn:
- Deterministisch: Voor elke staat wordt dezelfde actie geproduceerd door het beleid π.
- Stochastisch: Elke actie heeft een bepaalde waarschijnlijkheid, die wordt bepaald door de volgende vergelijking. Stochastisch beleid:
n{a\s) = P\A, = a\S, =S]
Modelgebaseerd
Bij deze Reinforcement Learning-methode moet u voor elke omgeving een virtueel model maken. De agent leert presteren in die specifieke omgeving.
Kenmerken van versterkend leren
Hier zijn belangrijke kenmerken van versterkend leren
- Er is geen toezichthouder, alleen een reëel nummer of beloningssignaal
- Sequentiële besluitvorming
- Tijd speelt een cruciale rol bij versterkingsproblemen
- Feedback is altijd vertraagd, niet onmiddellijk
- De acties van de agent bepalen de daaropvolgende gegevens die hij ontvangt
Soorten Reinforcement Learning
Twee soorten versterkende leermethoden zijn:
Positief:
Het wordt gedefinieerd als een gebeurtenis die optreedt als gevolg van specifiek gedrag. Het verhoogt de kracht en de frequentie van het gedrag en heeft een positieve invloed op de actie die de agent onderneemt.
Dit type versterking helpt u de prestaties te maximaliseren en veranderingen voor een langere periode vol te houden. Te veel versterking kan echter leiden tot overoptimalisatie van de toestand, wat de resultaten kan beïnvloeden.
Negatief:
Negatieve bekrachtiging wordt gedefinieerd als de versterking van gedrag dat optreedt als gevolg van een negatieve toestand die gestopt of vermeden had moeten worden. Het helpt u bij het definiëren van de minimale prestatiestandaard. Het nadeel van deze methode is echter dat deze voldoende oplevert om aan het minimale gedrag te voldoen.
Leermodellen van versterking
Er zijn twee belangrijke leermodellen bij versterkend leren:
- Markov-beslissingsproces
- Q leren
Markov-beslissingsproces
Om een oplossing te verkrijgen, worden de volgende parameters gebruikt:
- Reeks acties - A
- Aantal staten -S
- Beloning- R
- Beleid- n
- Waarde- V
De wiskundige benadering voor het in kaart brengen van een oplossing bij het versterken van leren wordt beschouwd als een Markov-beslissingsproces of (MDP).
Q-leren
Q-leren is een op waarden gebaseerde methode voor het verstrekken van informatie om te bepalen welke actie een agent moet ondernemen.
Laten we deze methode aan de hand van het volgende voorbeeld verduidelijken:
- Er zijn vijf kamers in een gebouw die met elkaar verbonden zijn door deuren.
- Elke kamer is genummerd van 0 tot en met 4
- De buitenkant van het gebouw kan één grote buitenruimte zijn (5)
- Deuren nummer 1 en 4 leiden vanuit kamer 5 naar het gebouw
Vervolgens moet u aan elke deur een beloningswaarde koppelen:
- Deuren die rechtstreeks naar het doel leiden, hebben een beloning van 100
- Deuren die niet direct verbonden zijn met de doelkamer leveren geen beloning op
- Omdat de deuren tweerichtingsverkeer zijn, zijn er voor elke kamer twee pijlen toegewezen
- Elke pijl in de bovenstaande afbeelding bevat een directe beloningswaarde
Uitleg:
In deze afbeelding kun je zien dat de kamer een staat vertegenwoordigt
De beweging van een agent van de ene kamer naar de andere vertegenwoordigt een actie
In de onderstaande afbeelding wordt een toestand beschreven als een knooppunt, terwijl de pijlen de actie weergeven.
Een agent loopt bijvoorbeeld van kamernummer 2 naar 5
- Begintoestand = toestand 2
- Staat 2 -> staat 3
- Staat 3 -> staat (2,1,4)
- Staat 4-> staat (0,5,3)
- Staat 1-> staat (5,3)
- Staat 0 -> staat 4
Versterkend leren versus begeleid leren
parameters | Versterking leren | Leren onder toezicht |
---|---|---|
Beslissingsstijl | versterkend leren helpt u om uw beslissingen opeenvolgend te nemen. | Bij deze methode wordt een beslissing genomen op basis van de invoer die aan het begin is gegeven. |
werkt op | Werkt aan interactie met de omgeving. | Werkt aan voorbeelden of gegeven voorbeeldgegevens. |
Afhankelijkheid van beslissing | Bij de RL-methode is de leerbeslissing afhankelijk. Daarom moet u labels geven aan alle afhankelijke beslissingen. | Begeleiden van het leren van de beslissingen die onafhankelijk van elkaar zijn, zodat aan elke beslissing een label wordt gegeven. |
Best geschikt | Ondersteunt en werkt beter in AI, waar menselijke interactie veel voorkomt. | Het wordt meestal bediend met een interactief softwaresysteem of applicaties. |
Voorbeeld | Schaakspel | Object herkenning |
Toepassingen van Reinforcement Learning
Hier zijn toepassingen van Reinforcement Learning:
- Robotica voor industriële automatisering.
- Bedrijfsstrategieplanning
- machine learning en gegevensverwerking
- Het helpt u bij het creëren van opleidingssystemen die aangepaste instructies en materialen bieden volgens de behoeften van studenten.
- Vliegtuigbesturing en bewegingsbesturing van robots
Waarom versterkend leren gebruiken?
Hier zijn de belangrijkste redenen om Reinforcement Learning te gebruiken:
- Het helpt u te ontdekken welke situatie actie behoeft
- Helpt je te ontdekken welke actie over de langere periode de hoogste beloning oplevert.
- Reinforcement Learning biedt de leeragent ook een beloningsfunctie.
- Het stelt het ook in staat om de beste methode te vinden om grote beloningen te verkrijgen.
Wanneer mag u versterkend leren niet gebruiken?
Je kunt het versterkende leermodel niet toepassen in de hele situatie. Hier zijn enkele omstandigheden waarin u het versterkende leermodel niet mag gebruiken.
- Wanneer je voldoende data hebt om het probleem op te lossen met een begeleide leermethode
- U moet niet vergeten dat Reinforcement Learning veel rekenkracht en tijdrovend is. vooral als de actieruimte groot is.
Uitdagingen van versterkend leren
Dit zijn de belangrijkste uitdagingen waarmee je te maken krijgt als je versterkingen verdient:
- Functie-/beloningsontwerp dat zeer betrokken zou moeten zijn
- Parameters kunnen de leersnelheid beïnvloeden.
- Realistische omgevingen kunnen gedeeltelijk waarneembaar zijn.
- Te veel versterking kan leiden tot een overbelasting van staten, wat de resultaten kan verminderen.
- Realistische omgevingen kunnen niet-stationair zijn.
Samenvatting
- Reinforcement Learning is een Machine Learning-methode
- Helpt je te ontdekken welke actie over de langere periode de hoogste beloning oplevert.
- Drie methoden voor versterkend leren zijn 1) op waarden gebaseerd, 2) op beleid gebaseerd en modelgebaseerd leren.
- Agent, Staat, Beloning, Omgeving, Waardefunctie Model van de omgeving, Modelgebaseerde methoden zijn enkele belangrijke termen die worden gebruikt in de RL-leermethode
- Het voorbeeld van versterkend leren is dat uw kat een middel is dat wordt blootgesteld aan de omgeving.
- Het grootste kenmerk van deze methode is dat er geen toezichthouder is, maar alleen een reëel getal of beloningssignaal
- Er zijn twee soorten versterkend leren: 1) Positief 2) Negatief
- Twee veelgebruikte leermodellen zijn 1) Markov-beslissingsproces en 2) Q-leren
- De Reinforcement Learning-methode werkt op de interactie met de omgeving, terwijl de leren onder toezicht methode werkt op gegeven voorbeeldgegevens of voorbeeld.
- Toepassings- of versterkende leermethoden zijn: Robotica voor industriële automatisering en bedrijfsstrategieplanning
- U moet deze methode niet gebruiken als u over voldoende gegevens beschikt om het probleem op te lossen
- De grootste uitdaging van deze methode is dat parameters de leersnelheid kunnen beïnvloeden