Forsterkende læring: Hva er, Algorithms, Typer og eksempler

Hva er forsterkende læring?

Forsterkningslæring er definert som en maskinlæringsmetode som er opptatt av hvordan programvareagenter skal utføre handlinger i et miljø. Forsterkende læring er en del av dyplæringsmetoden som hjelper deg med å maksimere en del av den kumulative belønningen.

Denne nevrale nettverkslæringsmetoden hjelper deg å lære hvordan du oppnår et komplekst mål eller maksimerer en bestemt dimensjon over mange trinn.

Viktige komponenter i læringsmetoden for dyp forsterkning

Viktige komponenter i dyp armering

Her er noen viktige begreper som brukes i Reinforcement AI:

  • Middel: Det er en antatt enhet som utfører handlinger i et miljø for å få belønning.
  • Miljø (e): Et scenario som en agent må møte.
  • Belønning (R): En umiddelbar retur gitt til en agent når han eller hun utfører en spesifikk handling eller oppgave.
  • Tilstand(er): Tilstand refererer til den nåværende situasjonen returnert av miljøet.
  • Retningslinjer (π): Det er en strategi som gjelder av agenten for å bestemme neste handling basert på den nåværende tilstanden.
  • Verdi (V): Det forventes langsiktig avkastning med rabatt, sammenlignet med kortsiktig belønning.
  • Verdifunksjon: Den spesifiserer verdien av en stat som er den totale belønningsbeløpet. Det er en agent som bør forventes fra den tilstanden.
  • Modell av miljøet: Dette etterligner oppførselen til omgivelsene. Det hjelper deg å gjøre slutninger som skal gjøres og også bestemme hvordan miljøet vil oppføre seg.
  • Modellbaserte metoder: Det er en metode for å løse forsterkende læringsproblemer som bruker modellbaserte metoder.
  • Q-verdi eller handlingsverdi (Q): Q-verdi er ganske lik verdi. Den eneste forskjellen mellom de to er at den tar en ekstra parameter som en gjeldende handling.

Hvordan fungerer forsterkende læring?

La oss se et enkelt eksempel som hjelper deg å illustrere forsterkningslæringsmekanismen.

Vurder scenariet med å lære katten din nye triks

  • Siden katten ikke forstår engelsk eller noe annet menneskelig språk, kan vi ikke fortelle henne direkte hva hun skal gjøre. I stedet følger vi en annen strategi.
  • Vi etterligner en situasjon, og katten prøver å reagere på mange forskjellige måter. Hvis kattens respons er ønsket måte, vil vi gi henne fisk.
  • Nå når katten blir utsatt for samme situasjon, utfører katten en lignende handling med enda mer entusiastisk i forventning om å få mer belønning (mat).
  • Det er som å lære at katten får fra "hva du skal gjøre" fra positive opplevelser.
  • Samtidig lærer katten også hva man ikke gjør når den står overfor negative opplevelser.

Eksempel på forsterkende læring

Eksempel på forsterkende læring
Hvordan forsterkningslæring fungerer

I dette tilfellet,

  • Katten din er et middel som er utsatt for miljøet. I dette tilfellet er det ditt hus. Et eksempel på en tilstand kan være katten din som sitter, og du bruker et spesifikt ord for at katten skal gå.
  • Agenten vår reagerer ved å utføre en handlingsovergang fra en «stat» til en annen «stat».
  • For eksempel går katten din fra å sitte til å gå.
  • Reaksjonen til en agent er en handling, og policyen er en metode for å velge en handling gitt en tilstand i forventning om bedre resultater.
  • Etter overgangen kan de få en belønning eller straff i retur.

Forsterkningslæring Algorithms

Det er tre tilnærminger for å implementere en Reinforcement Learning-algoritme.

Verdibasert

I en verdibasert Reinforcement Learning-metode bør du prøve å maksimere en verdifunksjon V(er). I denne metoden forventer agenten en langsiktig avkastning av de gjeldende statene under politikken π.

Politikkbasert

I en policy-basert RL-metode prøver du å komme opp med en slik policy at handlingen som utføres i hver stat hjelper deg å oppnå maksimal belønning i fremtiden.

To typer policybaserte metoder er:

  • Deterministisk: For enhver stat produseres den samme handlingen av policyen π.
  • Stokastisk: Hver handling har en viss sannsynlighet, som bestemmes av følgende ligning. Stokastisk politikk:
    n{a\s) = P\A, = a\S, =S]

Modellbasert

I denne Reinforcement Learning-metoden må du lage en virtuell modell for hvert miljø. Agenten lærer å prestere i det spesifikke miljøet.

Kjennetegn ved forsterkende læring

Her er viktige kjennetegn ved forsterkende læring

  • Det er ingen veileder, bare et reelt tall eller belønningssignal
  • Sekvensiell beslutningstaking
  • Tid spiller en avgjørende rolle i forsterkningsproblemer
  • Tilbakemelding er alltid forsinket, ikke øyeblikkelig
  • Agentens handlinger bestemmer de påfølgende dataene den mottar

Typer forsterkende læring

To typer forsterkende læringsmetoder er:

positiv:

Det er definert som en hendelse som oppstår på grunn av spesifikk atferd. Det øker styrken og frekvensen av atferden og påvirker positivt på handlingen som utføres av agenten.

Denne typen forsterkning hjelper deg med å maksimere ytelsen og opprettholde endring i en lengre periode. Imidlertid kan for mye forsterkning føre til overoptimering av tilstanden, noe som kan påvirke resultatene.

Negativ:

Negativ forsterkning er definert som styrking av atferd som oppstår på grunn av en negativ tilstand som burde ha stoppet eller unngått. Det hjelper deg med å definere minimumsnivået for ytelse. Ulempen med denne metoden er imidlertid at den gir nok til å oppfylle minimumsatferden.

Lære modeller for forsterkning

Det er to viktige læringsmodeller i forsterkende læring:

  • Markov beslutningsprosess
  • Q læring

Markov beslutningsprosess

Følgende parametere brukes for å finne en løsning:

  • Sett med handlinger- A
  • Sett med stater -S
  • Belønning - R
  • Politikk-n
  • Verdi- V

Den matematiske tilnærmingen for å kartlegge en løsning innen forsterkningslæring er recon as a Markov Decision Process eller (MDP).

Markov beslutningsprosess

Q-læring

Q-læring er en verdibasert metode for å gi informasjon for å informere om hvilke handlinger en agent bør ta.

La oss forstå denne metoden med følgende eksempel:

  • Det er fem rom i en bygning som er forbundet med dører.
  • Hvert rom er nummerert fra 0 til 4
  • Utsiden av bygningen kan være ett stort uteområde (5)
  • Dør nummer 1 og 4 fører inn i bygningen fra rom 5

Q-læring

Deretter må du knytte en belønningsverdi til hver dør:

  • Dører som fører direkte til målet har en belønning på 100
  • Dører som ikke er direkte koblet til målrommet gir null belønning
  • Siden dører er toveis, og to piler er tildelt for hvert rom
  • Hver pil i bildet ovenfor inneholder en umiddelbar belønningsverdi

Forklaring:

På dette bildet kan du se at rommet representerer en tilstand

Agentens bevegelse fra ett rom til et annet representerer en handling

I bildet nedenfor er en tilstand beskrevet som en node, mens pilene viser handlingen.

Q-læring

For eksempel går en agent fra rom nummer 2 til 5

  • Utgangstilstand = tilstand 2
  • Tilstand 2-> tilstand 3
  • Tilstand 3 -> tilstand (2,1,4)
  • Tilstand 4-> tilstand (0,5,3)
  • Tilstand 1-> tilstand (5,3)
  • Tilstand 0-> tilstand 4

Forsterkende læring vs. veiledet læring

Parametre Forsterkningslæring Veiledet læring
Beslutningsstil forsterkende læring hjelper deg til å ta beslutningene dine sekvensielt. I denne metoden tas det en beslutning om innspillene som er gitt i begynnelsen.
fungerer på Jobber med å samhandle med omgivelsene. Arbeider med eksempler eller gitte eksempeldata.
Avhengighet av beslutning I RL-metoden er læringsbeslutning avhengig. Derfor bør du gi etiketter til alle avhengige avgjørelser. Overvåket læring av beslutninger som er uavhengige av hverandre, så etiketter er gitt for hver beslutning.
Best egnet Støtter og fungerer bedre i AI, der menneskelig interaksjon er utbredt. Det drives for det meste med et interaktivt programvaresystem eller applikasjoner.
Eksempel Sjakkspill Objektgjenkjenning

Anvendelser av forsterkende læring

Her er anvendelser av forsterkende læring:

  • Robotikk for industriell automasjon.
  • Planlegging av forretningsstrategi
  • Maskinlæring og databehandling
  • Det hjelper deg å lage opplæringssystemer som gir tilpasset instruksjon og materialer i henhold til studentenes krav.
  • Flykontroll og robotbevegelseskontroll

Hvorfor bruke forsterkende læring?

Her er hovedgrunnene til å bruke forsterkningslæring:

  • Det hjelper deg å finne hvilken situasjon som trenger en handling
  • Hjelper deg å finne ut hvilken handling som gir høyest belønning over en lengre periode.
  • Forsterkende læring gir også læringsagenten en belønningsfunksjon.
  • Det lar den også finne ut den beste metoden for å oppnå store belønninger.

Når skal man ikke bruke forsterkende læring?

Du kan ikke bruke forsterkende læringsmodell er hele situasjonen. Her er noen forhold når du ikke bør bruke forsterkende læringsmodell.

  • Når du har nok data til å løse problemet med en veiledet læringsmetode
  • Du må huske at forsterkende læring er datatungt og tidkrevende. spesielt når handlingsrommet er stort.

Utfordringer ved forsterkende læring

Her er de største utfordringene du vil møte mens du tjener forsterkningsinntekter:

  • Feature/belønningsdesign som burde være veldig involvert
  • Parametre kan påvirke læringshastigheten.
  • Realistiske miljøer kan ha delvis observerbarhet.
  • For mye forsterkning kan føre til en overbelastning av tilstander som kan redusere resultatene.
  • Realistiske miljøer kan være ikke-stasjonære.

Sammendrag

  • Reinforcement Learning er en maskinlæringsmetode
  • Hjelper deg å finne ut hvilken handling som gir høyest belønning over en lengre periode.
  • Tre metoder for forsterkende læring er 1) Verdibasert 2) Policybasert og Modellbasert læring.
  • Agent, stat, belønning, miljø, verdifunksjon Modell av miljøet, modellbaserte metoder, er noen viktige termer som brukes i RL-læringsmetoden
  • Eksemplet på forsterkende læring er at katten din er en agent som er utsatt for miljøet.
  • Det største kjennetegnet ved denne metoden er at det ikke er noen veileder, kun et reelt tall eller belønningssignal
  • To typer forsterkningslæring er 1) Positiv 2) Negativ
  • To mye brukte læringsmodeller er 1) Markov Decision Process 2) Q-læring
  • Forsterkning Læringsmetoden fungerer på samhandling med omgivelsene, mens veiledet læring metoden fungerer på gitte eksempeldata eller eksempel.
  • Applikasjons- eller forsterkende læringsmetoder er: Robotikk for industriell automasjon og forretningsstrategiplanlegging
  • Du bør ikke bruke denne metoden når du har nok data til å løse problemet
  • Den største utfordringen med denne metoden er at parametere kan påvirke læringshastigheten