Forstærkende læring: Hvad er, Algorithms, Typer & Eksempler
Hvad er forstærkende læring?
Forstærkningslæring er defineret som en maskinlæringsmetode, der handler om, hvordan softwareagenter skal foretage handlinger i et miljø. Forstærkende læring er en del af den dybe læringsmetode, der hjælper dig med at maksimere en del af den kumulative belønning.
Denne neurale netværkslæringsmetode hjælper dig med at lære, hvordan du opnår et komplekst mål eller maksimerer en specifik dimension over mange trin.
Vigtige komponenter i Deep Reinforcement Learning Method
Her er nogle vigtige udtryk, der bruges i Reinforcement AI:
- Agenter: Det er en antaget enhed, der udfører handlinger i et miljø for at opnå en belønning.
- Miljø (e): Et scenarie, som en agent skal stå over for.
- Belønning (R): Et øjeblikkeligt afkast givet til en agent, når han eller hun udfører en bestemt handling eller opgave.
- Stat(er): Tilstand refererer til den aktuelle situation, der returneres af miljøet.
- Politik (π): Det er en strategi, der anvendes af agenten til at beslutte den næste handling baseret på den aktuelle tilstand.
- Værdi (V): Det forventes et langsigtet afkast med rabat sammenlignet med den kortsigtede belønning.
- Værdi funktion: Det angiver værdien af en stat, der er det samlede beløb for belønning. Det er en agent, der bør forventes begyndende fra denne tilstand.
- Model af miljøet: Dette efterligner miljøets adfærd. Det hjælper dig med at drage konklusioner, der skal drages, og også bestemme, hvordan miljøet vil opføre sig.
- Modelbaserede metoder: Det er en metode til at løse forstærkende læringsproblemer, som bruger modelbaserede metoder.
- Q-værdi eller handlingsværdi (Q): Q-værdi er ret lig værdi. Den eneste forskel mellem de to er, at den tager en ekstra parameter som en aktuel handling.
Hvordan fungerer forstærkningslæring?
Lad os se et simpelt eksempel, som hjælper dig med at illustrere forstærkningsindlæringsmekanismen.
Overvej scenariet med at lære din kat nye tricks
- Da kat ikke forstår engelsk eller noget andet menneskeligt sprog, kan vi ikke fortælle hende direkte, hvad hun skal gøre. I stedet følger vi en anden strategi.
- Vi efterligner en situation, og katten forsøger at reagere på mange forskellige måder. Hvis kattens svar er den ønskede måde, giver vi hende fisk.
- Nu når katten bliver udsat for den samme situation, udfører katten en lignende handling med endnu mere entusiastisk forventning om at få mere belønning (mad).
- Det er ligesom at lære, at kat får af "hvad man skal gøre" fra positive oplevelser.
- Samtidig lærer katten også, hvad man ikke gør, når den står over for negative oplevelser.
Eksempel på forstærkende læring
I dette tilfælde,
- Din kat er et middel, der er udsat for miljøet. I dette tilfælde er det dit hus. Et eksempel på en tilstand kunne være, at din kat sidder, og du bruger et specifikt ord for kat at gå.
- Vores agent reagerer ved at udføre en handlingsovergang fra én "stat" til en anden "stat".
- For eksempel går din kat fra at sidde til at gå.
- En agents reaktion er en handling, og politikken er en metode til at vælge en handling givet en tilstand i forventning om bedre resultater.
- Efter overgangen kan de få en belønning eller straf til gengæld.
Forstærkningslæring Algorithms
Der er tre tilgange til at implementere en Reinforcement Learning-algoritme.
Værdibaseret
I en værdibaseret Reinforcement Learning-metode bør du forsøge at maksimere en værdifunktion V(s). I denne metode forventer agenten en langsigtet tilbagevenden af de nuværende stater under politik π.
Politikbaseret
I en policy-baseret RL-metode forsøger du at komme med en sådan politik, at den handling, der udføres i hver stat, hjælper dig med at opnå maksimal belønning i fremtiden.
To typer politikbaserede metoder er:
- Deterministisk: For enhver tilstand frembringes den samme handling af politikken π.
- Stokastisk: Hver handling har en vis sandsynlighed, som bestemmes af følgende ligning. Stokastisk politik:
n{a\s) = P\A, = a\S, =S]
Modelbaseret
I denne Reinforcement Learning-metode skal du oprette en virtuel model for hvert miljø. Agenten lærer at optræde i det specifikke miljø.
Karakteristika ved forstærkningslæring
Her er vigtige kendetegn ved forstærkningslæring
- Der er ingen supervisor, kun et reelt tal eller belønningssignal
- Sekventiel beslutningstagning
- Tid spiller en afgørende rolle i forstærkningsproblemer
- Feedback er altid forsinket, ikke øjeblikkelig
- Agentens handlinger bestemmer de efterfølgende data, den modtager
Typer af forstærkningslæring
To typer forstærkende læringsmetoder er:
Positiv:
Det er defineret som en begivenhed, der opstår på grund af specifik adfærd. Det øger styrken og frekvensen af adfærden og har en positiv indvirkning på den handling, som agenten foretager.
Denne type forstærkning hjælper dig med at maksimere ydeevnen og opretholde forandring i en længere periode. For meget forstærkning kan dog føre til overoptimering af tilstanden, hvilket kan påvirke resultaterne.
Negativ:
Negativ forstærkning er defineret som styrkelse af adfærd, der opstår på grund af en negativ tilstand, som burde være stoppet eller undgået. Det hjælper dig med at definere minimumsniveauet for ydeevne. Men ulempen ved denne metode er, at den giver nok til at opfylde minimumsadfærden.
Læringsmodeller for forstærkning
Der er to vigtige læringsmodeller i forstærkende læring:
- Markovs beslutningsproces
- Q læring
Markovs beslutningsproces
Følgende parametre bruges til at finde en løsning:
- Sæt af handlinger- A
- Sæt af stater -S
- Belønning - R
- Politik- n
- Værdi- V
Den matematiske tilgang til kortlægning af en løsning i forstærkningslæring er recon as a Markov Decision Process eller (MDP).
Q-læring
Q-læring er en værdibaseret metode til at levere information til at informere om, hvilke handlinger en agent skal tage.
Lad os forstå denne metode ved følgende eksempel:
- Der er fem værelser i en bygning, som er forbundet med døre.
- Hvert værelse er nummereret fra 0 til 4
- Ydersiden af bygningen kan være ét stort udendørsområde (5)
- Dør nummer 1 og 4 fører ind i bygningen fra værelse 5
Dernæst skal du knytte en belønningsværdi til hver dør:
- Døre, der fører direkte til målet, har en belønning på 100
- Døre, der ikke er direkte forbundet med målrummet, giver ingen belønning
- Da døre er to-vejs, og der er tildelt to pile til hvert rum
- Hver pil i ovenstående billede indeholder en øjeblikkelig belønningsværdi
Forklaring:
På dette billede kan du se, at rummet repræsenterer en tilstand
Agentens bevægelse fra et rum til et andet repræsenterer en handling
I det nedenstående billede er en tilstand beskrevet som en knude, mens pilene viser handlingen.
For eksempel går en agent fra værelse nummer 2 til 5
- Starttilstand = tilstand 2
- Tilstand 2-> tilstand 3
- Tilstand 3 -> tilstand (2,1,4)
- Tilstand 4-> tilstand (0,5,3)
- Tilstand 1-> tilstand (5,3)
- Tilstand 0-> tilstand 4
Forstærkende læring vs. overvåget læring
parametre | Forstærkningslæring | Overvåget læring |
---|---|---|
Beslutningsstil | forstærkningslæring hjælper dig med at tage dine beslutninger sekventielt. | I denne metode tages der stilling til det input, der gives i begyndelsen. |
Virker på | Arbejder med at interagere med omgivelserne. | Arbejder på eksempler eller givet eksempeldata. |
Afhængighed af beslutning | I RL metode er læringsbeslutning afhængig. Derfor bør du give etiketter til alle de afhængige beslutninger. | Overvåget læring af de beslutninger, der er uafhængige af hinanden, så der gives etiketter for hver beslutning. |
Bedste egnet | Understøtter og fungerer bedre i AI, hvor menneskelig interaktion er udbredt. | Det drives for det meste med et interaktivt softwaresystem eller applikationer. |
Eksempel | Skak spil | Genkendelse af objekt |
Anvendelser af forstærkende læring
Her er anvendelser af Reinforcement Learning:
- Robotik til industriel automatisering.
- Planlægning af forretningsstrategi
- Maskinelæring og databehandling
- Det hjælper dig med at skabe træningssystemer, der giver tilpasset undervisning og materialer i henhold til elevernes krav.
- Flykontrol og robotbevægelseskontrol
Hvorfor bruge Reinforcement Learning?
Her er de vigtigste grunde til at bruge Reinforcement Learning:
- Det hjælper dig med at finde ud af, hvilken situation der kræver en handling
- Hjælper dig med at opdage, hvilken handling der giver den højeste belønning over den længere periode.
- Forstærkende læring giver også læringsagenten en belønningsfunktion.
- Det giver den også mulighed for at finde ud af den bedste metode til at opnå store belønninger.
Hvornår skal man ikke bruge forstærkningslæring?
Du kan ikke anvende forstærkende læringsmodel er hele situationen. Her er nogle forhold, når du ikke bør bruge forstærkende læringsmodel.
- Når du har nok data til at løse problemet med en overvåget læringsmetode
- Du skal huske, at Reinforcement Learning er computertung og tidskrævende. især når handlingsrummet er stort.
Udfordringer ved forstærkningslæring
Her er de største udfordringer, du vil møde, mens du tjener forstærkningsindtjening:
- Feature/belønningsdesign, som burde være meget involveret
- Parametre kan påvirke indlæringshastigheden.
- Realistiske miljøer kan have delvis observerbarhed.
- For meget forstærkning kan føre til en overbelastning af tilstande, som kan formindske resultaterne.
- Realistiske miljøer kan være ikke-stationære.
Resumé
- Reinforcement Learning er en maskinlæringsmetode
- Hjælper dig med at opdage, hvilken handling der giver den højeste belønning over den længere periode.
- Tre metoder til forstærkende læring er 1) Værdibaseret 2) Politikbaseret og Modelbaseret læring.
- Agent, stat, belønning, miljø, værdifunktion Model af miljøet, modelbaserede metoder, er nogle vigtige udtryk, der bruges i RL-læringsmetoden
- Eksemplet på forstærkningslæring er, at din kat er en agent, der er udsat for miljøet.
- Det største kendetegn ved denne metode er, at der ikke er nogen supervisor, kun et reelt tal eller belønningssignal
- To typer forstærkningslæring er 1) Positiv 2) Negativ
- To meget anvendte læringsmodeller er 1) Markov Beslutningsproces 2) Q-læring
- Forstærkning Læringsmetoden arbejder på at interagere med omgivelserne, hvorimod overvåget læring metoden fungerer på givne prøvedata eller eksempel.
- Anvendelse eller forstærkende læringsmetoder er: Robotik til industriel automation og forretningsstrategiplanlægning
- Du bør ikke bruge denne metode, når du har nok data til at løse problemet
- Den største udfordring ved denne metode er, at parametre kan påvirke indlæringshastigheden