Učenje s pojačanjem: Što je, Algorithms, Vrste i primjeri
Što je učenje s potkrepljenjem?
Učenje ojačanja definira se kao metoda strojnog učenja koja se bavi načinom na koji softverski agenti trebaju poduzimati radnje u okruženju. Učenje s pojačanjem dio je metode dubinskog učenja koja vam pomaže da maksimizirate neki dio kumulativne nagrade.
Ova metoda učenja neuronske mreže pomaže vam da naučite kako postići složeni cilj ili maksimizirati određenu dimenziju kroz mnoge korake.
Važne komponente metode dubokog potkrepljenog učenja
Evo nekoliko važnih pojmova koji se koriste u AI-ju pojačanja:
- Agent: To je pretpostavljeni entitet koji izvodi radnje u okruženju kako bi dobio neku nagradu.
- Okoliš (e): Scenarij s kojim se agent mora suočiti.
- Nagrada (R): Trenutni povrat koji se daje agentu kada on ili ona izvrši određenu radnju ili zadatak.
- Države): Stanje se odnosi na trenutnu situaciju vraćenu okolinom.
- Politika (π): To je strategija koju agent primjenjuje da odluči o sljedećoj akciji na temelju trenutnog stanja.
- Vrijednost (V): Očekuje se dugoročni povrat s popustom u odnosu na kratkoročnu nagradu.
- Funkcija vrijednosti: Određuje vrijednost stanja koja je ukupni iznos nagrade. To je sredstvo koje treba očekivati počevši od tog stanja.
- Model okoline: Ovo oponaša ponašanje okoline. Pomaže vam da donesete zaključke i odredite kako će se okolina ponašati.
- Metode temeljene na modelu: To je metoda za rješavanje problema učenja s potkrepljenjem koja koristi metode temeljene na modelu.
- Q vrijednost ili akcijska vrijednost (Q): Q vrijednost je prilično slična vrijednosti. Jedina razlika između to dvoje je što uzima dodatni parametar kao trenutnu radnju.
Kako funkcionira učenje s potkrepljenjem?
Pogledajmo neki jednostavan primjer koji vam pomaže da ilustrirate mehanizam učenja s potkrepljenjem.
Razmislite o scenariju učenja vaše mačke novim trikovima
- Kako mačka ne razumije engleski niti bilo koji drugi ljudski jezik, ne možemo joj izravno reći što da radi. Umjesto toga, slijedimo drugačiju strategiju.
- Oponašamo situaciju, a mačka pokušava odgovoriti na mnogo različitih načina. Ako je mačji odgovor željeni, dat ćemo joj ribu.
- Kad god je mačka izložena istoj situaciji, ona izvodi sličnu radnju s još više entuzijazma u očekivanju da dobije više nagrade (hrane).
- To je kao da naučite da mačka dobiva iz "što učiniti" iz pozitivnih iskustava.
- U isto vrijeme, mačka također uči što ne treba raditi kada se suoči s negativnim iskustvima.
Primjer učenja s potkrepljenjem
U ovom slučaju,
- Vaša mačka je agent koji je izložen okolini. U ovom slučaju, to je vaša kuća. Primjer stanja može biti vaša mačka kako sjedi, a vi koristite određenu riječ za mačku koja hoda.
- Naš agent reagira izvođenjem prijelaza radnje iz jednog "stanja" u drugo "stanje".
- Na primjer, vaša mačka prelazi iz sjedenja u hodanje.
- Reakcija agenta je radnja, a politika je metoda odabira radnje u određenom stanju u očekivanju boljih ishoda.
- Nakon prijelaza mogu zauzvrat dobiti nagradu ili kaznu.
Učenje ojačanja Algorithms
Postoje tri pristupa implementaciji algoritma učenja s potkrepljenjem.
Na temelju vrijednosti
U metodi potkrepljenog učenja koja se temelji na vrijednosti, trebali biste pokušati maksimizirati funkciju vrijednosti V(s). U ovoj metodi, agent očekuje dugoročni povrat trenutnih stanja prema polici π.
Na temelju politike
U RL metodi koja se temelji na politici, pokušavate osmisliti takvu politiku da vam radnja izvršena u svakom stanju pomaže da dobijete maksimalnu nagradu u budućnosti.
Dvije su vrste metoda temeljenih na politici:
- Deterministički: Za bilo koje stanje, istu akciju proizvodi politika π.
- Stohastička: Svaka radnja ima određenu vjerojatnost, koja je određena sljedećom jednadžbom. Stohastička politika:
n{a\s) = P\A, = a\S, =S]
Na temelju modela
U ovoj metodi učenja s pojačanjem morate stvoriti virtualni model za svako okruženje. Agent uči djelovati u tom specifičnom okruženju.
Karakteristike učenja s potkrepljenjem
Evo važnih karakteristika učenja s potkrepljenjem
- Nema nadzornika, samo pravi broj ili signal nagrade
- Sekvencijalno donošenje odluka
- Vrijeme igra ključnu ulogu u problemima pojačanja
- Povratna informacija je uvijek odgođena, a ne trenutna
- Radnje agenta određuju naknadne podatke koje prima
Vrste potkrepljenog učenja
Dvije su vrste metoda učenja s potkrepljenjem:
Pozitivan:
Definira se kao događaj koji se događa zbog specifičnog ponašanja. Povećava snagu i učestalost ponašanja i pozitivno utječe na djelovanje agenta.
Ova vrsta pojačanja pomaže vam da maksimalno povećate izvedbu i održite promjenu kroz dulje razdoblje. Međutim, previše pojačanja može dovesti do pretjerane optimizacije stanja, što može utjecati na rezultate.
Negativan:
Negativno potkrepljenje se definira kao jačanje ponašanja koje se javlja zbog negativnog stanja koje je trebalo zaustaviti ili izbjeći. Pomaže vam da definirate minimalni postotak performansi. Međutim, nedostatak ove metode je što pruža dovoljno za zadovoljavanje minimalnog ponašanja.
Učenje modela potkrepljenja
Postoje dva važna modela učenja u učenju s potkrepljenjem:
- Markovljev proces odlučivanja
- Q učenje
Markovljev proces odlučivanja
Za dobivanje rješenja koriste se sljedeći parametri:
- Skup akcija - A
- Skup stanja -S
- Nagrada - R
- Politika- n
- Vrijednost - V
Matematički pristup za mapiranje rješenja u učenju s potkrepljenjem smatra se Markovljevim procesom odlučivanja ili (MDP).
Q-učenje
Q učenje je metoda koja se temelji na vrijednostima davanja informacija za informiranje o radnji koju agent treba poduzeti.
Razumimo ovu metodu na sljedećem primjeru:
- U zgradi postoji pet prostorija koje su povezane vratima.
- Svaka soba je označena brojevima od 0 do 4
- Vanjski dio zgrade može biti jedan veliki vanjski prostor (5)
- Vrata broj 1 i 4 vode u zgradu iz prostorije 5
Zatim morate pridružiti vrijednost nagrade svakim vratima:
- Vrata koja vode izravno do cilja imaju nagradu od 100
- Vrata koja nisu izravno povezana s ciljnom sobom daju nultu nagradu
- Kako su vrata dvosmjerna, svakoj sobi su dodijeljene dvije strelice
- Svaka strelica na gornjoj slici sadrži trenutnu vrijednost nagrade
Objašnjenje:
Na ovoj slici možete vidjeti da soba predstavlja stanje
Kretanje agenta iz jedne prostorije u drugu predstavlja radnju
Na donjoj slici stanje je opisano kao čvor, dok strelice pokazuju radnju.
Na primjer, agent prelazi iz sobe broj 2 u sobu broj 5
- Početno stanje = stanje 2
- Stanje 2-> stanje 3
- Stanje 3 -> stanje (2,1,4)
- Stanje 4-> stanje (0,5,3)
- Stanje 1-> stanje (5,3)
- Stanje 0-> stanje 4
Učenje s potkrepljenjem naspram nadziranog učenja
Parametri | Učenje ojačanja | Nadzirano učenje |
---|---|---|
Stil odluke | učenje s pojačanjem pomaže vam u donošenju odluka uzastopno. | U ovoj metodi odluka se donosi na temelju unosa danog na početku. |
Radi na | Radi na interakciji s okolinom. | Radi na primjerima ili danim oglednim podacima. |
Ovisnost o odluci | U RL metodi odluka o učenju ovisi. Stoga biste trebali dati oznake svim zavisnim odlukama. | Nadzirano učenje odluka koje su neovisne jedna o drugoj, pa se za svaku odluku daju oznake. |
Najprikladniji | Podržava i radi bolje u AI, gdje prevladava ljudska interakcija. | Uglavnom se njime upravlja pomoću interaktivnog softverskog sustava ili aplikacija. |
Primjer | Igra šaha | Prepoznavanje predmeta |
Primjene potkrepljenog učenja
Evo primjena učenja s pojačanjem:
- Robotika za industrijsku automatizaciju.
- Planiranje poslovne strategije
- Strojno učenje i obrada podataka
- Pomaže vam da stvorite sustave obuke koji pružaju prilagođene upute i materijale prema zahtjevima učenika.
- Upravljanje zrakoplovom i upravljanje kretanjem robota
Zašto koristiti učenje s pojačanjem?
Evo glavnih razloga za korištenje učenja s potkrepljenjem:
- Pomaže vam da pronađete situaciju koja zahtijeva akciju
- Pomaže vam otkriti koja radnja donosi najveću nagradu tijekom duljeg razdoblja.
- Učenje s pojačanjem također agentu učenja daje funkciju nagrađivanja.
- Također mu omogućuje da otkrije najbolju metodu za dobivanje velikih nagrada.
Kada ne koristiti učenje potkrepljivanjem?
Ne možete primijeniti model učenja s potkrepljenjem i to je sva situacija. Evo nekih uvjeta kada ne biste trebali koristiti model učenja s potkrepljenjem.
- Kada imate dovoljno podataka da riješite problem metodom učenja pod nadzorom
- Morate zapamtiti da je učenje s potkrepljenjem zahtjevno za računalom i oduzima puno vremena. osobito kada je prostor djelovanja velik.
Izazovi potkrepljenog učenja
Evo glavnih izazova s kojima ćete se susresti dok zarađujete od pojačanja:
- Dizajn značajke/nagrade koji bi trebao biti vrlo uključen
- Parametri mogu utjecati na brzinu učenja.
- Realna okruženja mogu imati djelomičnu vidljivost.
- Previše pojačanja može dovesti do preopterećenja stanja što može umanjiti rezultate.
- Realne okoline mogu biti nestacionarne.
rezime
- Učenje s pojačanjem je metoda strojnog učenja
- Pomaže vam otkriti koja radnja donosi najveću nagradu tijekom duljeg razdoblja.
- Tri metode za učenje s potkrepljenjem su 1) Učenje temeljeno na vrijednostima 2) Učenje temeljeno na politici i učenje temeljeno na modelu.
- Agent, država, nagrada, okruženje, funkcija vrijednosti, model okruženja, metode temeljene na modelu, neki su od važnih pojmova koji se koriste u RL metodi učenja
- Primjer učenja s potkrepljenjem je da je vaša mačka agent koji je izložen okolini.
- Najveća karakteristika ove metode je da nema nadzornika, samo stvarni broj ili signal nagrade
- Dvije vrste učenja s potkrepljenjem su 1) Pozitivno 2) Negativno
- Dva široko korištena modela učenja su 1) Markovljev proces odlučivanja 2) Q učenje
- Metoda učenja s pojačanjem radi na interakciji s okolinom, dok nadzirano učenje metoda radi na danim uzorcima podataka ili primjeru.
- Primjena ili metode učenja za pojačanje su: Robotika za industrijsku automatizaciju i planiranje poslovne strategije
- Ne biste trebali koristiti ovu metodu kada imate dovoljno podataka za rješavanje problema
- Najveći izazov ove metode je to što parametri mogu utjecati na brzinu učenja