Vahvistusoppiminen: Mikä on Algorithms, tyypit ja esimerkit
Mitä vahvistusoppiminen on?
Vahvistusoppiminen on määritelty koneoppimismenetelmäksi, joka koskee sitä, kuinka ohjelmistoagenttien tulee toimia ympäristössä. Vahvistusoppiminen on osa syväoppimismenetelmää, joka auttaa sinua maksimoimaan osan kumulatiivisesta palkkiosta.
Tämä hermoverkko-oppimismenetelmä auttaa sinua oppimaan saavuttamaan monimutkaisen tavoitteen tai maksimoimaan tietyn ulottuvuuden useissa vaiheissa.
Syvän vahvistamisen oppimismenetelmän tärkeät osat
Tässä on joitain tärkeitä termejä, joita käytetään vahvistusälyssä:
- Agentti: Se on oletettu kokonaisuus, joka suorittaa toimintoja ympäristössä saadakseen jonkin palkinnon.
- Ympäristö (e): Skenaario, joka agentin on kohdattava.
- Palkinto (R): Välitön palautus agentille, kun hän suorittaa tietyn toiminnon tai tehtävän.
- Osavaltio(t): Tilalla tarkoitetaan ympäristön palauttamaa nykytilannetta.
- Käytäntö (π): Se on strategia, jota agentti soveltaa päättääkseen seuraavasta toimenpiteestä nykyisen tilan perusteella.
- Arvo (V): Siitä odotetaan pitkän aikavälin tuottoa alennuksella verrattuna lyhyen aikavälin palkkioon.
- Arvofunktio: Se määrittää tilan arvon, joka on palkkion kokonaismäärä. Se on agentti, jota pitäisi odottaa siitä tilasta alkaen.
- Ympäristön malli: Tämä jäljittelee ympäristön käyttäytymistä. Se auttaa sinua tekemään johtopäätöksiä ja myös määrittämään, miten ympäristö käyttäytyy.
- Mallipohjaiset menetelmät: Se on menetelmä vahvistusoppimisongelmien ratkaisemiseen, jossa käytetään mallipohjaisia menetelmiä.
- Q-arvo tai toiminta-arvo (Q): Q-arvo on melko samanlainen kuin arvo. Ainoa ero näiden kahden välillä on, että se ottaa lisäparametrin nykyisenä toimintona.
Miten vahvistusoppiminen toimii?
Katsotaanpa muutama yksinkertainen esimerkki, joka auttaa havainnollistamaan vahvistusoppimismekanismia.
Harkitse skenaariota uusien temppujen opettamisesta kissallesi
- Koska kissa ei ymmärrä englantia tai muutakaan ihmisen kieltä, emme voi kertoa hänelle suoraan, mitä tehdä. Sen sijaan noudatamme erilaista strategiaa.
- Me jäljittelemme tilannetta, ja kissa yrittää vastata monin eri tavoin. Jos kissan vastaus on toivotulla tavalla, annamme sille kalaa.
- Nyt aina kun kissa joutuu samalle tilanteelle, kissa suorittaa samanlaisen toimenpiteen entistä innokkaammin odottaen saavansa enemmän palkkiota (ruokaa).
- Se on kuin oppisi, että kissa saa "mitä tehdä" positiivisista kokemuksista.
- Samalla kissa oppii myös, mitä ei tehdä, kun kohtaa negatiivisia kokemuksia.
Esimerkki vahvistusoppimisesta
Tässä tapauksessa,
- Kissasi on tekijä, joka on alttiina ympäristölle. Tässä tapauksessa se on sinun kotisi. Esimerkki tilasta voi olla kissasi istumassa, ja käytät tiettyä sanaa kissalle kävellä.
- Agenttimme reagoi suorittamalla toimintosiirtymän "tilasta" toiseen "tilaan".
- Esimerkiksi kissasi siirtyy istumasta kävelyyn.
- Agentin reaktio on toiminta, ja politiikka on menetelmä valita toiminta tietyssä tilassa parempia tuloksia odotettaessa.
- Siirtymän jälkeen he voivat saada palkkion tai rangaistuksen vastineeksi.
Vahvistusoppiminen Algorithms
Vahvistusoppimisalgoritmin toteuttamiseen on kolme lähestymistapaa.
Arvopohjainen
Arvopohjaisessa vahvistusoppimismenetelmässä sinun tulee yrittää maksimoida arvofunktio V(t). Tässä menetelmässä agentti odottaa nykyisten poliittisten tilojen pitkän aikavälin tuottoa π.
Politiikkaan perustuva
Käytäntöpohjaisessa RL-menetelmässä yrität keksiä sellaisen politiikan, että jokaisessa tilassa suoritettu toiminta auttaa sinua saamaan maksimaalisen palkinnon tulevaisuudessa.
Kahden tyyppisiä politiikkaan perustuvia menetelmiä ovat:
- Deterministinen: Jokaiselle tilalle käytäntö π tuottaa saman toiminnon.
- Stokastinen: Jokaisella toiminnolla on tietty todennäköisyys, joka määräytyy seuraavalla yhtälöllä.Stokastinen käytäntö:
n{a\s) = P\A, = a\S, =S]
Mallipohjainen
Tässä vahvistusoppimismenetelmässä sinun on luotava virtuaalinen malli jokaiselle ympäristölle. Agentti oppii toimimaan kyseisessä ympäristössä.
Vahvistusoppimisen ominaisuudet
Tässä on tärkeitä vahvistusoppimisen ominaisuuksia
- Ei ole valvojaa, vain todellinen numero tai palkkiosignaali
- Peräkkäinen päätöksenteko
- Aika on ratkaisevassa roolissa vahvistusongelmissa
- Palaute on aina viivästynyt, ei välitöntä
- Agentin toimet määräävät sen myöhemmin vastaanottaman tiedon
Vahvistusoppimisen tyypit
Kahden tyyppisiä vahvistamisoppimismenetelmiä ovat:
positiivinen:
Se määritellään tapahtumaksi, joka tapahtuu tietyn käyttäytymisen vuoksi. Se lisää käytöksen voimakkuutta ja tiheyttä ja vaikuttaa positiivisesti agentin toimintaan.
Tämäntyyppinen vahvistus auttaa maksimoimaan suorituskyvyn ja ylläpitämään muutosta pidemmän ajan. Liiallinen vahvistus voi kuitenkin johtaa tilan liialliseen optimointiin, mikä voi vaikuttaa tuloksiin.
negatiivinen:
Negatiivinen vahvistuminen määritellään käyttäytymisen vahvistamiseksi, joka johtuu negatiivisesta tilasta, joka olisi pitänyt lopettaa tai välttää. Se auttaa sinua määrittämään suorituskyvyn vähimmäistason. Tämän menetelmän haittapuolena on kuitenkin se, että se tarjoaa tarpeeksi täyttämään vähimmäiskäyttäytymisen.
Vahvistusmallien oppiminen
Vahvistusoppimisessa on kaksi tärkeää oppimismallia:
- Markovin päätösprosessi
- Q oppiminen
Markovin päätösprosessi
Ratkaisun saamiseksi käytetään seuraavia parametreja:
- Toimintojen sarja - A
- Joukko tiloja -S
- Palkinto - R
- Politiikka-n
- Arvo - V
Matemaattinen lähestymistapa ratkaisun kartoittamiseen vahvistusoppimisessa on recon kuin Markov Decision Process tai (MDP).
Q-oppiminen
Q-oppiminen on arvopohjainen tapa toimittaa tietoa, joka kertoo, mihin toimiin edustajan tulisi ryhtyä.
Ymmärretään tämä menetelmä seuraavan esimerkin avulla:
- Rakennuksessa on viisi huonetta, joita yhdistää ovet.
- Jokainen huone on numeroitu 0-4
- Rakennuksen ulkopuolella voi olla yksi iso ulkoalue (5)
- Ovet numerot 1 ja 4 johtavat rakennukseen huoneesta 5
Seuraavaksi sinun on liitettävä palkkioarvo jokaiseen oveen:
- Ovet, jotka johtavat suoraan maaliin, saavat 100 palkinnon
- Ovet, jotka eivät ole suoraan yhteydessä kohdehuoneeseen, antavat nollapalkkiota
- Koska ovet ovat kaksisuuntaisia, ja jokaiselle huoneelle on määritetty kaksi nuolta
- Jokainen yllä olevan kuvan nuoli sisältää välittömän palkintoarvon
Selitys:
Tässä kuvassa voit nähdä, että huone edustaa tilaa
Agentin liikkuminen huoneesta toiseen edustaa toimintaa
Alla olevassa kuvassa tila on kuvattu solmuna, kun taas nuolet osoittavat toiminnan.
Esimerkiksi agentti kulkee huoneesta numero 2 5:een
- Alkutila = tila 2
- Tila 2-> tila 3
- Tila 3 -> tila (2,1,4)
- Tila 4-> tila (0,5,3)
- Tila 1-> tila (5,3)
- Tila 0-> tila 4
Vahvistusoppiminen vs. ohjattu oppiminen
parametrit | Vahvistusoppiminen | Ohjattu oppiminen |
---|---|---|
Päätöksen tyyli | vahvistusoppiminen auttaa sinua tekemään päätöksesi peräkkäin. | Tässä menetelmässä päätös tehdään alussa annetun syötteen perusteella. |
Toimii | Toimii vuorovaikutuksessa ympäristön kanssa. | Toimii esimerkkien tai annettujen näytetietojen perusteella. |
Riippuvuus päätöksestä | RL-menetelmässä oppimispäätös on riippuvainen. Siksi sinun tulee merkitä kaikki riippuvaiset päätökset. | Ohjattu oppiminen toisistaan riippumattomien päätösten, joten jokaiselle päätökselle annetaan merkinnät. |
Parhaiten soveltuvat | Tukee ja toimii paremmin tekoälyssä, jossa ihmisten välinen vuorovaikutus on yleistä. | Sitä käytetään enimmäkseen interaktiivisella ohjelmistojärjestelmällä tai sovelluksilla. |
esimerkki | Shakki peli | Objektien tunnistaminen |
Vahvistusoppimisen sovellukset
Tässä on vahvistusoppimisen sovelluksia:
- Robotiikka teollisuusautomaatioon.
- Liiketoimintastrategian suunnittelu
- Koneen oppiminen ja tietojenkäsittelystä
- Se auttaa sinua luomaan koulutusjärjestelmiä, jotka tarjoavat räätälöityjä ohjeita ja materiaaleja opiskelijoiden tarpeiden mukaan.
- Lentokoneen ohjaus ja robotin liikkeenohjaus
Miksi käyttää vahvistusoppimista?
Tässä ovat tärkeimmät syyt vahvistusoppimisen käyttöön:
- Se auttaa sinua selvittämään, mikä tilanne vaatii toimia
- Auttaa sinua selvittämään, mikä toiminta tuottaa suurimman palkinnon pidemmällä aikavälillä.
- Vahvistusoppiminen tarjoaa myös oppimisagentille palkitsemistoiminnon.
- Sen avulla se voi myös selvittää parhaan tavan saada suuria palkintoja.
Milloin vahvistusoppimista ei saa käyttää?
Vahvistusoppimismallia ei voi soveltaa, on kaikki tilanne. Tässä on joitain ehtoja, joissa sinun ei pitäisi käyttää vahvistusoppimismallia.
- Kun sinulla on tarpeeksi dataa ratkaistaksesi ongelman valvotulla oppimismenetelmällä
- Sinun on muistettava, että vahvistusoppiminen on tietokonetyötä ja aikaa vievää. varsinkin kun toimintatila on suuri.
Vahvistusoppimisen haasteet
Tässä ovat tärkeimmät haasteet, joita kohtaat ansaitseessasi vahvistusta:
- Ominaisuuden/palkkion suunnittelu, jonka pitäisi olla hyvin mukana
- Parametrit voivat vaikuttaa oppimisen nopeuteen.
- Realistisissa ympäristöissä voi olla osittainen havaittavuus.
- Liiallinen vahvistus voi johtaa tilojen ylikuormitukseen, mikä voi heikentää tuloksia.
- Realistiset ympäristöt voivat olla ei-stationaarisia.
Yhteenveto
- Vahvistusoppiminen on koneoppimismenetelmä
- Auttaa sinua selvittämään, mikä toiminta tuottaa suurimman palkinnon pidemmällä aikavälillä.
- Vahvistusoppimisen kolme menetelmää ovat 1) Arvopohjainen 2) Politiikka- ja mallipohjainen oppiminen.
- Agentti, tila, palkkio, ympäristö, arvofunktio ympäristön malli, mallipohjaiset menetelmät ovat tärkeitä termejä, joita käytetään RL-oppimismenetelmässä
- Vahvistusoppimisen esimerkki on, että kissasi on aine, joka on alttiina ympäristölle.
- Tämän menetelmän suurin ominaisuus on, että siinä ei ole valvojaa, vain reaaliluku tai palkkiosignaali
- Vahvistusoppimisen kaksi tyyppiä ovat 1) positiivinen 2) negatiivinen
- Kaksi yleisesti käytettyä oppimismallia ovat 1) Markovin päätösprosessi 2) Q-oppiminen
- Vahvistus Oppimismenetelmä toimii vuorovaikutuksessa ympäristön kanssa, kun taas valvottu oppiminen menetelmä toimii annetulla näytedatalla tai esimerkillä.
- Sovellus- tai vahvistusoppimismenetelmiä ovat: Robotiikka teollisuusautomaatioon ja liiketoimintastrategian suunnitteluun
- Älä käytä tätä menetelmää, jos sinulla on tarpeeksi tietoa ongelman ratkaisemiseksi
- Tämän menetelmän suurin haaste on, että parametrit voivat vaikuttaa oppimisen nopeuteen