Tugevdusõpe: mis on Algorithms, tüübid ja näited

Mis on tugevdav õpe?

Tugevdusõpe on määratletud kui masinõppe meetod, mis on seotud sellega, kuidas tarkvaraagendid peaksid keskkonnas toiminguid tegema. Tugevdusõpe on osa süvaõppemeetodist, mis aitab teil teatud osa kumulatiivsest tasust maksimeerida.

See närvivõrgu õppemeetod aitab teil õppida, kuidas saavutada keeruline eesmärk või maksimeerida konkreetne dimensioon mitme sammuga.

Sügava tugevdamise õppemeetodi olulised komponendid

Sügava tugevdamise olulised komponendid

Siin on mõned olulised terminid, mida kasutatakse tugevdamise AI-s:

  • Agent: See on oletatav üksus, mis teeb keskkonnas teatud tasu saamiseks toiminguid.
  • Keskkond (e): Stsenaarium, millega agent peab silmitsi seisma.
  • Preemia (R): Vahetu tagasimakse, mis antakse agendile, kui ta täidab konkreetset tegevust või ülesannet.
  • Osariik(id): Olek viitab hetkeolukorrale, mille keskkond on tagastanud.
  • Poliitika (π): See on strateegia, mida agent rakendab järgmise toimingu otsustamiseks praeguse oleku põhjal.
  • Väärtus (V): Võrreldes lühiajalise tasuga on oodata pikaajalist tulu koos allahindlusega.
  • Väärtuse funktsioon: See määrab oleku väärtuse, mis on tasu kogusumma. See on agent, mida tuleks sellest olekust alates oodata.
  • Keskkonna mudel: See jäljendab keskkonna käitumist. See aitab teil teha järeldusi ja ka määrata, kuidas keskkond käitub.
  • Mudelipõhised meetodid: See on meetod tugevdamisõppe probleemide lahendamiseks, mis kasutab mudelipõhiseid meetodeid.
  • Q väärtus või tegevusväärtus (Q): Q väärtus on väärtusega üsna sarnane. Ainus erinevus nende kahe vahel on see, et see võtab praeguse toiminguna täiendava parameetri.

Kuidas tugevdav õpe toimib?

Vaatame mõnda lihtsat näidet, mis aitab teil tugevdamise õppemehhanismi illustreerida.

Mõelge oma kassile uute trikkide õpetamise stsenaariumile

  • Kuna kass ei mõista inglise keelt ega ühtegi teist inimkeelt, ei saa me talle otse öelda, mida teha. Selle asemel järgime teistsugust strateegiat.
  • Me jäljendame olukorda ja kass proovib reageerida mitmel erineval viisil. Kui kassi reaktsioon on soovitud viisil, anname talle kala.
  • Nüüd, kui kass puutub kokku samas olukorras, sooritab kass sarnase toimingu veelgi entusiastlikumalt, lootes saada rohkem tasu (toitu).
  • See on nagu õppimine, et kass saab positiivsete kogemuste põhjal “mida teha”.
  • Samal ajal õpib kass ka seda, mida negatiivsete kogemustega silmitsi seistes ei tohi teha.

Tugevdusõppe näide

Tugevdusõppe näide
Kuidas tugevdav õpe töötab

Sel juhul,

  • Teie kass on keskkonnaga kokkupuutuv aine. Sel juhul on see teie maja. Olukorra näide võib olla teie kass, kes istub ja te kasutate kassi kõndimiseks konkreetset sõna.
  • Meie agent reageerib, teostades toimingu ülemineku ühest "olekust" teise "olekusse".
  • Näiteks läheb teie kass istumisest kõndima.
  • Agendi reaktsioon on tegevus ja poliitika on meetod toimingu valimiseks, võttes arvesse paremaid tulemusi.
  • Pärast üleminekut võivad nad saada tasu või karistuse.

Tugevdusõpe Algorithms

Tugevdamise õppimise algoritmi rakendamiseks on kolm lähenemisviisi.

Väärtuspõhine

Väärtuspõhise tugevdamisõppe meetodi puhul peaksite proovima väärtusfunktsiooni maksimeerida V(s). Selle meetodi puhul ootab agent praeguste tingimuste pikaajalist tagasitulekut poliitika alusel π.

Poliitikapõhine

Poliitikapõhises RL-meetodis proovite välja mõelda sellise poliitika, et igas olekus tehtud toiming aitaks teil saada tulevikus maksimaalset tasu.

On kahte tüüpi poliitikapõhiseid meetodeid:

  • Deterministlik: mis tahes oleku korral tekitab sama toimingu poliitika π.
  • Stohhastiline: igal toimingul on teatud tõenäosus, mis määratakse järgmise võrrandiga. Stohhastiline poliitika:
    n{a\s) = P\A, = a\S, =S]

Mudelipõhine

Selle tugevdamisõppe meetodi puhul peate iga keskkonna jaoks looma virtuaalse mudeli. Agent õpib selles konkreetses keskkonnas esinema.

Tugevdusõppe tunnused

Siin on tugevdusõppe olulised omadused

  • Juhendajat pole, on ainult reaalnumber või preemiasignaal
  • Järjestikuste otsuste tegemine
  • Aeg mängib tugevdamisprobleemides otsustavat rolli
  • Tagasiside on alati hilinenud, mitte hetkeline
  • Agendi tegevused määravad edasised andmed, mida ta saab

Tugevdusõppe tüübid

Kahte tüüpi tugevdamise õppemeetodeid on:

Positiivne:

Seda määratletakse kui sündmust, mis toimub konkreetse käitumise tõttu. See suurendab käitumise tugevust ja sagedust ning mõjutab positiivselt agendi tegevust.

Seda tüüpi tugevdus aitab teil jõudlust maksimeerida ja säilitada muutusi pikema aja jooksul. Liiga palju tugevdamist võib aga viia oleku üleoptimeerimiseni, mis võib tulemusi mõjutada.

Negatiivne:

Negatiivne tugevdamine on defineeritud kui käitumise tugevdamine, mis tuleneb negatiivsest seisundist, mis oleks pidanud peatuma või vältima. See aitab teil määratleda minimaalse jõudluse. Selle meetodi puuduseks on aga see, et see annab piisavalt minimaalse käitumise saavutamiseks.

Tugevdamise mudelite õppimine

Tugevdusõppes on kaks olulist õppemudelit:

  • Markovi otsustusprotsess
  • Q õppimine

Markovi otsustusprotsess

Lahenduse saamiseks kasutatakse järgmisi parameetreid:

  • Toimingute komplekt - A
  • Olekute kogum -S
  • Auhind - R
  • Poliitika- n
  • Väärtus - V

Matemaatiline lähenemine lahenduse kaardistamiseks armeerimisõppes on recon kui Markovi otsustusprotsess või (MDP).

Markovi otsustusprotsess

Q-õpe

Q-õpe on väärtuspõhine meetod teabe edastamiseks, et teavitada, milliseid meetmeid agent peaks tegema.

Mõistame seda meetodit järgmise näite abil:

  • Majas on viis tuba, mis on omavahel ustega ühendatud.
  • Iga tuba on nummerdatud 0 kuni 4
  • Hoone väliskülg võib olla üks suur välispind (5)
  • 1. ruumist viivad majja uksed number 4 ja 5

Q-õpe

Järgmiseks peate iga uksega seostama preemia väärtuse:

  • Otse eesmärgini viivad uksed saavad tasu 100
  • Uksed, mis ei ole otse sihtruumiga ühendatud, ei anna tasu
  • Kuna uksed on kahesuunalised ja iga ruumi jaoks on määratud kaks noolt
  • Iga ülaltoodud pildi nool sisaldab kohest preemia väärtust

Selgitus:

Sellel pildil näete, et ruum esindab olekut

Agendi liikumine ühest ruumist teise tähistab tegevust

Alloleval pildil kirjeldatakse olekut sõlmena, samas kui nooled näitavad tegevust.

Q-õpe

Näiteks agent liigub ruumist number 2 kuni 5

  • Algseisund = olek 2
  • Olek 2-> olek 3
  • Olek 3 -> olek (2,1,4)
  • Olek 4-> olek (0,5,3)
  • Olek 1-> olek (5,3)
  • Olek 0-> olek 4

Tugevdusõpe vs juhendatud õpe

parameetrid Tugevdusõpe Juhendatud õppimine
Otsustusstiil tugevdusõpe aitab teil otsuseid teha järjestikku. Selle meetodi puhul tehakse otsus alguses antud sisendi järgi.
Tööd Töötab keskkonnaga suhtlemisel. Töötab näidete või antud näidisandmete põhjal.
Sõltuvus otsusest RL-meetodi puhul on õppimisotsus sõltuv. Seetõttu peaksite kõigile sõltuvatele otsustele märgistama. Üksteisest sõltumatute otsuste juhendamisel õppimine, seega antakse igale otsusele sildid.
Sobib kõige paremini Toetab ja töötab paremini AI-s, kus inimestevaheline suhtlus on levinud. Seda juhitakse enamasti interaktiivse tarkvarasüsteemi või rakendustega.
Näide Malemäng Objektide tuvastamine

Tugevdusõppe rakendused

Siin on tugevdamisõppe rakendused:

  • Robootika tööstusautomaatika jaoks.
  • Äristrateegia planeerimine
  • Masinõpe ja andmetöötlus
  • See aitab teil luua koolitussüsteeme, mis pakuvad kohandatud juhiseid ja materjale vastavalt õpilaste nõudmistele.
  • Lennuki juhtimine ja roboti liikumise juhtimine

Miks kasutada tugevdamisõpet?

Siin on tugevdamisõppe kasutamise peamised põhjused:

  • See aitab teil leida, milline olukord vajab tegutsemist
  • Aitab teil teada saada, milline tegevus annab pikema perioodi jooksul suurima tasu.
  • Tugevdusõpe pakub õppeagendile ka tasustamisfunktsiooni.
  • Samuti võimaldab see välja selgitada parima meetodi suurte hüvede saamiseks.

Millal mitte kasutada tugevdavat õpet?

Te ei saa rakendada tugevdusõppe mudelit, on olukord. Siin on mõned tingimused, mille puhul te ei tohiks kasutada tugevdusõppe mudelit.

  • Kui teil on piisavalt andmeid probleemi lahendamiseks juhendatud õppemeetodiga
  • Peate meeles pidama, et tugevdav õpe on andmetöötlus- ja aeganõudev. eriti kui tegevusruum on suur.

Tugevdusõppe väljakutsed

Siin on peamised väljakutsed, millega peate tugevdamise teenimisel silmitsi seisma:

  • Funktsiooni/preemia disain, mis peaks olema väga kaasatud
  • Parameetrid võivad mõjutada õppimise kiirust.
  • Realistlikel keskkondadel võib olla osaline jälgitavus.
  • Liiga tugev tugevdamine võib põhjustada olekute ülekoormust, mis võib tulemusi vähendada.
  • Realistlikud keskkonnad võivad olla mittestatsionaarsed.

kokkuvõte

  • Tugevdusõpe on masinõppe meetod
  • Aitab teil teada saada, milline tegevus annab pikema perioodi jooksul suurima tasu.
  • Kolm tugevdava õppe meetodit on 1) väärtuspõhine 2) poliitikapõhine ja mudelipõhine õpe.
  • Agent, olek, tasu, keskkond, väärtusfunktsioon Keskkonnamudel, mudelipõhised meetodid on mõned olulised terminid, mida kasutatakse RL õppemeetodis
  • Tugevdusõppe näide on see, et teie kass on keskkonnaga kokkupuutuv agent.
  • Selle meetodi suurim omadus on see, et juhendajat pole, on ainult reaalarv või preemiasignaal
  • Kaht tüüpi tugevdavat õpet on 1) positiivne 2) negatiivne
  • Kaks laialdaselt kasutatavat õppemudelit on 1) Markovi otsustusprotsess 2) Q-õpe
  • Tugevdamine Õppemeetod töötab keskkonnaga suhtlemisel, samas kui juhendatud õppimine meetod töötab antud näidisandmetel või näitel.
  • Rakendus- või tugevdamisõppe meetodid on: Robootika tööstuse automatiseerimiseks ja äristrateegia planeerimiseks
  • Ärge kasutage seda meetodit, kui teil on probleemi lahendamiseks piisavalt andmeid
  • Selle meetodi suurim väljakutse on see, et parameetrid võivad mõjutada õppimise kiirust

Võta see postitus kokku järgmiselt: