Învățare prin consolidare: ce este, Algorithms, Tipuri și exemple

Ce este învățarea prin întărire?

Consolidarea învățării este definită ca o metodă de învățare automată care se preocupă de modul în care agenții software ar trebui să întreprindă acțiuni într-un mediu. Învățarea prin consolidare este o parte a metodei de învățare profundă care vă ajută să maximizați o parte din recompensa cumulativă.

Această metodă de învățare a rețelei neuronale vă ajută să învățați cum să atingeți un obiectiv complex sau să maximizați o anumită dimensiune în mai mulți pași.

Componente importante ale metodei de învățare prin consolidare profundă

Componente importante ale armăturii adânci

Iată câțiva termeni importanți utilizați în Reinforcement AI:

  • Agenți: Este o entitate presupusă care efectuează acțiuni într-un mediu pentru a obține o anumită recompensă.
  • Mediu (e): Un scenariu cu care trebuie să se confrunte un agent.
  • Recompensa (R): O întoarcere imediată acordată unui agent atunci când acesta îndeplinește o anumită acțiune sau sarcină.
  • Stat(e): Statul se referă la situația actuală returnată de mediu.
  • Politică (π): Este o strategie care se aplică de către agent pentru a decide următoarea acțiune în funcție de starea curentă.
  • Valoare (V): Se așteaptă un randament pe termen lung cu reducere, în comparație cu recompensa pe termen scurt.
  • Funcția de valoare: Specifică valoarea unui stat care este suma totală a recompensei. Este un agent care ar trebui să fie așteptat începând din acea stare.
  • Model de mediu: Aceasta imită comportamentul mediului. Vă ajută să faceți inferențe care trebuie făcute și, de asemenea, să determinați cum se va comporta mediul.
  • Metode bazate pe model: Este o metodă de rezolvare a problemelor de învățare prin întărire care utilizează metode bazate pe modele.
  • Valoarea Q sau valoarea acțiunii (Q): Valoarea Q este destul de asemănătoare cu valoarea. Singura diferență dintre cele două este că este nevoie de un parametru suplimentar ca acțiune curentă.

Cum funcționează învățarea prin întărire?

Să vedem un exemplu simplu care vă ajută să ilustrați mecanismul de învățare prin întărire.

Luați în considerare scenariul de a preda noi trucuri pisicii dvs

  • Deoarece pisica nu înțelege engleza sau orice altă limbă umană, nu îi putem spune direct ce să facă. În schimb, urmăm o strategie diferită.
  • Emulăm o situație, iar pisica încearcă să răspundă în multe moduri diferite. Dacă răspunsul pisicii este modul dorit, îi vom oferi pește.
  • Acum, ori de câte ori pisica este expusă la aceeași situație, pisica execută o acțiune similară cu și mai mult entuziasm în așteptarea de a obține mai multă recompensă (hrană).
  • Este ca și cum ai învăța că pisica obține din „ce să facă” din experiențe pozitive.
  • În același timp, pisica învață și ce nu face atunci când se confruntă cu experiențe negative.

Exemplu de învățare prin întărire

Exemplu de învățare prin întărire
Cum funcționează învățarea prin întărire

În acest caz,

  • Pisica ta este un agent care este expus la mediu. În acest caz, este casa ta. Un exemplu de stare ar putea fi pisica așezată și folosiți un anumit cuvânt pentru ca pisica să meargă.
  • Agentul nostru reacționează efectuând o tranziție de acțiune de la o „stare” la alta „stare”.
  • De exemplu, pisica ta trece de la șezut la mers.
  • Reacția unui agent este o acțiune, iar politica este o metodă de selectare a unei acțiuni având în vedere o stare în așteptarea unor rezultate mai bune.
  • După tranziție, aceștia pot primi o recompensă sau o penalizare în schimb.

Consolidarea învățării Algorithms

Există trei abordări pentru a implementa un algoritm de învățare prin consolidare.

Bazat pe valoare

Într-o metodă de învățare prin întărire bazată pe valori, ar trebui să încercați să maximizați o funcție de valoare V(e). În această metodă, agentul se așteaptă la o revenire pe termen lung a statelor actuale sub politică π.

Bazat pe politici

Într-o metodă RL bazată pe politici, încercați să veniți cu o astfel de politică încât acțiunea efectuată în fiecare stat să vă ajute să obțineți recompensă maximă în viitor.

Două tipuri de metode bazate pe politici sunt:

  • Determinist: Pentru orice stare, aceeași acțiune este produsă de politica π.
  • Stochastic: Fiecare acțiune are o anumită probabilitate, care este determinată de următoarea ecuație. Politica stocastică:
    n{a\s) = P\A, = a\S, =S]

Bazat pe model

În această metodă de învățare prin întărire, trebuie să creați un model virtual pentru fiecare mediu. Agentul învață să performeze în acel mediu specific.

Caracteristicile învățării prin întărire

Iată caracteristicile importante ale învățării prin întărire

  • Nu există un supraveghetor, doar un număr real sau un semnal de recompensă
  • Luare secvenţială a deciziilor
  • Timpul joacă un rol crucial în problemele de întărire
  • Feedback-ul este întotdeauna întârziat, nu instantaneu
  • Acțiunile agentului determină datele ulterioare pe care le primește

Tipuri de învățare prin întărire

Două tipuri de metode de învățare prin întărire sunt:

Pozitiv:

Este definit ca un eveniment, care are loc din cauza unui comportament specific. Mărește puterea și frecvența comportamentului și are un impact pozitiv asupra acțiunii întreprinse de agent.

Acest tip de întărire vă ajută să maximizați performanța și să susțineți schimbarea pentru o perioadă mai lungă. Cu toate acestea, prea multă întărire poate duce la supraoptimizarea stării, ceea ce poate afecta rezultatele.

Negativ:

Întărirea negativă este definită ca întărirea comportamentului care apare din cauza unei stări negative care ar fi trebuit oprită sau evitată. Vă ajută să definiți standul minim de performanță. Cu toate acestea, dezavantajul acestei metode este că oferă suficient pentru a îndeplini comportamentul minim.

Modele de învățare de întărire

Există două modele importante de învățare în învățarea prin întărire:

  • Procesul de decizie Markov
  • Q învățare

Procesul de decizie Markov

Următorii parametri sunt utilizați pentru a obține o soluție:

  • Set de acțiuni - A
  • Set de stări -S
  • Recompensa - R
  • Politica- n
  • Valoare- V

Abordarea matematică pentru maparea unei soluții în învățarea prin întărire este recunoscută ca un proces de decizie Markov sau (MDP).

Procesul de decizie Markov

Q-Learning

Învățarea Q este o metodă bazată pe valori de furnizare a informațiilor pentru a informa ce acțiune ar trebui să ia un agent.

Să înțelegem această metodă prin următorul exemplu:

  • Există cinci camere într-o clădire care sunt conectate prin uși.
  • Fiecare cameră este numerotată de la 0 la 4
  • Exteriorul clădirii poate fi o zonă mare exterioară (5)
  • Ușile numărul 1 și 4 duc în clădire din camera 5

Q-Learning

În continuare, trebuie să asociați o valoare de recompensă fiecărei uși:

  • Ușile care duc direct la obiectiv au o recompensă de 100
  • Ușile care nu sunt conectate direct la camera țintă oferă recompensă zero
  • Deoarece ușile sunt în două sensuri și sunt alocate două săgeți pentru fiecare cameră
  • Fiecare săgeată din imaginea de mai sus conține o valoare instantanee a recompensei

Explicaţie:

În această imagine, puteți vedea că camera reprezintă o stare

Mișcarea agentului dintr-o cameră în alta reprezintă o acțiune

În imaginea de mai jos, o stare este descrisă ca un nod, în timp ce săgețile arată acțiunea.

Q-Learning

De exemplu, un agent traversează de la camera numărul 2 la 5

  • Starea inițială = starea 2
  • Starea 2-> starea 3
  • Stare 3 -> stare (2,1,4)
  • Stare 4-> stare (0,5,3)
  • Stare 1-> stare (5,3)
  • Starea 0-> starea 4

Învățare prin consolidare vs. Învățare supravegheată

parametrii Consolidarea învățării Învățare supravegheată
Stilul de decizie învăţarea prin întărire vă ajută să vă luaţi deciziile secvenţial. În această metodă, se ia o decizie cu privire la intrarea dată la început.
funcţionează pe Lucrează la interacțiunea cu mediul. Lucrează pe exemple sau date eșantion date.
Dependenta de decizie În metoda RL decizia de învățare este dependentă. Prin urmare, ar trebui să dați etichete tuturor deciziilor dependente. Învățarea supravegheată a deciziilor care sunt independente unele de altele, astfel încât etichetele sunt date pentru fiecare decizie.
Cel mai potrivit Sprijină și funcționează mai bine în AI, unde interacțiunea umană este predominantă. Este operat în mare parte cu un sistem software interactiv sau aplicații.
Exemplu Joc de sah Recunoașterea obiectelor

Aplicații ale învățării prin întărire

Iată aplicații ale învățării prin întărire:

  • Robotică pentru automatizări industriale.
  • Planificarea strategiei de afaceri
  • Invatare mecanica și prelucrarea datelor
  • Vă ajută să creați sisteme de instruire care oferă instrucțiuni și materiale personalizate în funcție de cerințele studenților.
  • Controlul aeronavei și controlul mișcării robotului

De ce să folosiți Reinforcement Learning?

Iată principalele motive pentru a utiliza învățarea prin întărire:

  • Vă ajută să găsiți situația care necesită o acțiune
  • Te ajută să descoperi care acțiune aduce cea mai mare recompensă pe o perioadă mai lungă.
  • Învățarea prin întărire oferă, de asemenea, agentului de învățare o funcție de recompensă.
  • De asemenea, îi permite să găsească cea mai bună metodă pentru a obține recompense mari.

Când să nu folosiți învățarea prin întărire?

Nu poți aplica modelul de învățare prin întărire este toată situația. Iată câteva condiții în care nu ar trebui să utilizați modelul de învățare prin întărire.

  • Când aveți suficiente date pentru a rezolva problema cu o metodă de învățare supravegheată
  • Trebuie să rețineți că învățarea prin întărire necesită calcule grele și consumatoare de timp. în special atunci când spațiul de acțiune este mare.

Provocările învățării prin întărire

Iată provocările majore cu care te vei confrunta în timp ce faci câștiguri de întărire:

  • Design de caracteristici/recompense care ar trebui să fie foarte implicat
  • Parametrii pot afecta viteza de învățare.
  • Mediile realiste pot avea observabilitate parțială.
  • Prea multă întărire poate duce la o supraîncărcare de stări care poate diminua rezultatele.
  • Mediile realiste pot fi non-staționare.

Rezumat

  • Învățarea prin consolidare este o metodă de învățare automată
  • Te ajută să descoperi care acțiune aduce cea mai mare recompensă pe o perioadă mai lungă.
  • Trei metode de învățare prin consolidare sunt: ​​1) Învățare bazată pe valoare 2) Învățare bazată pe politici și învățare bazată pe model.
  • Agent, Stat, Recompensă, Mediu, Funcție de valoare Modelul mediului, Metodele bazate pe model, sunt câțiva termeni importanți utilizați în metoda de învățare RL
  • Exemplul de învățare prin întărire este pisica ta este un agent care este expus la mediu.
  • Cea mai mare caracteristică a acestei metode este că nu există un supervizor, doar un număr real sau un semnal de recompensă
  • Două tipuri de învățare prin întărire sunt 1) pozitive 2) negative
  • Două modele de învățare utilizate pe scară largă sunt 1) Procesul de decizie Markov 2) Învățarea Q
  • Metoda de învățare prin întărire funcționează pe interacțiunea cu mediul, în timp ce învățare supravegheată metoda funcționează pe date sau un exemplu dat.
  • Metodele de învățare prin aplicare sau întărire sunt: ​​Robotică pentru automatizarea industrială și planificarea strategiei de afaceri
  • Nu ar trebui să utilizați această metodă când aveți suficiente date pentru a rezolva problema
  • Cea mai mare provocare a acestei metode este că parametrii pot afecta viteza de învățare