Apprendimento per rinforzo: cos'è Algorithms, Tipi ed esempi

Che cos'è l'apprendimento per rinforzo?

Insegnamento rafforzativo è definito come un metodo di Machine Learning che riguarda il modo in cui gli agenti software dovrebbero eseguire azioni in un ambiente. L'apprendimento per rinforzo è una parte del metodo di deep learning che ti aiuta a massimizzare una parte della ricompensa cumulativa.

Questo metodo di apprendimento basato sulle reti neurali ti aiuta a imparare come raggiungere un obiettivo complesso o massimizzare una dimensione specifica attraverso molti passaggi.

Componenti importanti del metodo di apprendimento per rinforzo profondo

Componenti importanti del rinforzo profondo

Ecco alcuni termini importanti utilizzati nell'IA di rinforzo:

  • Agente: È un'entità presunta che esegue azioni in un ambiente per ottenere una ricompensa.
  • Ambiente (e): Uno scenario che un agente deve affrontare.
  • Ricompensa (R): Un rendimento immediato dato a un agente quando esegue un'azione o un compito specifico.
  • Stati): Lo stato si riferisce alla situazione attuale restituita dall'ambiente.
  • Politica (π): È una strategia applicata dall'agente per decidere l'azione successiva in base allo stato attuale.
  • Valore (V): Si prevede un rendimento a lungo termine con uno sconto, rispetto al rendimento a breve termine.
  • Funzione valore: Specifica il valore di uno stato che rappresenta l'importo totale della ricompensa. È un agente che dovrebbe essere previsto a partire da quello stato.
  • Modello dell'ambiente: Questo imita il comportamento dell'ambiente. Ti aiuta a fare inferenze da fare e anche a determinare come si comporterà l'ambiente.
  • Metodi basati su modelli: È un metodo per risolvere problemi di apprendimento per rinforzo che utilizza metodi basati su modelli.
  • Valore Q o valore dell'azione (Q): Il valore Q è abbastanza simile al valore. L'unica differenza tra i due è che accetta un parametro aggiuntivo come azione corrente.

Come funziona l'apprendimento per rinforzo?

Vediamo qualche semplice esempio che ti aiuta a illustrare il meccanismo dell'apprendimento per rinforzo.

Considera lo scenario in cui insegni nuovi trucchi al tuo gatto

  • Dato che il gatto non capisce l'inglese o qualsiasi altra lingua umana, non possiamo dirgli direttamente cosa fare. Invece, seguiamo una strategia diversa.
  • Emuliamo una situazione e il gatto cerca di rispondere in molti modi diversi. Se la risposta del gatto è quella desiderata, gli daremo il pesce.
  • Ora, ogni volta che il gatto è esposto alla stessa situazione, esegue un'azione simile con ancora più entusiasmo in attesa di ottenere più ricompensa (cibo).
  • È come imparare che il gatto ricava dal “cosa fare” dalle esperienze positive.
  • Allo stesso tempo, il gatto impara anche cosa non fare di fronte ad esperienze negative.

Esempio di apprendimento per rinforzo

Esempio di apprendimento per rinforzo
Come funziona l'apprendimento per rinforzo

In questo caso,

  • Il tuo gatto è un agente esposto all'ambiente. In questo caso, è casa tua. Un esempio di stato potrebbe essere il tuo gatto seduto e tu usi una parola specifica per far camminare il gatto.
  • Il nostro agente reagisce eseguendo una transizione dell'azione da uno "stato" a un altro "stato".
  • Ad esempio, il tuo gatto passa da seduto a camminare.
  • La reazione di un agente è un’azione, e la politica è un metodo per selezionare un’azione dato uno stato in attesa di risultati migliori.
  • Dopo la transizione, potrebbero ricevere in cambio una ricompensa o una penalità.

Insegnamento rafforzativo Algorithms

Esistono tre approcci per implementare un algoritmo di apprendimento per rinforzo.

Basato sul valore

In un metodo di apprendimento per rinforzo basato sul valore, dovresti provare a massimizzare una funzione di valore V(i). In questo metodo, l'agente si aspetta un ritorno a lungo termine degli stati attuali soggetti alla politica π.

Basato sulle politiche

In un metodo RL basato su politiche, provi a elaborare una politica tale che l'azione eseguita in ogni stato ti aiuti a ottenere la massima ricompensa in futuro.

Due tipi di metodi basati sulle politiche sono:

  • Deterministico: per ogni stato, la stessa azione è prodotta dalla politica π.
  • Stocastico: Ogni azione ha una certa probabilità, che è determinata dalla seguente equazione. Politica stocastica:
    n{a\s) = P\A, = a\S, =S]

Basato su modello

In questo metodo di apprendimento per rinforzo, è necessario creare un modello virtuale per ciascun ambiente. L'agente impara a comportarsi in quell'ambiente specifico.

Caratteristiche dell'apprendimento per rinforzo

Ecco le caratteristiche importanti dell’apprendimento per rinforzo

  • Non esiste un supervisore, solo un numero reale o un segnale di ricompensa
  • Processo decisionale sequenziale
  • Il tempo gioca un ruolo cruciale nei problemi di rinforzo
  • Il feedback è sempre ritardato, non istantaneo
  • Le azioni dell'agente determinano i dati successivi che riceve

Tipi di apprendimento per rinforzo

Due tipi di metodi di apprendimento per rinforzo sono:

Positivo:

È definito come un evento che si verifica a causa di un comportamento specifico. Aumenta la forza e la frequenza del comportamento e ha un impatto positivo sull'azione intrapresa dall'agente.

Questo tipo di rinforzo ti aiuta a massimizzare le prestazioni e a sostenere il cambiamento per un periodo più lungo. Tuttavia, un rinforzo eccessivo può portare a un'ottimizzazione eccessiva dello stato, che può influenzare i risultati.

Negativo:

Il rinforzo negativo è definito come il rafforzamento del comportamento che si verifica a causa di una condizione negativa che avrebbe dovuto essere interrotta o evitata. Ti aiuta a definire il livello minimo di prestazione. Tuttavia, lo svantaggio di questo metodo è che fornisce risorse sufficienti per soddisfare il comportamento minimo.

Modelli di apprendimento del rinforzo

Esistono due importanti modelli di apprendimento nell’apprendimento per rinforzo:

  • Processo decisionale di Markov
  • Q apprendimento

Processo decisionale di Markov

Per ottenere una soluzione vengono utilizzati i seguenti parametri:

  • Insieme di azioni - A
  • Insieme di stati -S
  • Premio - R
  • Polizza-n
  • Valore- V

L'approccio matematico per mappare una soluzione nell'apprendimento per rinforzo è riconducibile al processo decisionale di Markov o (MDP).

Processo decisionale di Markov

Q-Apprendimento

Il Q learning è un metodo basato sul valore per fornire informazioni per definire quale azione dovrebbe intraprendere un agente.

Comprendiamo questo metodo con il seguente esempio:

  • Ci sono cinque stanze in un edificio collegate da porte.
  • Ogni stanza è numerata da 0 a 4
  • L'esterno dell'edificio può costituire un'unica grande area esterna (5)
  • Le porte numero 1 e 4 conducono all'edificio dalla stanza 5

Q-Apprendimento

Successivamente, è necessario associare un valore di ricompensa a ciascuna porta:

  • Le porte che conducono direttamente all'obiettivo hanno una ricompensa di 100
  • Le porte che non sono direttamente collegate alla stanza bersaglio non danno ricompensa
  • Poiché le porte sono a doppio senso e per ogni stanza vengono assegnate due frecce
  • Ogni freccia nell'immagine sopra contiene un valore di ricompensa istantaneo

Spiegazione:

In questa immagine puoi vedere che la stanza rappresenta uno stato

Il movimento dell'agente da una stanza all'altra rappresenta un'azione

Nell'immagine seguente, uno stato è descritto come un nodo, mentre le frecce mostrano l'azione.

Q-Apprendimento

Ad esempio, un agente passa dalla stanza numero 2 alla stanza 5

  • Stato iniziale = stato 2
  • Stato 2 -> stato 3
  • Stato 3 -> stato (2,1,4)
  • Stato 4-> stato (0,5,3)
  • Stato 1-> stato (5,3)
  • Stato 0 -> stato 4

Apprendimento per rinforzo e apprendimento supervisionato

parametri Insegnamento rafforzativo Apprendimento supervisionato
Stile decisionale l’apprendimento per rinforzo ti aiuta a prendere le tue decisioni in sequenza. In questo metodo la decisione viene presa in base all'input fornito all'inizio.
funziona su Funziona sull'interazione con l'ambiente. Funziona su esempi o dati campione forniti.
Dipendenza dalla decisione Nel metodo RL la decisione di apprendimento è dipendente. Pertanto, dovresti dare etichette a tutte le decisioni dipendenti. Apprendimento supervisionato delle decisioni che sono indipendenti l'una dall'altra, quindi vengono assegnate etichette per ogni decisione.
meglio adatto Supporta e funziona meglio nell'intelligenza artificiale, dove l'interazione umana è prevalente. Viene gestito principalmente con un sistema o applicazioni software interattivi.
Esempio Gioco di scacchi Riconoscimento di oggetti

Applicazioni dell'apprendimento per rinforzo

Ecco le applicazioni dell’apprendimento per rinforzo:

  • Robotica per l'automazione industriale.
  • Pianificazione della strategia aziendale
  • apprendimento automatico ed elaborazione dati
  • Ti aiuta a creare sistemi di formazione che forniscono istruzioni e materiali personalizzati in base alle esigenze degli studenti.
  • Controllo dell'aereo e controllo del movimento dei robot

Perché utilizzare l’apprendimento per rinforzo?

Ecco i motivi principali per utilizzare l’apprendimento per rinforzo:

  • Ti aiuta a scoprire quale situazione richiede un'azione
  • Ti aiuta a scoprire quale azione produce la ricompensa più alta nel periodo più lungo.
  • L'apprendimento per rinforzo fornisce anche all'agente di apprendimento una funzione di ricompensa.
  • Gli consente inoltre di capire il metodo migliore per ottenere grandi ricompense.

Quando non utilizzare l’apprendimento per rinforzo?

Non è possibile applicare il modello di apprendimento per rinforzo è tutta la situazione. Ecco alcune condizioni in cui non dovresti utilizzare il modello di apprendimento per rinforzo.

  • Quando hai dati sufficienti per risolvere il problema con un metodo di apprendimento supervisionato
  • È necessario ricordare che l'apprendimento per rinforzo è impegnativo dal punto di vista informatico e richiede molto tempo. in particolare quando lo spazio d'azione è ampio.

Sfide dell'apprendimento per rinforzo

Ecco le principali sfide che dovrai affrontare mentre guadagni rinforzi:

  • Progettazione di funzionalità/ricompense che dovrebbe essere molto coinvolta
  • I parametri possono influenzare la velocità di apprendimento.
  • Gli ambienti realistici possono avere osservabilità parziale.
  • Troppi Rinforzi possono portare ad un sovraccarico di stati che può diminuire i risultati.
  • Gli ambienti realistici possono essere non stazionari.

Sommario

  • Il Reinforcement Learning è un metodo di Machine Learning
  • Ti aiuta a scoprire quale azione produce la ricompensa più alta nel periodo più lungo.
  • Tre metodi per l'apprendimento per rinforzo sono 1) Apprendimento basato sul valore 2) Apprendimento basato su politiche e basato su modelli.
  • Agente, Stato, Ricompensa, Ambiente, Funzione valore Modello dell'ambiente, Metodi basati su modelli, sono alcuni termini importanti utilizzati nel metodo di apprendimento RL
  • L'esempio dell'apprendimento per rinforzo è che il tuo gatto è un agente esposto all'ambiente.
  • La caratteristica più importante di questo metodo è che non esiste un supervisore, solo un numero reale o un segnale di ricompensa
  • Due tipi di apprendimento per rinforzo sono 1) Positivo 2) Negativo
  • Due modelli di apprendimento ampiamente utilizzati sono 1) Processo decisionale di Markov 2) Apprendimento Q
  • Il metodo di apprendimento per rinforzo funziona sull'interazione con l'ambiente, mentre il apprendimento supervisionato Il metodo funziona su determinati dati campione o esempi.
  • I metodi di applicazione o apprendimento per rinforzo sono: Robotica per l'automazione industriale e pianificazione della strategia aziendale
  • Non dovresti utilizzare questo metodo quando disponi di dati sufficienti per risolvere il problema
  • La sfida più grande di questo metodo è che i parametri possono influenzare la velocità di apprendimento