Apprentissage par renforcement : qu'est-ce que c'est, Algorithms, types et exemples
Qu'est-ce que l'apprentissage par renforcement ?
Apprentissage par renforcement est dรฉfini comme une mรฉthode d'apprentissage automatique qui s'intรฉresse ร la maniรจre dont les agents logiciels doivent entreprendre des actions dans un environnement. L'apprentissage par renforcement fait partie de la mรฉthode d'apprentissage en profondeur qui vous aide ร maximiser une partie de la rรฉcompense cumulรฉe.
Cette mรฉthode d'apprentissage par rรฉseau neuronal vous aide ร apprendre ร atteindre un objectif complexe ou ร maximiser une dimension spรฉcifique en plusieurs รฉtapes.
Composants importants de la mรฉthode d'apprentissage par renforcement profond
Voici quelques termes importants utilisรฉs dans lโIA de renforcement :
- Agent: Il s'agit d'une entitรฉ supposรฉe qui effectue des actions dans un environnement pour obtenir une rรฉcompense.
- Environnement (e) : Un scรฉnario auquel un agent doit faire face.
- Rรฉcompense (R) : Un retour immรฉdiat donnรฉ ร un agent lorsqu'il effectue une action ou une tรขche spรฉcifique.
- รtats): L'รtat fait rรฉfรฉrence ร la situation actuelle renvoyรฉe par l'environnement.
- Politique (ฯ) : Il s'agit d'une stratรฉgie que l'agent applique pour dรฉcider de la prochaine action en fonction de l'รฉtat actuel.
- Valeur (V): On s'attend ร un rendement ร long terme avec une dรฉcote, par rapport ร la rรฉcompense ร court terme.
- Fonction de valeur : Il prรฉcise la valeur d'un รฉtat qui correspond au montant total de la rรฉcompense. C'est un agent auquel on devrait s'attendre ร partir de cet รฉtat.
- Modรจle de l'environnement : Cela imite le comportement de lโenvironnement. Il vous aide ร faire des dรฉductions et รฉgalement ร dรฉterminer comment l'environnement se comportera.
- Mรฉthodes basรฉes sur un modรจle : Il s'agit d'une mรฉthode de rรฉsolution de problรจmes d'apprentissage par renforcement qui utilise des mรฉthodes basรฉes sur des modรจles.
- Valeur Q ou valeur d'action (Q) : La valeur Q est assez similaire ร la valeur. La seule diffรฉrence entre les deux est qu'il prend un paramรจtre supplรฉmentaire comme action actuelle.
Comment fonctionne lโapprentissage par renforcement ?
Voyons quelques exemples simples qui vous aident ร illustrer le mรฉcanisme d'apprentissage par renforcement.
Considรฉrez le scรฉnario consistant ร apprendre de nouveaux tours ร votre chat
- Comme le chat ne comprend pas l'anglais ni aucune autre langue humaine, nous ne pouvons pas lui dire directement quoi faire. Au lieu de cela, nous suivons une stratรฉgie diffรฉrente.
- Nous imitons une situation et le chat essaie de rรฉagir de diffรฉrentes maniรจres. Si la rรฉponse du chat est la bonne, nous lui donnerons du poisson.
- Dรฉsormais, chaque fois que le chat est exposรฉ ร la mรชme situation, il exรฉcute une action similaire avec encore plus d'enthousiasme dans l'attente d'obtenir plus de rรฉcompense (nourriture).
- C'est comme apprendre que le chat apprend ยซ quoi faire ยป ร partir d'expรฉriences positives.
- En mรชme temps, le chat apprend รฉgalement ce quโil ne faut pas faire face ร des expรฉriences nรฉgatives.
Exemple d'apprentissage par renforcement

Dans ce cas,
- Votre chat est un agent exposรฉ ร lโenvironnement. Dans ce cas, c'est votre maison. Un exemple d'รฉtat pourrait รชtre votre chat assis et vous utilisez un mot spรฉcifique pour que le chat marche.
- Notre agent rรฉagit en effectuant une transition dโaction dโun ยซ รฉtat ยป ร un autre ยซ รฉtat ยป.
- Par exemple, votre chat passe de la position assise ร la marche.
- La rรฉaction dโun agent est une action, et la politique est une mรฉthode de sรฉlection dโune action รฉtant donnรฉ un รฉtat dans lโattente de meilleurs rรฉsultats.
- Aprรจs la transition, ils peuvent recevoir une rรฉcompense ou une pรฉnalitรฉ en retour.
Apprentissage par renforcement Algorithms
Il existe trois approches pour mettre en ลuvre un algorithme dโapprentissage par renforcement.
Basรฉ sur la valeur
Dans une mรฉthode d'apprentissage par renforcement basรฉe sur les valeurs, vous devez essayer de maximiser une fonction de valeur Contre). Dans cette mรฉthode, l'agent s'attend ร un retour ร long terme des รฉtats actuels sous la politique ฯ.
Basรฉ sur des politiques
Dans une mรฉthode RL basรฉe sur une politique, vous essayez d'รฉlaborer une politique telle que l'action effectuรฉe dans chaque รฉtat vous aide ร obtenir une rรฉcompense maximale ร l'avenir.
Il existe deux types de mรฉthodes basรฉes sur des politiques :
- Dรฉterministe : pour tout รtat, la mรชme action est produite par la politique ฯ.
- Stochastique : Chaque action a une certaine probabilitรฉ, qui est dรฉterminรฉe par l'รฉquation suivante. Politique stochastique :
n{a\s) = P\A, = a\S, =S]
Basรฉ sur un modรจle
Dans cette mรฉthode d'apprentissage par renforcement, vous devez crรฉer un modรจle virtuel pour chaque environnement. L'agent apprend ร fonctionner dans cet environnement spรฉcifique.
Caractรฉristiques de lโapprentissage par renforcement
Voici les caractรฉristiques importantes de lโapprentissage par renforcement
- Il n'y a pas de superviseur, seulement un vrai numรฉro ou un signal de rรฉcompense
- Prise de dรฉcision sรฉquentielle
- Le temps joue un rรดle crucial dans les problรจmes de renforcement
- Les commentaires sont toujours retardรฉs et non instantanรฉs
- Les actions de l'agent dรฉterminent les donnรฉes ultรฉrieures qu'il reรงoit
Types d'apprentissage par renforcement
Il existe deux types de mรฉthodes dโapprentissage par renforcement :
Positive :
Il est dรฉfini comme un รฉvรฉnement qui se produit en raison dโun comportement spรฉcifique. Cela augmente la force et la frรฉquence du comportement et impacte positivement sur lโaction entreprise par lโagent.
Ce type de renforcement vous aide ร maximiser les performances et ร maintenir le changement pendant une pรฉriode plus longue. Cependant, trop de renforcement peut conduire ร une sur-optimisation de lโรฉtat, ce qui peut affecter les rรฉsultats.
Nรฉgatif:
Le renforcement nรฉgatif est dรฉfini comme le renforcement d'un comportement qui se produit en raison d'une condition nรฉgative qui aurait dรป cesser ou รฉviter. Il vous aide ร dรฉfinir le niveau minimum de performance. Cependant, lโinconvรฉnient de cette mรฉthode est quโelle en fournit suffisamment pour rรฉpondre au comportement minimum.
Modรจles dโapprentissage du renforcement
Il existe deux modรจles dโapprentissage importants dans lโapprentissage par renforcement :
- Processus de dรฉcision de Markov
- Apprentissage Q
Processus de dรฉcision de Markov
Les paramรจtres suivants sont utilisรฉs pour obtenir une solution :
- Ensemble d'actions - A
- Ensemble d'รฉtats -S
- Rรฉcompense- R
- Politique- n
- Valeur-V
L'approche mathรฉmatique pour cartographier une solution dans l'apprentissage par renforcement est reconnue comme un processus de dรฉcision de Markov ou (MDP).
Q-Learning
L'apprentissage Q est une mรฉthode basรฉe sur la valeur pour fournir des informations permettant d'informer sur l'action qu'un agent doit entreprendre.
Comprenons cette mรฉthode par l'exemple suivant :
- Il y a cinq piรจces dans un bรขtiment qui sont reliรฉes par des portes.
- Chaque piรจce est numรฉrotรฉe de 0 ร 4
- L'extรฉrieur du bรขtiment peut รชtre un grand espace extรฉrieur (5)
- Les portes numรฉro 1 et 4 mรจnent au bรขtiment depuis la salle 5
Ensuite, vous devez associer une valeur de rรฉcompense ร chaque porte :
- Les portes qui mรจnent directement au but ont une rรฉcompense de 100
- Les portes qui ne sont pas directement connectรฉes ร la piรจce cible ne donnent aucune rรฉcompense
- Comme les portes sont ร double sens et que deux flรจches sont attribuรฉes ร chaque piรจce
- Chaque flรจche de l'image ci-dessus contient une valeur de rรฉcompense instantanรฉe
Explication:
Dans cette image, vous pouvez voir que cette piรจce reprรฉsente un รฉtat
Le mouvement de l'agent d'une piรจce ร une autre reprรฉsente une action
Dans l'image ci-dessous, un รฉtat est dรฉcrit comme un nลud, tandis que les flรจches montrent l'action.
Par exemple, un agent passe de la chambre numรฉro 2 ร la chambre 5
- รtat initial = รฉtat 2
- รtat 2 -> รฉtat 3
- รtat 3 -> รฉtat (2,1,4)
- รtat 4 -> รฉtat (0,5,3)
- รtat 1 -> รฉtat (5,3)
- รtat 0 -> รฉtat 4
Apprentissage par renforcement vs apprentissage supervisรฉ
| Paramรจtres | Apprentissage par renforcement | Apprentissage supervisรฉ |
|---|---|---|
| Style de dรฉcision | l'apprentissage par renforcement vous aide ร prendre vos dรฉcisions de maniรจre sรฉquentielle. | Dans cette mรฉthode, une dรฉcision est prise sur la donnรฉe donnรฉe au dรฉbut. |
| Fonctionne sur | Travaille sur l'interaction avec l'environnement. | Fonctionne sur des exemples ou des exemples de donnรฉes donnรฉs. |
| Dรฉpendance ร la dรฉcision | Dans la mรฉthode RL, la dรฉcision dโapprentissage est dรฉpendante. Par consรฉquent, vous devez attribuer des รฉtiquettes ร toutes les dรฉcisions dรฉpendantes. | Apprentissage supervisรฉ des dรฉcisions qui sont indรฉpendantes les unes des autres, des รฉtiquettes sont donc attribuรฉes ร chaque dรฉcision. |
| Le mieux adaptรฉ | Prend en charge et fonctionne mieux dans l'IA, oรน l'interaction humaine est prรฉdominante. | Il fonctionne principalement avec un systรจme logiciel ou des applications interactifs. |
| Exemple | Jeu d'รฉchecs | Reconnaissance d'objets |
Applications de l'apprentissage par renforcement
Voici les applications de lโapprentissage par renforcement :
- Robotique pour l'automatisation industrielle.
- Planification de la stratรฉgie commerciale
- Apprentissage automatique et le traitement des donnรฉes
- Il vous aide ร crรฉer des systรจmes de formation qui fournissent des instructions et du matรฉriel personnalisรฉs en fonction des besoins des รฉtudiants.
- Contrรดle des avions et contrรดle des mouvements des robots
Pourquoi utiliser l'apprentissage par renforcement ?
Voici les principales raisons dโutiliser lโapprentissage par renforcement :
- Cela vous aide ร trouver quelle situation nรฉcessite une action
- Vous aide ร dรฉcouvrir quelle action rapporte la rรฉcompense la plus รฉlevรฉe sur une pรฉriode plus longue.
- L'apprentissage par renforcement fournit รฉgalement ร l'agent d'apprentissage une fonction de rรฉcompense.
- Cela lui permet รฉgalement de trouver la meilleure mรฉthode pour obtenir de grosses rรฉcompenses.
Quand ne pas utiliser lโapprentissage par renforcement ?
Vous ne pouvez pas appliquer le modรจle d'apprentissage par renforcement, c'est tout. Voici quelques conditions dans lesquelles vous ne devriez pas utiliser le modรจle dโapprentissage par renforcement.
- Lorsque vous disposez de suffisamment de donnรฉes pour rรฉsoudre le problรจme avec une mรฉthode dโapprentissage supervisรฉ
- Vous devez vous rappeler que lโapprentissage par renforcement nรฉcessite beaucoup de calcul et prend du temps. en particulier lorsque l'espace d'action est grand.
Les dรฉfis de lโapprentissage par renforcement
Voici les principaux dรฉfis auxquels vous serez confrontรฉ en gagnant du renforcement :
- Conception de fonctionnalitรฉs/rรฉcompenses qui devrait รชtre trรจs impliquรฉe
- Les paramรจtres peuvent affecter la vitesse dโapprentissage.
- Les environnements rรฉalistes peuvent avoir une observabilitรฉ partielle.
- Trop de renforcement peut conduire ร une surcharge dโรtats, ce qui peut diminuer les rรฉsultats.
- Les environnements rรฉalistes peuvent รชtre non stationnaires.
Rรฉsumรฉ
- L'apprentissage par renforcement est une mรฉthode d'apprentissage automatique
- Vous aide ร dรฉcouvrir quelle action rapporte la rรฉcompense la plus รฉlevรฉe sur une pรฉriode plus longue.
- Trois mรฉthodes d'apprentissage par renforcement sont les suivantes : 1) Basรฉ sur les valeurs 2) Apprentissage basรฉ sur les politiques et basรฉ sur un modรจle.
- Agent, รtat, Rรฉcompense, Environnement, Fonction de valeur Modรจle de l'environnement, Mรฉthodes basรฉes sur un modรจle, sont quelques termes importants utilisรฉs dans la mรฉthode d'apprentissage RL.
- Lโexemple de lโapprentissage par renforcement est que votre chat est un agent exposรฉ ร lโenvironnement.
- La plus grande caractรฉristique de cette mรฉthode est qu'il n'y a pas de superviseur, seulement un nombre rรฉel ou un signal de rรฉcompense.
- Il existe deux types d'apprentissage par renforcement : 1) positif 2) nรฉgatif
- Deux modรจles d'apprentissage largement utilisรฉs sont 1) le processus de dรฉcision de Markov 2) l'apprentissage Q
- La mรฉthode dโapprentissage par renforcement travaille sur lโinteraction avec lโenvironnement, alors que enseignement supervisรฉ la mรฉthode fonctionne sur des exemples de donnรฉes ou dโexemples donnรฉs.
- Les mรฉthodes d'apprentissage par application ou par renforcement sont : Robotique pour l'automatisation industrielle et la planification de stratรฉgie commerciale
- Vous ne devez pas utiliser cette mรฉthode lorsque vous disposez de suffisamment de donnรฉes pour rรฉsoudre le problรจme.
- Le plus grand dรฉfi de cette mรฉthode est que les paramรจtres peuvent affecter la vitesse d'apprentissage.




