Apprentissage par renforcement : qu'est-ce que c'est, Algorithms, types et exemples

Qu'est-ce que l'apprentissage par renforcement ?

Apprentissage par renforcement est défini comme une méthode d'apprentissage automatique qui s'intéresse à la manière dont les agents logiciels doivent entreprendre des actions dans un environnement. L'apprentissage par renforcement fait partie de la méthode d'apprentissage en profondeur qui vous aide à maximiser une partie de la récompense cumulée.

Cette méthode d'apprentissage par réseau neuronal vous aide à apprendre à atteindre un objectif complexe ou à maximiser une dimension spécifique en plusieurs étapes.

Composants importants de la méthode d'apprentissage par renforcement profond

Voici quelques termes importants utilisés dans l’IA de renforcement :

Agent: Il s'agit d'une entité supposée qui effectue des actions dans un environnement pour obtenir une récompense.
Environnement (e) : Un scénario auquel un agent doit faire face.
Récompense (R) : Un retour immédiat donné à un agent lorsqu'il effectue une action ou une tâche spécifique.
États): L'État fait référence à la situation actuelle renvoyée par l'environnement.
Politique (π) : Il s'agit d'une stratégie que l'agent applique pour décider de la prochaine action en fonction de l'état actuel.
Valeur (V): On s'attend à un rendement à long terme avec une décote, par rapport à la récompense à court terme.
Fonction de valeur : Il précise la valeur d'un état qui correspond au montant total de la récompense. C'est un agent auquel on devrait s'attendre à partir de cet état.
Modèle de l'environnement : Cela imite le comportement de l’environnement. Il vous aide à faire des déductions et également à déterminer comment l'environnement se comportera.
Méthodes basées sur un modèle : Il s'agit d'une méthode de résolution de problèmes d'apprentissage par renforcement qui utilise des méthodes basées sur des modèles.
Valeur Q ou valeur d'action (Q) : La valeur Q est assez similaire à la valeur. La seule différence entre les deux est qu'il prend un paramètre supplémentaire comme action actuelle.

Comment fonctionne l’apprentissage par renforcement ?

Voyons quelques exemples simples qui vous aident à illustrer le mécanisme d'apprentissage par renforcement.

Considérez le scénario consistant à apprendre de nouveaux tours à votre chat

Comme le chat ne comprend pas l'anglais ni aucune autre langue humaine, nous ne pouvons pas lui dire directement quoi faire. Au lieu de cela, nous suivons une stratégie différente.
Nous imitons une situation et le chat essaie de réagir de différentes manières. Si la réponse du chat est la bonne, nous lui donnerons du poisson.
Désormais, chaque fois que le chat est exposé à la même situation, il exécute une action similaire avec encore plus d'enthousiasme dans l'attente d'obtenir plus de récompense (nourriture).
C'est comme apprendre que le chat apprend « quoi faire » à partir d'expériences positives.
En même temps, le chat apprend également ce qu’il ne faut pas faire face à des expériences négatives.

Exemple d'apprentissage par renforcement

Dans ce cas,

Votre chat est un agent exposé à l’environnement. Dans ce cas, c'est votre maison. Un exemple d'état pourrait être votre chat assis et vous utilisez un mot spécifique pour que le chat marche.
Notre agent réagit en effectuant une transition d’action d’un « état » à un autre « état ».
Par exemple, votre chat passe de la position assise à la marche.
La réaction d’un agent est une action, et la politique est une méthode de sélection d’une action étant donné un état dans l’attente de meilleurs résultats.
Après la transition, ils peuvent recevoir une récompense ou une pénalité en retour.

Apprentissage par renforcement Algorithms

Il existe trois approches pour mettre en œuvre un algorithme d’apprentissage par renforcement.

Basé sur la valeur

Dans une méthode d'apprentissage par renforcement basée sur les valeurs, vous devez essayer de maximiser une fonction de valeur Contre). Dans cette méthode, l'agent s'attend à un retour à long terme des états actuels sous la politique π.

Basé sur des politiques

Dans une méthode RL basée sur une politique, vous essayez d'élaborer une politique telle que l'action effectuée dans chaque état vous aide à obtenir une récompense maximale à l'avenir.

Il existe deux types de méthodes basées sur des politiques :

Déterministe : pour tout État, la même action est produite par la politique π.
Stochastique : Chaque action a une certaine probabilité, qui est déterminée par l'équation suivante. Politique stochastique :
```
n{a\s) = P\A, = a\S, =S]
```

Basé sur un modèle

Dans cette méthode d'apprentissage par renforcement, vous devez créer un modèle virtuel pour chaque environnement. L'agent apprend à fonctionner dans cet environnement spécifique.

Caractéristiques de l’apprentissage par renforcement

Voici les caractéristiques importantes de l’apprentissage par renforcement

Il n'y a pas de superviseur, seulement un vrai numéro ou un signal de récompense
Prise de décision séquentielle
Le temps joue un rôle crucial dans les problèmes de renforcement
Les commentaires sont toujours retardés et non instantanés
Les actions de l'agent déterminent les données ultérieures qu'il reçoit

Types d'apprentissage par renforcement

Il existe deux types de méthodes d’apprentissage par renforcement :

Positive :

Il est défini comme un événement qui se produit en raison d’un comportement spécifique. Cela augmente la force et la fréquence du comportement et impacte positivement sur l’action entreprise par l’agent.

Ce type de renforcement vous aide à maximiser les performances et à maintenir le changement pendant une période plus longue. Cependant, trop de renforcement peut conduire à une sur-optimisation de l’état, ce qui peut affecter les résultats.

Négatif:

Le renforcement négatif est défini comme le renforcement d'un comportement qui se produit en raison d'une condition négative qui aurait dû cesser ou éviter. Il vous aide à définir le niveau minimum de performance. Cependant, l’inconvénient de cette méthode est qu’elle en fournit suffisamment pour répondre au comportement minimum.

Modèles d’apprentissage du renforcement

Il existe deux modèles d’apprentissage importants dans l’apprentissage par renforcement :

Processus de décision de Markov
Apprentissage Q

Processus de décision de Markov

Les paramètres suivants sont utilisés pour obtenir une solution :

Ensemble d'actions - A
Ensemble d'états -S
Récompense- R
Politique- n
Valeur-V

L'approche mathématique pour cartographier une solution dans l'apprentissage par renforcement est reconnue comme un processus de décision de Markov ou (MDP).

Q-Learning

L'apprentissage Q est une méthode basée sur la valeur pour fournir des informations permettant d'informer sur l'action qu'un agent doit entreprendre.

Comprenons cette méthode par l'exemple suivant :

Il y a cinq pièces dans un bâtiment qui sont reliées par des portes.
Chaque pièce est numérotée de 0 à 4
L'extérieur du bâtiment peut être un grand espace extérieur (5)
Les portes numéro 1 et 4 mènent au bâtiment depuis la salle 5

Ensuite, vous devez associer une valeur de récompense à chaque porte :

Les portes qui mènent directement au but ont une récompense de 100
Les portes qui ne sont pas directement connectées à la pièce cible ne donnent aucune récompense
Comme les portes sont à double sens et que deux flèches sont attribuées à chaque pièce
Chaque flèche de l'image ci-dessus contient une valeur de récompense instantanée

Explication:

Dans cette image, vous pouvez voir que cette pièce représente un état

Le mouvement de l'agent d'une pièce à une autre représente une action

Dans l'image ci-dessous, un état est décrit comme un nœud, tandis que les flèches montrent l'action.

Par exemple, un agent passe de la chambre numéro 2 à la chambre 5

État initial = état 2
État 2 -> état 3
État 3 -> état (2,1,4)
État 4 -> état (0,5,3)
État 1 -> état (5,3)
État 0 -> état 4

Apprentissage par renforcement vs apprentissage supervisé

Paramètres	Apprentissage par renforcement	Apprentissage supervisé
Style de décision	l'apprentissage par renforcement vous aide à prendre vos décisions de manière séquentielle.	Dans cette méthode, une décision est prise sur la donnée donnée au début.
Fonctionne sur	Travaille sur l'interaction avec l'environnement.	Fonctionne sur des exemples ou des exemples de données donnés.
Dépendance à la décision	Dans la méthode RL, la décision d’apprentissage est dépendante. Par conséquent, vous devez attribuer des étiquettes à toutes les décisions dépendantes.	Apprentissage supervisé des décisions qui sont indépendantes les unes des autres, des étiquettes sont donc attribuées à chaque décision.
Le mieux adapté	Prend en charge et fonctionne mieux dans l'IA, où l'interaction humaine est prédominante.	Il fonctionne principalement avec un système logiciel ou des applications interactifs.
Exemple	Jeu d'échecs	Reconnaissance d'objets

Applications de l'apprentissage par renforcement

Voici les applications de l’apprentissage par renforcement :

Robotique pour l'automatisation industrielle.
Planification de la stratégie commerciale
Apprentissage automatique et le traitement des données
Il vous aide à créer des systèmes de formation qui fournissent des instructions et du matériel personnalisés en fonction des besoins des étudiants.
Contrôle des avions et contrôle des mouvements des robots

Pourquoi utiliser l'apprentissage par renforcement ?

Voici les principales raisons d’utiliser l’apprentissage par renforcement :

Cela vous aide à trouver quelle situation nécessite une action
Vous aide à découvrir quelle action rapporte la récompense la plus élevée sur une période plus longue.
L'apprentissage par renforcement fournit également à l'agent d'apprentissage une fonction de récompense.
Cela lui permet également de trouver la meilleure méthode pour obtenir de grosses récompenses.

Quand ne pas utiliser l’apprentissage par renforcement ?

Vous ne pouvez pas appliquer le modèle d'apprentissage par renforcement, c'est tout. Voici quelques conditions dans lesquelles vous ne devriez pas utiliser le modèle d’apprentissage par renforcement.

Lorsque vous disposez de suffisamment de données pour résoudre le problème avec une méthode d’apprentissage supervisé
Vous devez vous rappeler que l’apprentissage par renforcement nécessite beaucoup de calcul et prend du temps. en particulier lorsque l'espace d'action est grand.

Les défis de l’apprentissage par renforcement

Voici les principaux défis auxquels vous serez confronté en gagnant du renforcement :

Conception de fonctionnalités/récompenses qui devrait être très impliquée
Les paramètres peuvent affecter la vitesse d’apprentissage.
Les environnements réalistes peuvent avoir une observabilité partielle.
Trop de renforcement peut conduire à une surcharge d’États, ce qui peut diminuer les résultats.
Les environnements réalistes peuvent être non stationnaires.

Résumé

L'apprentissage par renforcement est une méthode d'apprentissage automatique
Vous aide à découvrir quelle action rapporte la récompense la plus élevée sur une période plus longue.
Trois méthodes d'apprentissage par renforcement sont les suivantes : 1) Basé sur les valeurs 2) Apprentissage basé sur les politiques et basé sur un modèle.
Agent, État, Récompense, Environnement, Fonction de valeur Modèle de l'environnement, Méthodes basées sur un modèle, sont quelques termes importants utilisés dans la méthode d'apprentissage RL.
L’exemple de l’apprentissage par renforcement est que votre chat est un agent exposé à l’environnement.
La plus grande caractéristique de cette méthode est qu'il n'y a pas de superviseur, seulement un nombre réel ou un signal de récompense.
Il existe deux types d'apprentissage par renforcement : 1) positif 2) négatif
Deux modèles d'apprentissage largement utilisés sont 1) le processus de décision de Markov 2) l'apprentissage Q
La méthode d’apprentissage par renforcement travaille sur l’interaction avec l’environnement, alors que enseignement supervisé la méthode fonctionne sur des exemples de données ou d’exemples donnés.
Les méthodes d'apprentissage par application ou par renforcement sont : Robotique pour l'automatisation industrielle et la planification de stratégie commerciale
Vous ne devez pas utiliser cette méthode lorsque vous disposez de suffisamment de données pour résoudre le problème.
Le plus grand défi de cette méthode est que les paramètres peuvent affecter la vitesse d'apprentissage.