Apprentissage par renforcement : qu'est-ce que c'est, Algorithms, types et exemples

Qu'est-ce que l'apprentissage par renforcement ?

Apprentissage par renforcement est dรฉfini comme une mรฉthode d'apprentissage automatique qui s'intรฉresse ร  la maniรจre dont les agents logiciels doivent entreprendre des actions dans un environnement. L'apprentissage par renforcement fait partie de la mรฉthode d'apprentissage en profondeur qui vous aide ร  maximiser une partie de la rรฉcompense cumulรฉe.

Cette mรฉthode d'apprentissage par rรฉseau neuronal vous aide ร  apprendre ร  atteindre un objectif complexe ou ร  maximiser une dimension spรฉcifique en plusieurs รฉtapes.

Composants importants de la mรฉthode d'apprentissage par renforcement profond

Composants importants du renforcement profond

Voici quelques termes importants utilisรฉs dans lโ€™IA de renforcement :

  • Agent: Il s'agit d'une entitรฉ supposรฉe qui effectue des actions dans un environnement pour obtenir une rรฉcompense.
  • Environnement (e) : Un scรฉnario auquel un agent doit faire face.
  • Rรฉcompense (R) : Un retour immรฉdiat donnรฉ ร  un agent lorsqu'il effectue une action ou une tรขche spรฉcifique.
  • ร‰tats): L'ร‰tat fait rรฉfรฉrence ร  la situation actuelle renvoyรฉe par l'environnement.
  • Politique (ฯ€) : Il s'agit d'une stratรฉgie que l'agent applique pour dรฉcider de la prochaine action en fonction de l'รฉtat actuel.
  • Valeur (V): On s'attend ร  un rendement ร  long terme avec une dรฉcote, par rapport ร  la rรฉcompense ร  court terme.
  • Fonction de valeur : Il prรฉcise la valeur d'un รฉtat qui correspond au montant total de la rรฉcompense. C'est un agent auquel on devrait s'attendre ร  partir de cet รฉtat.
  • Modรจle de l'environnement : Cela imite le comportement de lโ€™environnement. Il vous aide ร  faire des dรฉductions et รฉgalement ร  dรฉterminer comment l'environnement se comportera.
  • Mรฉthodes basรฉes sur un modรจle : Il s'agit d'une mรฉthode de rรฉsolution de problรจmes d'apprentissage par renforcement qui utilise des mรฉthodes basรฉes sur des modรจles.
  • Valeur Q ou valeur d'action (Q) : La valeur Q est assez similaire ร  la valeur. La seule diffรฉrence entre les deux est qu'il prend un paramรจtre supplรฉmentaire comme action actuelle.

Comment fonctionne lโ€™apprentissage par renforcement ?

Voyons quelques exemples simples qui vous aident ร  illustrer le mรฉcanisme d'apprentissage par renforcement.

Considรฉrez le scรฉnario consistant ร  apprendre de nouveaux tours ร  votre chat

  • Comme le chat ne comprend pas l'anglais ni aucune autre langue humaine, nous ne pouvons pas lui dire directement quoi faire. Au lieu de cela, nous suivons une stratรฉgie diffรฉrente.
  • Nous imitons une situation et le chat essaie de rรฉagir de diffรฉrentes maniรจres. Si la rรฉponse du chat est la bonne, nous lui donnerons du poisson.
  • Dรฉsormais, chaque fois que le chat est exposรฉ ร  la mรชme situation, il exรฉcute une action similaire avec encore plus d'enthousiasme dans l'attente d'obtenir plus de rรฉcompense (nourriture).
  • C'est comme apprendre que le chat apprend ยซ quoi faire ยป ร  partir d'expรฉriences positives.
  • En mรชme temps, le chat apprend รฉgalement ce quโ€™il ne faut pas faire face ร  des expรฉriences nรฉgatives.

Exemple d'apprentissage par renforcement

Exemple d'apprentissage par renforcement
Comment fonctionne l'apprentissage par renforcement

Dans ce cas,

  • Votre chat est un agent exposรฉ ร  lโ€™environnement. Dans ce cas, c'est votre maison. Un exemple d'รฉtat pourrait รชtre votre chat assis et vous utilisez un mot spรฉcifique pour que le chat marche.
  • Notre agent rรฉagit en effectuant une transition dโ€™action dโ€™un ยซ รฉtat ยป ร  un autre ยซ รฉtat ยป.
  • Par exemple, votre chat passe de la position assise ร  la marche.
  • La rรฉaction dโ€™un agent est une action, et la politique est une mรฉthode de sรฉlection dโ€™une action รฉtant donnรฉ un รฉtat dans lโ€™attente de meilleurs rรฉsultats.
  • Aprรจs la transition, ils peuvent recevoir une rรฉcompense ou une pรฉnalitรฉ en retour.

Apprentissage par renforcement Algorithms

Il existe trois approches pour mettre en ล“uvre un algorithme dโ€™apprentissage par renforcement.

Basรฉ sur la valeur

Dans une mรฉthode d'apprentissage par renforcement basรฉe sur les valeurs, vous devez essayer de maximiser une fonction de valeur Contre). Dans cette mรฉthode, l'agent s'attend ร  un retour ร  long terme des รฉtats actuels sous la politique ฯ€.

Basรฉ sur des politiques

Dans une mรฉthode RL basรฉe sur une politique, vous essayez d'รฉlaborer une politique telle que l'action effectuรฉe dans chaque รฉtat vous aide ร  obtenir une rรฉcompense maximale ร  l'avenir.

Il existe deux types de mรฉthodes basรฉes sur des politiques :

  • Dรฉterministe : pour tout ร‰tat, la mรชme action est produite par la politique ฯ€.
  • Stochastique : Chaque action a une certaine probabilitรฉ, qui est dรฉterminรฉe par l'รฉquation suivante. Politique stochastique :
    n{a\s) = P\A, = a\S, =S]

Basรฉ sur un modรจle

Dans cette mรฉthode d'apprentissage par renforcement, vous devez crรฉer un modรจle virtuel pour chaque environnement. L'agent apprend ร  fonctionner dans cet environnement spรฉcifique.

Caractรฉristiques de lโ€™apprentissage par renforcement

Voici les caractรฉristiques importantes de lโ€™apprentissage par renforcement

  • Il n'y a pas de superviseur, seulement un vrai numรฉro ou un signal de rรฉcompense
  • Prise de dรฉcision sรฉquentielle
  • Le temps joue un rรดle crucial dans les problรจmes de renforcement
  • Les commentaires sont toujours retardรฉs et non instantanรฉs
  • Les actions de l'agent dรฉterminent les donnรฉes ultรฉrieures qu'il reรงoit

Types d'apprentissage par renforcement

Il existe deux types de mรฉthodes dโ€™apprentissage par renforcement :

Positive :

Il est dรฉfini comme un รฉvรฉnement qui se produit en raison dโ€™un comportement spรฉcifique. Cela augmente la force et la frรฉquence du comportement et impacte positivement sur lโ€™action entreprise par lโ€™agent.

Ce type de renforcement vous aide ร  maximiser les performances et ร  maintenir le changement pendant une pรฉriode plus longue. Cependant, trop de renforcement peut conduire ร  une sur-optimisation de lโ€™รฉtat, ce qui peut affecter les rรฉsultats.

Nรฉgatif:

Le renforcement nรฉgatif est dรฉfini comme le renforcement d'un comportement qui se produit en raison d'une condition nรฉgative qui aurait dรป cesser ou รฉviter. Il vous aide ร  dรฉfinir le niveau minimum de performance. Cependant, lโ€™inconvรฉnient de cette mรฉthode est quโ€™elle en fournit suffisamment pour rรฉpondre au comportement minimum.

Modรจles dโ€™apprentissage du renforcement

Il existe deux modรจles dโ€™apprentissage importants dans lโ€™apprentissage par renforcement :

  • Processus de dรฉcision de Markov
  • Apprentissage Q

Processus de dรฉcision de Markov

Les paramรจtres suivants sont utilisรฉs pour obtenir une solution :

  • Ensemble d'actions - A
  • Ensemble d'รฉtats -S
  • Rรฉcompense- R
  • Politique- n
  • Valeur-V

L'approche mathรฉmatique pour cartographier une solution dans l'apprentissage par renforcement est reconnue comme un processus de dรฉcision de Markov ou (MDP).

Processus de dรฉcision de Markov

Q-Learning

L'apprentissage Q est une mรฉthode basรฉe sur la valeur pour fournir des informations permettant d'informer sur l'action qu'un agent doit entreprendre.

Comprenons cette mรฉthode par l'exemple suivant :

  • Il y a cinq piรจces dans un bรขtiment qui sont reliรฉes par des portes.
  • Chaque piรจce est numรฉrotรฉe de 0 ร  4
  • L'extรฉrieur du bรขtiment peut รชtre un grand espace extรฉrieur (5)
  • Les portes numรฉro 1 et 4 mรจnent au bรขtiment depuis la salle 5

Q-Learning

Ensuite, vous devez associer une valeur de rรฉcompense ร  chaque porte :

  • Les portes qui mรจnent directement au but ont une rรฉcompense de 100
  • Les portes qui ne sont pas directement connectรฉes ร  la piรจce cible ne donnent aucune rรฉcompense
  • Comme les portes sont ร  double sens et que deux flรจches sont attribuรฉes ร  chaque piรจce
  • Chaque flรจche de l'image ci-dessus contient une valeur de rรฉcompense instantanรฉe

Explication:

Dans cette image, vous pouvez voir que cette piรจce reprรฉsente un รฉtat

Le mouvement de l'agent d'une piรจce ร  une autre reprรฉsente une action

Dans l'image ci-dessous, un รฉtat est dรฉcrit comme un nล“ud, tandis que les flรจches montrent l'action.

Q-Learning

Par exemple, un agent passe de la chambre numรฉro 2 ร  la chambre 5

  • ร‰tat initial = รฉtat 2
  • ร‰tat 2 -> รฉtat 3
  • ร‰tat 3 -> รฉtat (2,1,4)
  • ร‰tat 4 -> รฉtat (0,5,3)
  • ร‰tat 1 -> รฉtat (5,3)
  • ร‰tat 0 -> รฉtat 4

Apprentissage par renforcement vs apprentissage supervisรฉ

Paramรจtres Apprentissage par renforcement Apprentissage supervisรฉ
Style de dรฉcision l'apprentissage par renforcement vous aide ร  prendre vos dรฉcisions de maniรจre sรฉquentielle. Dans cette mรฉthode, une dรฉcision est prise sur la donnรฉe donnรฉe au dรฉbut.
Fonctionne sur Travaille sur l'interaction avec l'environnement. Fonctionne sur des exemples ou des exemples de donnรฉes donnรฉs.
Dรฉpendance ร  la dรฉcision Dans la mรฉthode RL, la dรฉcision dโ€™apprentissage est dรฉpendante. Par consรฉquent, vous devez attribuer des รฉtiquettes ร  toutes les dรฉcisions dรฉpendantes. Apprentissage supervisรฉ des dรฉcisions qui sont indรฉpendantes les unes des autres, des รฉtiquettes sont donc attribuรฉes ร  chaque dรฉcision.
Le mieux adaptรฉ Prend en charge et fonctionne mieux dans l'IA, oรน l'interaction humaine est prรฉdominante. Il fonctionne principalement avec un systรจme logiciel ou des applications interactifs.
Exemple Jeu d'รฉchecs Reconnaissance d'objets

Applications de l'apprentissage par renforcement

Voici les applications de lโ€™apprentissage par renforcement :

  • Robotique pour l'automatisation industrielle.
  • Planification de la stratรฉgie commerciale
  • Apprentissage automatique et le traitement des donnรฉes
  • Il vous aide ร  crรฉer des systรจmes de formation qui fournissent des instructions et du matรฉriel personnalisรฉs en fonction des besoins des รฉtudiants.
  • Contrรดle des avions et contrรดle des mouvements des robots

Pourquoi utiliser l'apprentissage par renforcement ?

Voici les principales raisons dโ€™utiliser lโ€™apprentissage par renforcement :

  • Cela vous aide ร  trouver quelle situation nรฉcessite une action
  • Vous aide ร  dรฉcouvrir quelle action rapporte la rรฉcompense la plus รฉlevรฉe sur une pรฉriode plus longue.
  • L'apprentissage par renforcement fournit รฉgalement ร  l'agent d'apprentissage une fonction de rรฉcompense.
  • Cela lui permet รฉgalement de trouver la meilleure mรฉthode pour obtenir de grosses rรฉcompenses.

Quand ne pas utiliser lโ€™apprentissage par renforcement ?

Vous ne pouvez pas appliquer le modรจle d'apprentissage par renforcement, c'est tout. Voici quelques conditions dans lesquelles vous ne devriez pas utiliser le modรจle dโ€™apprentissage par renforcement.

  • Lorsque vous disposez de suffisamment de donnรฉes pour rรฉsoudre le problรจme avec une mรฉthode dโ€™apprentissage supervisรฉ
  • Vous devez vous rappeler que lโ€™apprentissage par renforcement nรฉcessite beaucoup de calcul et prend du temps. en particulier lorsque l'espace d'action est grand.

Les dรฉfis de lโ€™apprentissage par renforcement

Voici les principaux dรฉfis auxquels vous serez confrontรฉ en gagnant du renforcement :

  • Conception de fonctionnalitรฉs/rรฉcompenses qui devrait รชtre trรจs impliquรฉe
  • Les paramรจtres peuvent affecter la vitesse dโ€™apprentissage.
  • Les environnements rรฉalistes peuvent avoir une observabilitรฉ partielle.
  • Trop de renforcement peut conduire ร  une surcharge dโ€™ร‰tats, ce qui peut diminuer les rรฉsultats.
  • Les environnements rรฉalistes peuvent รชtre non stationnaires.

Rรฉsumรฉ

  • L'apprentissage par renforcement est une mรฉthode d'apprentissage automatique
  • Vous aide ร  dรฉcouvrir quelle action rapporte la rรฉcompense la plus รฉlevรฉe sur une pรฉriode plus longue.
  • Trois mรฉthodes d'apprentissage par renforcement sont les suivantes : 1) Basรฉ sur les valeurs 2) Apprentissage basรฉ sur les politiques et basรฉ sur un modรจle.
  • Agent, ร‰tat, Rรฉcompense, Environnement, Fonction de valeur Modรจle de l'environnement, Mรฉthodes basรฉes sur un modรจle, sont quelques termes importants utilisรฉs dans la mรฉthode d'apprentissage RL.
  • Lโ€™exemple de lโ€™apprentissage par renforcement est que votre chat est un agent exposรฉ ร  lโ€™environnement.
  • La plus grande caractรฉristique de cette mรฉthode est qu'il n'y a pas de superviseur, seulement un nombre rรฉel ou un signal de rรฉcompense.
  • Il existe deux types d'apprentissage par renforcement : 1) positif 2) nรฉgatif
  • Deux modรจles d'apprentissage largement utilisรฉs sont 1) le processus de dรฉcision de Markov 2) l'apprentissage Q
  • La mรฉthode dโ€™apprentissage par renforcement travaille sur lโ€™interaction avec lโ€™environnement, alors que enseignement supervisรฉ la mรฉthode fonctionne sur des exemples de donnรฉes ou dโ€™exemples donnรฉs.
  • Les mรฉthodes d'apprentissage par application ou par renforcement sont : Robotique pour l'automatisation industrielle et la planification de stratรฉgie commerciale
  • Vous ne devez pas utiliser cette mรฉthode lorsque vous disposez de suffisamment de donnรฉes pour rรฉsoudre le problรจme.
  • Le plus grand dรฉfi de cette mรฉthode est que les paramรจtres peuvent affecter la vitesse d'apprentissage.

Rรฉsumez cet article avec :