Aprendizaje por refuerzo: ¿Qué es, Algorithms, tipos y ejemplos
¿Qué es el aprendizaje por refuerzo?
Aprendizaje reforzado se define como un método de aprendizaje automático que se ocupa de cómo los agentes de software deben realizar acciones en un entorno. El aprendizaje por refuerzo es parte del método de aprendizaje profundo que le ayuda a maximizar una parte de la recompensa acumulativa.
Este método de aprendizaje de redes neuronales le ayuda a aprender cómo alcanzar un objetivo complejo o maximizar una dimensión específica a lo largo de muchos pasos.
Componentes importantes del método de aprendizaje por refuerzo profundo
A continuación se muestran algunos términos importantes utilizados en la IA de refuerzo:
- Agente: Es una entidad asumida que realiza acciones en un entorno para obtener alguna recompensa.
- Medio ambiente (e): Un escenario al que se tiene que enfrentar un agente.
- Recompensa (R): Un retorno inmediato otorgado a un agente cuando realiza una acción o tarea específica.
- Estado(s): Estado se refiere a la situación actual que devuelve el medio ambiente.
- Política (π): Es una estrategia que aplica el agente para decidir la siguiente acción en función del estado actual.
- Valor (V): Se espera un rendimiento a largo plazo con descuento, en comparación con la recompensa a corto plazo.
- Función de valor: Especifica el valor de un estado que es la cantidad total de recompensa. Es un agente que debería esperarse a partir de ese estado.
- Modelo del medio ambiente: Esto imita el comportamiento del medio ambiente. Le ayuda a hacer inferencias y también a determinar cómo se comportará el entorno.
- Métodos basados en modelos: Es un método para resolver problemas de aprendizaje por refuerzo que utilizan métodos basados en modelos.
- Valor Q o valor de acción (Q): El valor Q es bastante similar al valor. La única diferencia entre los dos es que toma un parámetro adicional como acción actual.
¿Cómo funciona el aprendizaje por refuerzo?
Veamos un ejemplo sencillo que le ayudará a ilustrar el mecanismo de aprendizaje por refuerzo.
Considere el escenario de enseñarle nuevos trucos a su gato.
- Como el gato no entiende inglés ni ningún otro idioma humano, no podemos decirle directamente qué hacer. En cambio, seguimos una estrategia diferente.
- Emulamos una situación y el gato intenta responder de muchas maneras diferentes. Si la respuesta del gato es la deseada, le daremos pescado.
- Ahora, cada vez que el gato se expone a la misma situación, ejecuta una acción similar con aún más entusiasmo con la expectativa de obtener más recompensa (comida).
- Eso es como aprender que el gato aprende “qué hacer” a partir de experiencias positivas.
- Al mismo tiempo, el gato también aprende qué no hacer ante experiencias negativas.
Ejemplo de aprendizaje por refuerzo
En este caso,
- Tu gato es un agente que está expuesto al medio ambiente. En este caso, es tu casa. Un ejemplo de estado podría ser que tu gato esté sentado y uses una palabra específica para decir que gato camina.
- Nuestro agente reacciona realizando una transición de acción de un "estado" a otro "estado".
- Por ejemplo, tu gato pasa de estar sentado a caminar.
- La reacción de un agente es una acción, y la política es un método para seleccionar una acción dado un estado en espera de mejores resultados.
- Después de la transición, es posible que reciban una recompensa o una penalización a cambio.
Aprendizaje reforzado Algorithms
Hay tres enfoques para implementar un algoritmo de aprendizaje por refuerzo.
Basado en valores
En un método de aprendizaje por refuerzo basado en valores, debe intentar maximizar una función de valor v(s). En este método, el agente espera un retorno a largo plazo de los estados actuales bajo la política. π.
Basado en políticas
En un método de RL basado en políticas, se intenta idear una política tal que la acción realizada en cada estado le ayude a obtener la máxima recompensa en el futuro.
Dos tipos de métodos basados en políticas son:
- Determinista: Para cualquier estado, la misma acción es producida por la política π.
- Estocástico: Cada acción tiene una cierta probabilidad, la cual está determinada por la siguiente ecuación.Política Estocástica:
n{a\s) = P\A, = a\S, =S]
Basado en modelos
En este método de aprendizaje por refuerzo, es necesario crear un modelo virtual para cada entorno. El agente aprende a actuar en ese entorno específico.
Características del aprendizaje por refuerzo
Estas son las características importantes del aprendizaje por refuerzo.
- No hay supervisor, solo un número real o señal de recompensa.
- Toma de decisiones secuencial
- El tiempo juega un papel crucial en los problemas de refuerzo.
- La retroalimentación siempre se retrasa, no es instantánea.
- Las acciones del agente determinan los datos posteriores que recibe.
Tipos de aprendizaje por refuerzo
Dos tipos de métodos de aprendizaje por refuerzo son:
Positiva:
Se define como un evento que ocurre debido a un comportamiento específico. Aumenta la fuerza y la frecuencia de la conducta e impacta positivamente en la acción realizada por el agente.
Este tipo de refuerzo le ayuda a maximizar el rendimiento y mantener el cambio durante un período más prolongado. Sin embargo, demasiado refuerzo puede conducir a una optimización excesiva del estado, lo que puede afectar los resultados.
Negativo:
El refuerzo negativo se define como el fortalecimiento de una conducta que se produce debido a una condición negativa que debería haberse detenido o evitado. Le ayuda a definir el nivel mínimo de rendimiento. Sin embargo, el inconveniente de este método es que proporciona suficiente para cumplir con el comportamiento mínimo.
Modelos de aprendizaje de refuerzo
Hay dos modelos de aprendizaje importantes en el aprendizaje por refuerzo:
- Proceso de decisión de Markov
- Q aprendizaje
Proceso de decisión de Markov
Los siguientes parámetros se utilizan para obtener una solución:
- Conjunto de acciones- A
- Conjunto de estados -S
- Recompensa- R
- Política- n
- Valor- V
El enfoque matemático para mapear una solución en el aprendizaje por refuerzo se reconoce como un proceso de decisión de Markov o (MDP).
Q-aprendizaje
El aprendizaje Q es un método basado en valores para proporcionar información para informar qué acción debe tomar un agente.
Entendamos este método con el siguiente ejemplo:
- Hay cinco habitaciones en un edificio que están conectadas por puertas.
- Cada habitación está numerada del 0 al 4.
- El exterior del edificio puede ser una gran zona exterior (5)
- Las puertas número 1 y 4 conducen al edificio desde la habitación 5.
A continuación, debes asociar un valor de recompensa a cada puerta:
- Las puertas que conducen directamente a la meta tienen una recompensa de 100
- Las puertas que no están conectadas directamente a la habitación objetivo no otorgan ninguna recompensa.
- Como las puertas son bidireccionales y se asignan dos flechas para cada habitación
- Cada flecha en la imagen de arriba contiene un valor de recompensa instantáneo.
Explicación:
En esta imagen, puedes ver que la habitación representa un estado.
El movimiento del agente de una habitación a otra representa una acción.
En la imagen siguiente, un estado se describe como un nodo, mientras que las flechas muestran la acción.
Por ejemplo, un agente atraviesa desde la habitación número 2 a la 5.
- Estado inicial = estado 2
- Estado 2-> estado 3
- Estado 3 -> estado (2,1,4)
- Estado 4-> estado (0,5,3)
- Estado 1-> estado (5,3)
- Estado 0-> estado 4
Aprendizaje por refuerzo versus aprendizaje supervisado
Parámetros | Aprendizaje reforzado | Aprendizaje supervisado |
---|---|---|
Estilo de decisión | El aprendizaje por refuerzo le ayuda a tomar sus decisiones de forma secuencial. | En este método, se toma una decisión sobre la entrada dada al principio. |
Trabaja en | Trabaja en la interacción con el medio ambiente. | Trabaja con ejemplos o datos de muestra dados. |
Dependencia de la decisión | En el método RL, la decisión de aprendizaje es dependiente. Por lo tanto, debes etiquetar todas las decisiones dependientes. | Aprendizaje supervisado de las decisiones que son independientes entre sí, por lo que se asignan etiquetas para cada decisión. |
Mejores adecuados | Admite y funciona mejor en IA, donde prevalece la interacción humana. | Se opera principalmente con un sistema de software o aplicaciones interactivas. |
Ejemplo | Ajedrez | Reconocimiento de objetos |
Aplicaciones del aprendizaje por refuerzo
Aquí hay aplicaciones del aprendizaje por refuerzo:
- Robótica para la automatización industrial.
- Planificación de la estrategia empresarial.
- Aprendizaje automático y procesamiento de datos
- Le ayuda a crear sistemas de capacitación que brinden instrucción y materiales personalizados de acuerdo con los requisitos de los estudiantes.
- Control de aeronaves y control de movimiento de robots.
¿Por qué utilizar el aprendizaje por refuerzo?
Estas son las principales razones para utilizar el aprendizaje por refuerzo:
- Le ayuda a encontrar qué situación necesita una acción.
- Le ayuda a descubrir qué acción genera la mayor recompensa durante un período más largo.
- El aprendizaje por refuerzo también proporciona al agente de aprendizaje una función de recompensa.
- También le permite descubrir el mejor método para obtener grandes recompensas.
¿Cuándo no utilizar el aprendizaje por refuerzo?
No se puede aplicar el modelo de aprendizaje por refuerzo, esa es toda la situación. A continuación se presentan algunas condiciones en las que no debe utilizar el modelo de aprendizaje por refuerzo.
- Cuando tienes suficientes datos para resolver el problema con un método de aprendizaje supervisado
- Debe recordar que el aprendizaje por refuerzo requiere mucha informática y mucho tiempo. en particular cuando el espacio de acción es grande.
Desafíos del aprendizaje por refuerzo
Estos son los principales desafíos que enfrentará al obtener refuerzos:
- Diseño de características/recompensas que debería ser muy complicado.
- Los parámetros pueden afectar la velocidad del aprendizaje.
- Los entornos realistas pueden tener observabilidad parcial.
- Demasiado refuerzo puede provocar una sobrecarga de estados que puede disminuir los resultados.
- Los entornos realistas pueden ser no estacionarios.
Resumen
- El aprendizaje por refuerzo es un método de aprendizaje automático
- Le ayuda a descubrir qué acción genera la mayor recompensa durante un período más largo.
- Tres métodos para el aprendizaje por refuerzo son 1) Aprendizaje basado en valores, 2) Aprendizaje basado en políticas y basado en modelos.
- Agente, estado, recompensa, entorno, función de valor, modelo del entorno y métodos basados en modelos, son algunos términos importantes que se utilizan en el método de aprendizaje de RL.
- El ejemplo del aprendizaje por refuerzo es que su gato es un agente que está expuesto al medio ambiente.
- La característica más importante de este método es que no hay un supervisor, solo un número real o una señal de recompensa.
- Dos tipos de aprendizaje por refuerzo son 1) Positivo 2) Negativo
- Dos modelos de aprendizaje ampliamente utilizados son 1) Proceso de decisión de Markov 2) Aprendizaje Q
- El método de aprendizaje por refuerzo trabaja en la interacción con el entorno, mientras que el aprendizaje supervisado El método funciona con datos de muestra o ejemplos dados.
- Los métodos de aprendizaje de aplicación o refuerzo son: Robótica para la automatización industrial y planificación de estrategias comerciales.
- No debes utilizar este método cuando tengas suficientes datos para resolver el problema.
- El mayor desafío de este método es que los parámetros pueden afectar la velocidad de aprendizaje.