Aprendizagem por reforço: o que é, algoritmos, tipos e exemplos

O que é Aprendizado por Reforço?

Aprendizagem por Reforço é definido como um método de aprendizado de máquina que se preocupa em como os agentes de software devem realizar ações em um ambiente. O Aprendizado por Reforço é parte do método de aprendizado profundo que ajuda você a maximizar alguma parte da recompensa cumulativa.

Este método de aprendizagem de redes neurais ajuda você a aprender como obter uma comunicaçãoplex objetivo ou maximizar uma dimensão específica ao longo de muitas etapas.

Componentes importantes do método de aprendizagem por reforço profundo

Componentes importantes do reforço profundo

Aqui estão alguns termos importantes usados ​​​​no Reinforcement AI:

  • Agente: É uma entidade presumida que realiza ações em um ambiente para obter alguma recompensa.
  • Meio Ambiente (e): Um cenário que um agente deve enfrentar.
  • Recompensa (R): Um retorno imediato dado a um agente quando ele executa uma ação ou tarefa específica.
  • Estado(s): Estado refere-se à situação atual devolvida pelo meio ambiente.
  • Política (π): É uma estratégia aplicada pelo agente para decidir a próxima ação com base no estado atual.
  • Valor (V): Espera-se um retorno de longo prazo com desconto, em comparação com a recompensa de curto prazo.
  • Função de valor: Ele especifica o valor de um estado que é o valor total da recompensa. É um agente que deve ser esperado a partir desse estado.
  • Modelo do ambiente: Isso imita o comportamento do ambiente. Ajuda você a fazer inferências e também a determinar como o ambiente se comportará.
  • Métodos baseados em modelo: É um método para resolver problemas de aprendizagem por reforço que utiliza métodos baseados em modelos.
  • Valor Q ou valor de ação (Q): O valor Q é bastante semelhante ao valor. A única diferença entre os dois é que ele utiliza um parâmetro adicional como ação atual.

Como funciona o aprendizado por reforço?

Vejamos alguns exemplos simples que ajudam a ilustrar o mecanismo de aprendizagem por reforço.

Considere o cenário de ensinar novos truques ao seu gato

  • Como a gata não entende inglês ou qualquer outra língua humana, não podemos dizer a ela diretamente o que fazer. Em vez disso, seguimos uma estratégia diferente.
  • Imitamos uma situação e o gato tenta responder de muitas maneiras diferentes. Se a resposta do gato for a desejada, daremos o peixe a ela.
  • Agora sempre que o gato é exposto à mesma situação, o gato executa uma ação semelhante com ainda mais entusiasmo na expectativa de obter mais recompensa (comida).
  • É como aprender o que o gato obtém com “o que fazer” com experiências positivas.
  • Ao mesmo tempo, o gato também aprende o que não fazer diante de experiências negativas.

Exemplo de aprendizagem por reforço

Exemplo de aprendizagem por reforço
Como funciona o aprendizado por reforço

Neste caso,

  • Seu gato é um agente exposto ao meio ambiente. Neste caso, é a sua casa. Um exemplo de estado poderia ser seu gato sentado e você usa uma palavra específica para gato andar.
  • Nosso agente reage realizando uma transição de ação de um “estado” para outro “estado”.
  • Por exemplo, seu gato passa de sentado a andando.
  • A reação de um agente é uma ação, e a política é um método de selecionar uma ação dado um estado na expectativa de melhores resultados.
  • Após a transição, eles podem receber uma recompensa ou penalidade em troca.

Algoritmos de Aprendizagem por Reforço

Existem três abordagens para implementar um algoritmo de Aprendizado por Reforço.

Baseado em valor

Em um método de Aprendizado por Reforço baseado em valor, você deve tentar maximizar uma função de valor V(s). Neste método, o agente espera um retorno a longo prazo dos estados atuais sob política π.

Baseado em políticas

Em um método RL baseado em políticas, você tenta criar uma política que a ação executada em cada estado o ajude a obter a recompensa máxima no futuro.

Dois tipos de métodos baseados em políticas são:

  • Determinístico: Para qualquer estado, a mesma ação é produzida pela política π.
  • Estocástico: Cada ação tem uma certa probabilidade, que é determinada pelo seguintewing equação. Política Estocástica:
    n{a\s) = P\A, = a\S, =S]

Baseado em modelo

Neste método de Aprendizado por Reforço, você precisa criar um modelo virtual para cada ambiente. O agente aprende a atuar naquele ambiente específico.

Características da aprendizagem por reforço

Aqui estão características importantes da aprendizagem por reforço

  • Não há supervisor, apenas um número real ou sinal de recompensa
  • Tomada de decisão sequencial
  • O tempo desempenha um papel crucial nos problemas de reforço
  • O feedback é sempre atrasado, não instantâneoneous
  • As ações do agente determinam os dados subsequentes que ele recebe

Tipos de Aprendizagem por Reforço

Dois tipos de métodos de aprendizagem por reforço são:

Positivo:

É definido como um evento que ocorre devido a um comportamento específico. Aumenta a força e a frequência do comportamento e impacta positivamente na ação realizada pelo agente.

Este tipo de Reforço ajuda a maximizar o desempenho e sustentar a mudança por um período mais prolongado. No entanto, muito reforço pode levar à otimização excessiva do estado, o que pode afetar os resultados.

Negativo:

O Reforço Negativo é definido como o fortalecimento do comportamento que ocorre devido a uma condição negativa que deveria ter sido interrompida ou evitada. Ajuda a definir a posição mínima de desempenho. No entanto, a desvantagem deste método é que ele fornece o suficiente para atingir o comportamento mínimo.

Modelos de Aprendizagem de Reforço

Existem dois modelos de aprendizagem importantes na aprendizagem por reforço:

  • Processo de decisão de Markov
  • Aprendizagem Q

Processo de decisão de Markov

O seguintewing parâmetros são usados ​​para obter uma solução:

  • Conjunto de ações - A
  • Conjunto de estados -S
  • Recompensa- R
  • Política- n
  • Valor- V

A abordagem matemática para mapear uma solução na aprendizagem por reforço é reconhecida como um Processo de Decisão de Markov ou (MDP).

Processo de decisão de Markov

Q-Aprendizagem

Q-learning é um método baseado em valor para fornecer informações para informar qual ação um agente deve realizar.

Vamos entender esse método a seguirwing exemplo:

  • Existem cinco salas em um edifício que são conectadas por portas.
  • Cada quarto é numerado de 0 a 4
  • A parte externa do edifício pode ser uma grande área externa (5)
  • As portas número 1 e 4 levam para o prédio a partir da sala 5

Q-Aprendizagem

A seguir, você precisa associar um valor de recompensa a cada porta:

  • As portas que levam diretamente ao objetivo têm uma recompensa de 100
  • Portas que não estão diretamente conectadas à sala alvo dão recompensa zero
  • Como as portas são bidirecionais e duas setas são atribuídas para cada sala
  • Cada seta na imagem acima contém um valor de recompensa instantânea

Explicação:

Nesta imagem você pode ver que a sala representa um estado

O movimento do agente de uma sala para outra representa uma ação

Na imagem abaixo, um estado é descrito como um nó, enquanto as setas mostram a ação.

Q-Aprendizagem

Por exemplo, um agente passa da sala número 2 para a 5

  • Estado inicial = estado 2
  • Estado 2-> estado 3
  • Estado 3 -> estado (2,1,4)
  • Estado 4-> estado (0,5,3)
  • Estado 1-> estado (5,3)
  • Estado 0-> estado 4

Aprendizagem por Reforço vs. Aprendizagem Supervisionada

parâmetros Aprendizagem por Reforço Aprendizagem Supervisionada
Estilo de decisão o aprendizado por reforço ajuda você a tomar suas decisões sequencialmente. Neste método, uma decisão é tomada com base na entrada fornecida no início.
Funciona em Trabalha na interação com o meio ambiente. Funciona com exemplos ou dados de amostra fornecidos.
Dependência de decisão No método RL, a decisão de aprendizagem é dependente. Portanto, você deve atribuir rótulos a todas as decisões dependentes. Aprendizagem supervisionada das decisões que são independentes umas das outras, de modo que rótulos são dados para cada decisão.
Mais adequado Suporta e funciona melhor em IA, onde a interação humana é predominante. É operado principalmente com um sistema de software ou aplicativos interativos.
Exemplo Jogo de xadrez Reconhecimento de objeto

Aplicações do Aprendizado por Reforço

Aqui estão as aplicações do Aprendizado por Reforço:

  • Robótica para automação industrial.
  • Planejamento estratégico de negócios
  • Aprendizado de máquinas e processamento de dados
  • Ele ajuda você a criar sistemas de treinamento que fornecem instruções e materiais personalizados de acordo com a exigência dos alunos.
  • Controle de aeronaves e controle de movimento do robô

Por que usar o Aprendizado por Reforço?

Aqui estão os principais motivos para usar o Aprendizado por Reforço:

  • Ajuda você a descobrir qual situação precisa de uma ação
  • Ajuda você a descobrir qual ação rende a maior recompensa durante um período mais longo.
  • O Aprendizado por Reforço também fornece ao agente de aprendizagem uma função de recompensa.
  • Também permite descobrir o melhor método para obter grandes recompensas.

Quando não usar o aprendizado por reforço?

Você não pode aplicar o modelo de aprendizagem por reforço, é toda a situação. Aqui estão algumas condições em que você não deve usar o modelo de aprendizagem por reforço.

  • Quando você tem dados suficientes para resolver o problema com um método de aprendizagem supervisionado
  • Você precisa se lembrar que o Aprendizado por Reforço exige muita computação e consome muito tempo. em particular quando o espaço de ação é grande.

Desafios da aprendizagem por reforço

Aqui estão os principais desafios que você enfrentará ao ganhar Reforço:

  • Design de recurso/recompensa que deve ser muito envolvente
  • Os parâmetros podem afetar a velocidade de aprendizagem.
  • Ambientes realistas podem ter observabilidade parcial.
  • Demasiado Reforço pode levar a uma sobrecarga de estados que pode diminuir os resultados.
  • Ambientes realistas podem ser não estacionários.

Resumo

  • O Aprendizado por Reforço é um método de Aprendizado de Máquina
  • Ajuda você a descobrir qual ação rende a maior recompensa durante um período mais longo.
  • Três métodos para aprendizagem por reforço são 1) Aprendizagem baseada em valores 2) Aprendizagem baseada em políticas e aprendizagem baseada em modelos.
  • Agente, Estado, Recompensa, Ambiente, Função de valor Modelo do ambiente, métodos baseados em modelo, são alguns termos importantes usados ​​​​no método de aprendizagem RL
  • O exemplo de aprendizagem por reforço é que seu gato é um agente exposto ao meio ambiente.
  • A maior característica deste método é que não existe supervisor, apenas um número real ou sinal de recompensa
  • Dois tipos de aprendizagem por reforço são 1) Positivo 2) Negativo
  • Dois modelos de aprendizagem amplamente utilizados são 1) Processo de decisão de Markov 2) Aprendizagem Q
  • O método de Aprendizagem por Reforço trabalha na interação com o ambiente, enquanto o aprendizagem supervisionada O método funciona em determinados dados de amostra ou exemplo.
  • Os métodos de aplicação ou aprendizagem por reforço são: Robótica para automação industrial e planejamento estratégico de negócios
  • Você não deve usar este método quando tiver dados suficientes para resolver o problema
  • O maior desafio deste método é que os parâmetros podem afetar a velocidade de aprendizagem