Обучение с подкреплением: что это такое? Algorithms, Типы и примеры

Что такое обучение с подкреплением?

Усиление обучения определяется как метод машинного обучения, который касается того, как программные агенты должны действовать в среде. Обучение с подкреплением — это часть метода глубокого обучения, который помогает вам максимизировать некоторую часть совокупного вознаграждения.

Этот метод обучения нейронной сети поможет вам научиться достигать поставленных целей.plex цель или максимизация определенного измерения за многие шаги.

Важные компоненты метода глубокого обучения с подкреплением

Важные компоненты глубокого армирования

Вот некоторые важные термины, используемые в ИИ подкрепления:

  • Агент: Это предполагаемая сущность, которая выполняет действия в окружающей среде, чтобы получить некоторое вознаграждение.
  • Окружающая среда (е): Сценарий, с которым приходится столкнуться агенту.
  • Награда (R): Немедленный возврат, предоставляемый агенту, когда он или она выполняет определенное действие или задачу.
  • Состояния): Состояние относится к текущей ситуации, возвращаемой средой.
  • Политика (π): Это стратегия, которая применяется агентом для принятия решения о следующем действии на основе текущего состояния.
  • Значение (В): Ожидается долгосрочная прибыль со скидкой по сравнению с краткосрочным вознаграждением.
  • Функция значения: Он определяет значение состояния, которое представляет собой общую сумму вознаграждения. Это агент, которого следует ожидать, начиная с этого состояния.
  • Модель среды: Это имитирует поведение окружающей среды. Это поможет вам сделать выводы, а также определить, как будет вести себя окружающая среда.
  • Методы, основанные на модели: Это метод решения задач обучения с подкреплением, в котором используются методы, основанные на моделях.
  • Значение Q или значение действия (Q): Значение Q очень похоже на значение. Единственная разница между ними заключается в том, что в качестве текущего действия он принимает дополнительный параметр.

Как работает обучение с подкреплением?

Давайте рассмотрим простой пример, который поможет вам проиллюстрировать механизм обучения с подкреплением.

Рассмотрите сценарий обучения вашей кошки новым трюкам.

  • Поскольку кошка не понимает ни английского, ни любого другого человеческого языка, мы не можем прямо сказать ей, что делать. Вместо этого мы следуем другой стратегии.
  • Мы моделируем ситуацию, и кошка пытается отреагировать по-разному. Если реакция кошки будет желаемой, мы дадим ей рыбу.
  • Теперь всякий раз, когда кошка попадает в одну и ту же ситуацию, она выполняет аналогичное действие с еще большим энтузиазмом в ожидании получения большего вознаграждения (еды).
  • Это все равно, что узнать, что кошка понимает «что делать» из положительного опыта.
  • В то же время кошка учится тому, чего не следует делать, когда она сталкивается с негативным опытом.

Пример обучения с подкреплением

Пример обучения с подкреплением
Как работает обучение с подкреплением

В этом случае,

  • Ваша кошка является агентом, который подвергается воздействию окружающей среды. В данном случае это ваш дом. Примером состояния может быть ваша кошка, сидящая, и вы используете определенное слово, обозначающее, что кошка идет.
  • Наш агент реагирует, выполняя переход действия из одного «состояния» в другое «состояние».
  • Например, ваша кошка переходит от сидения к ходьбе.
  • Реакция агента — это действие, а политика — это метод выбора действия в данном состоянии в ожидании лучших результатов.
  • После перехода они могут получить взамен вознаграждение или штраф.

Усиление обучения Algorithms

Существует три подхода к реализации алгоритма обучения с подкреплением.

Ценностно-ориентированный

В методе обучения с подкреплением, основанном на ценности, вам следует попытаться максимизировать функцию ценности. Против). В этом методе агент ожидает долгосрочного возврата текущих состояний в соответствии с политикой. π.

на основе политики

В методе RL на основе политик вы пытаетесь разработать такую ​​политику, при которой действие, выполняемое в каждом состоянии, поможет вам получить максимальное вознаграждение в будущем.

Два типа методов, основанных на политике:

  • Детерминированный: для любого состояния одно и то же действие производится политикой π.
  • Стохастический: каждое действие имеет определенную вероятность, которая определяется следующим образом:wing уравнение. Стохастическая политика:
    n{a\s) = P\A, = a\S, =S]

на основе модели

В этом методе обучения с подкреплением вам необходимо создать виртуальную модель для каждой среды. Агент учится действовать в этой конкретной среде.

Характеристики обучения с подкреплением

Вот важные характеристики обучения с подкреплением

  • Нет супервизора, только реальный номер или сигнал вознаграждения
  • Последовательное принятие решений
  • Время играет решающую роль в проблемах с подкреплением.
  • Обратная связь всегда делаyed, не мгновенноneous
  • Действия агента определяют последующие данные, которые он получает

Типы обучения с подкреплением

Два типа методов обучения с подкреплением:

Положительный:

Оно определяется как событие, которое происходит из-за определенного поведения. Это увеличивает силу и частоту поведения и положительно влияет на действия, предпринимаемые агентом.

Этот тип подкрепления помогает вам максимизировать производительность и поддерживать изменения в течение более длительного периода. Однако слишком большое подкрепление может привести к чрезмерной оптимизации состояния, что может повлиять на результаты.

Отрицательный:

Негативное подкрепление определяется как усиление поведения, возникающее из-за негативного состояния, которое следует остановить или избежать. Это поможет вам определить минимальную производительность. Однако недостатком этого метода является то, что его достаточно для достижения минимального поведения.

Модели обучения подкреплению

В обучении с подкреплением есть две важные модели обучения:

  • Марковский процесс принятия решений
  • Q обучение

Марковский процесс принятия решений

Фоллоwing Для получения решения используются параметры:

  • Набор действий- А
  • Набор состояний -S
  • Награда- R
  • Политика- н
  • Значение- V

Математический подход к отображению решения в обучении с подкреплением рассматривается как Марковский процесс принятия решений или (MDP).

Марковский процесс принятия решений

Q-обучение

Q-обучение — это основанный на ценностях метод предоставления информации для определения того, какое действие должен предпринять агент.

Давайте разберемся в этом методе следующим образом.wing пример:

  • В здании пять комнат, соединенных дверями.
  • Каждая комната пронумерована от 0 до 4.
  • Внешняя часть здания может представлять собой одну большую внешнюю территорию (5).
  • Двери номер 1 и 4 ведут в здание из комнаты 5.

Q-обучение

Далее вам нужно связать значение вознаграждения с каждой дверью:

  • Двери, ведущие прямо к цели, имеют награду 100.
  • Двери, которые не связаны напрямую с целевой комнатой, дают нулевую награду.
  • Так как двери двусторонние, то для каждой комнаты закреплены две стрелки.
  • Каждая стрелка на изображении выше содержит значение мгновенного вознаграждения.

Объяснение:

На этом изображении вы можете видеть, что комната представляет собой состояние.

Перемещение агента из одной комнаты в другую представляет собой действие.

На изображении ниже состояние описано как узел, а стрелки показывают действие.

Q-обучение

Например, агент проходит из комнаты номер 2 в комнату 5.

  • Исходное состояние = состояние 2
  • Состояние 2-> состояние 3
  • Состояние 3 -> состояние (2,1,4)
  • Состояние 4-> состояние (0,5,3)
  • Состояние 1-> состояние (5,3)
  • Состояние 0-> состояние 4

Обучение с подкреплением и обучение под присмотром

параметры Усиление обучения Контролируемое обучение
Стиль решения Обучение с подкреплением помогает вам принимать решения последовательно. В этом методе решение принимается на основе введенных вначале данных.
Работает на Работает над взаимодействием с окружающей средой. Работает на примерах или заданных образцах данных.
Зависимость от решения В методе RL решение об обучении является зависимым. Поэтому вам следует дать ярлыки всем зависимым решениям. Контролируемое изучение решений, которые независимы друг от друга, поэтому для каждого решения даются метки.
Лучше всего подходит Поддерживает и лучше работает в ИИ, где преобладает человеческое взаимодействие. Это в основном operaработа с интерактивной программной системой или приложениями.
Пример Игра в шахматы Распознавание объектов

Применение обучения с подкреплением

Вот применения обучения с подкреплением:

  • Робототехника для промышленной автоматизации.
  • Планирование бизнес-стратегии
  • Машинное обучение и обработка данных
  • Это помогает вам создавать системы обучения, которые предоставляют индивидуальные инструкции и материалы в соответствии с требованиями студентов.
  • Управление самолетом и управление движением робота

Зачем использовать обучение с подкреплением?

Вот основные причины использования обучения с подкреплением:

  • Это поможет вам определить, какая ситуация требует действий.
  • Помогает вам узнать, какое действие принесет наибольшую награду в течение длительного периода.
  • Обучение с подкреплением также предоставляет обучающему агенту функцию вознаграждения.
  • Это также позволяет ему найти лучший способ получения крупных наград.

Когда не следует использовать обучение с подкреплением?

Вы не можете применить модель обучения с подкреплением, вот и вся ситуация. Вот некоторые условия, при которых не следует использовать модель обучения с подкреплением.

  • Когда у вас достаточно данных для решения проблемы с помощью контролируемого метода обучения.
  • Вы должны помнить, что обучение с подкреплением требует больших вычислительных ресурсов и отнимает много времени. особенно когда пространство действия велико.

Проблемы обучения с подкреплением

Вот основные проблемы, с которыми вы столкнетесь при получении подкрепления:

  • Дизайн функций/наград, который должен быть очень интересным
  • Параметры могут влиять на скорость обучения.
  • Реалистичная среда может иметь частичную наблюдаемость.
  • Слишком большое подкрепление может привести к перегрузке состояний, что может ухудшить результаты.
  • Реалистичная среда может быть нестационарной.

Итого

  • Обучение с подкреплением — это метод машинного обучения.
  • Помогает вам узнать, какое действие принесет наибольшую награду в течение длительного периода.
  • Три метода обучения с подкреплением: 1) обучение на основе ценностей 2) обучение на основе политик и моделей.
  • Агент, состояние, вознаграждение, среда, функция ценности, модель среды, методы, основанные на моделях, — вот некоторые важные термины, используемые в методе обучения RL.
  • Примером обучения с подкреплением является ваша кошка — агент, который подвергается воздействию окружающей среды.
  • Самая большая особенность этого метода заключается в том, что здесь нет супервизора, есть только реальное число или сигнал вознаграждения.
  • Два типа обучения с подкреплением: 1) положительное 2) отрицательное
  • Две широко используемые модели обучения: 1) Марковский процесс принятия решений 2) Q-обучение.
  • Метод обучения с подкреплением работает на взаимодействии с окружающей средой, тогда как метод контролируемое обучение метод работает на заданном образце данных или примере.
  • К методам прикладного обучения или обучения с подкреплением относятся: Робототехника для промышленной автоматизации и планирования бизнес-стратегии.
  • Не следует использовать этот метод, если у вас достаточно данных для решения проблемы.
  • Самая большая проблема этого метода заключается в том, что параметры могут влиять на скорость обучения.