Обучение с подсилване: Какво е, Algorithms, типове и примери

Какво е обучение с подсилване?

Укрепване на обучението се определя като метод на машинно обучение, който се занимава с това как софтуерните агенти трябва да предприемат действия в среда. Обучението с подсилване е част от метода на задълбочено обучение, който ви помага да максимизирате част от кумулативната награда.

Този метод на обучение с невронна мрежа ви помага да научите как да постигнете сложна цел или да увеличите максимално конкретно измерение през много стъпки.

Важни компоненти на метода на задълбочено укрепване

Важни компоненти на дълбоката армировка

Ето някои важни термини, използвани в Reinforcement AI:

  • Агент: Това е предполагаем субект, който извършва действия в среда, за да получи някаква награда.
  • Околна среда (e): Сценарий, пред който един агент трябва да се изправи.
  • Награда (R): Незабавно връщане, дадено на агент, когато той или тя извърши конкретно действие или задача.
  • Щат(а): Състоянието се отнася до текущата ситуация, върната от околната среда.
  • Политика (π): Това е стратегия, която се прилага от агента, за да реши следващото действие въз основа на текущото състояние.
  • Стойност (V): Очаква се дългосрочна възвръщаемост с отстъпка, в сравнение с краткосрочната награда.
  • Стойностна функция: Той определя стойността на състояние, което е общата сума на наградата. Това е агент, който трябва да се очаква от това състояние.
  • Модел на средата: Това имитира поведението на околната среда. Помага ви да направите изводи, които да направите, и също така да определите как ще се държи околната среда.
  • Методи, базирани на модел: Това е метод за решаване на проблеми с обучението за засилване, който използва базирани на модел методи.
  • Q стойност или стойност на действие (Q): Стойността на Q е доста подобна на стойността. Единствената разлика между двете е, че приема допълнителен параметър като текущо действие.

Как работи Reinforcement Learning?

Нека видим един прост пример, който ви помага да илюстрирате механизма за учене с подсилване.

Помислете за сценария за преподаване на нови трикове на вашата котка

  • Тъй като котката не разбира английски или друг човешки език, не можем да й кажем директно какво да прави. Вместо това следваме различна стратегия.
  • Ние подражаваме на ситуация и котката се опитва да отговори по много различни начини. Ако реакцията на котката е желаната, ние ще й дадем риба.
  • Сега, когато котката е изложена на същата ситуация, тя изпълнява подобно действие с още по-голям ентусиазъм в очакване да получи повече награда (храна).
  • Това е като да научите, че котката получава от „какво да прави“ от положителни преживявания.
  • В същото време котката също научава какво не трябва да прави, когато е изправена пред негативни преживявания.

Пример за обучение с подсилване

Пример за обучение с подсилване
Как работи обучението с подсилване

В такъв случай,

  • Вашата котка е агент, който е изложен на околната среда. В този случай това е вашата къща. Пример за състояние може да бъде вашата котка да седи и вие използвате конкретна дума за котка да ходи.
  • Нашият агент реагира, като извършва преход на действие от едно „състояние“ в друго „състояние“.
  • Например, вашата котка преминава от седнало положение към ходене.
  • Реакцията на даден агент е действие, а политиката е метод за избор на действие при дадено състояние в очакване на по-добри резултати.
  • След прехода те могат да получат награда или наказание в замяна.

Укрепване на обучението Algorithms

Има три подхода за прилагане на алгоритъм за обучение с подсилване.

Базиран на стойност

При базиран на стойността метод на обучение за подсилване трябва да се опитате да максимизирате стойностна функция Срещу). При този метод агентът очаква дългосрочно възвръщане на текущите състояния съгласно политиката π.

Базиран на политика

При основан на политики RL метод вие се опитвате да измислите такава политика, че действието, извършено във всяко състояние, ви помага да получите максимална награда в бъдеще.

Два вида методи, базирани на политики, са:

  • Детерминистично: За всяко състояние едно и също действие се произвежда от политиката π.
  • Стохастичен: Всяко действие има определена вероятност, която се определя от следното уравнение. Стохастична политика:
    n{a\s) = P\A, = a\S, =S]

Базиран на модел

В този метод на обучение за укрепване трябва да създадете виртуален модел за всяка среда. Агентът се научава да работи в тази специфична среда.

Характеристики на обучението с подсилване

Ето важни характеристики на ученето с подсилване

  • Няма надзорник, само реално число или сигнал за награда
  • Последователно вземане на решения
  • Времето играе решаваща роля при проблемите с армировката
  • Обратната връзка винаги е със закъснение, а не моментална
  • Действията на агента определят последващите данни, които получава

Видове учене с подсилване

Два вида методи за обучение за укрепване са:

Положителен:

Определя се като събитие, което възниква поради специфично поведение. Увеличава силата и честотата на поведението и влияе положително върху действията, предприети от агента.

Този тип подсилване ви помага да увеличите максимално ефективността и да поддържате промяната за по-дълъг период. Твърде много подсилване обаче може да доведе до свръхоптимизиране на състоянието, което може да повлияе на резултатите.

Отрицателни:

Отрицателното подсилване се дефинира като укрепване на поведението, което възниква поради отрицателно състояние, което трябва да бъде спряно или избегнато. Помага ви да определите минималната производителност. Недостатъкът на този метод обаче е, че осигурява достатъчно, за да отговори на минималното поведение.

Учене на модели на подсилване

Има два важни модела на учене в ученето с подсилване:

  • Марков процес на вземане на решение
  • Q обучение

Марков процес на вземане на решение

Следните параметри се използват за получаване на решение:

  • Набор от действия - А
  • Набор от състояния -S
  • Награда - Р
  • политика- n
  • Стойност- V

Математическият подход за картографиране на решение в обучението с подсилване се разглежда като процес на вземане на решения по Марков или (MDP).

Марков процес на вземане на решение

Q-обучение

Q обучението е базиран на стойност метод за предоставяне на информация, за да информира какво действие трябва да предприеме агент.

Нека разберем този метод чрез следния пример:

  • В една сграда има пет стаи, които са свързани с врати.
  • Всяка стая е номерирана от 0 до 4
  • Външната част на сградата може да бъде една голяма външна зона (5)
  • Врати номер 1 и 4 водят към сградата от стая 5

Q-обучение

След това трябва да свържете стойност на награда към всяка врата:

  • Вратите, които водят директно към целта, имат награда от 100
  • Вратите, които не са директно свързани с целевата стая, дават нулева награда
  • Тъй като вратите са двупосочни и за всяка стая се задават две стрелки
  • Всяка стрелка в горното изображение съдържа незабавна стойност на награда

Обяснение:

В това изображение можете да видите, че стаята представлява състояние

Преместването на агента от една стая в друга представлява действие

В даденото по-долу изображение състояние е описано като възел, докато стрелките показват действието.

Q-обучение

Например, агент преминава от стая номер 2 до 5

  • Първоначално състояние = състояние 2
  • Състояние 2-> състояние 3
  • Състояние 3 -> състояние (2,1,4)
  • Състояние 4-> състояние (0,5,3)
  • Състояние 1-> състояние (5,3)
  • Състояние 0-> състояние 4

Обучение с подсилване срещу контролирано обучение

параметри Укрепване на обучението Контролирано обучение
Стил на решение обучението с подсилване ви помага да вземате решенията си последователно. При този метод решение се взема на базата на въведените данни в началото.
Работи върху Работи върху взаимодействието с околната среда. Работи върху примери или дадени примерни данни.
Зависимост от решението При RL метода решението за обучение е зависимо. Следователно трябва да дадете етикети на всички зависими решения. Наблюдавано обучение на решенията, които са независими едно от друго, така че се дават етикети за всяко решение.
Най-подходящ Поддържа и работи по-добре в AI, където човешкото взаимодействие е преобладаващо. Най-често се управлява с интерактивна софтуерна система или приложения.
Пример Игра на шах Разпознаване на обекти

Приложения на обучението с подсилване

Ето приложенията на Reinforcement Learning:

  • Роботика за индустриална автоматизация.
  • Планиране на бизнес стратегия
  • машина обучение и обработка на данни
  • Помага ви да създадете системи за обучение, които предоставят персонализирани инструкции и материали според изискванията на учениците.
  • Управление на самолета и управление на движението на робота

Защо да използвате Reinforcement Learning?

Ето основните причини да използвате Reinforcement Learning:

  • Помага ви да откриете коя ситуация изисква действие
  • Помага ви да откриете кое действие носи най-голяма награда за по-дълъг период.
  • Обучението с подсилване също предоставя на обучаващия агент функция за възнаграждение.
  • Освен това му позволява да намери най-добрия метод за получаване на големи награди.

Кога не трябва да се използва обучение с подсилване?

Не можете да приложите модела на обучение с подсилване е цялата ситуация. Ето някои условия, при които не трябва да използвате модел на обучение с подсилване.

  • Когато имате достатъчно данни, за да разрешите проблема с метод на обучение под наблюдение
  • Трябва да запомните, че Reinforcement Learning е натоварващо компютъра и отнема много време. особено когато пространството за действие е голямо.

Предизвикателства на обучението за засилване

Ето основните предизвикателства, с които ще се сблъскате, докато печелите Reinforcement:

  • Дизайн на функция/награда, който трябва да бъде много ангажиран
  • Параметрите могат да повлияят на скоростта на обучение.
  • Реалистичните среди могат да имат частична видимост.
  • Твърде много подсилване може да доведе до претоварване на състояния, което може да намали резултатите.
  • Реалистичните среди могат да бъдат нестационарни.

Oбобщение

  • Обучението с подсилване е метод на машинно обучение
  • Помага ви да откриете кое действие носи най-голяма награда за по-дълъг период.
  • Три метода за учене с подсилване са 1) Базирано на ценности 2) Учене, базирано на политики и базирано на модел.
  • Агент, Състояние, Награда, Околна среда, Стойностна функция Модел на средата, Методи, базирани на модел, са някои важни термини, използвани в метода на обучение на RL
  • Примерът за обучение с подсилване е, че вашата котка е агент, който е изложен на околната среда.
  • Най-голямата характеристика на този метод е, че няма надзорник, а само реално число или сигнал за награда
  • Два вида учене за подсилване са 1) Положително 2) Отрицателно
  • Два широко използвани модела на обучение са 1) Марков процес на вземане на решения 2) Q обучение
  • Методът на подсилващо обучение работи върху взаимодействието с околната среда, докато контролирано обучение методът работи върху дадени примерни данни или пример.
  • Методите за приложно или подсилващо обучение са: Роботика за промишлена автоматизация и бизнес стратегическо планиране
  • Не трябва да използвате този метод, когато имате достатъчно данни за разрешаване на проблема
  • Най-голямото предизвикателство на този метод е, че параметрите могат да повлияят на скоростта на обучение