Uczenie się przez wzmacnianie: co to jest, Algorithms, Typy i przykłady
Co to jest uczenie się przez wzmacnianie?
Uczenie się ze wzmocnieniem definiuje się jako metodę uczenia maszynowego, która dotyczy sposobu, w jaki agenci oprogramowania powinni podejmować działania w środowisku. Uczenie się przez wzmacnianie jest częścią metody głębokiego uczenia się, która pomaga zmaksymalizować część skumulowanej nagrody.
Ta metoda uczenia się wykorzystująca sieci neuronowe pomaga dowiedzieć się, jak osiągnąć złożony cel lub zmaksymalizować konkretny wymiar na przestrzeni wielu etapów.
Ważne elementy metody uczenia się przez głębokie wzmocnienie
Oto kilka ważnych terminów używanych w AI wzmocnień:
- Agent: Jest to zakładana jednostka, która wykonuje działania w środowisku w celu uzyskania jakiejś nagrody.
- Środowisko (e): Scenariusz, z którym musi się zmierzyć agent.
- Nagroda (R): Natychmiastowy zwrot uzyskiwany przez agenta, gdy wykonuje on określoną akcję lub zadanie.
- Stan(-y): Stan odnosi się do bieżącej sytuacji zwracanej przez środowisko.
- Polityka (π): Jest to strategia stosowana przez agenta w celu podjęcia decyzji o kolejnym działaniu w oparciu o bieżący stan.
- Wartość (V): Oczekuje się długoterminowego zwrotu z dyskontem w porównaniu z krótkoterminową nagrodą.
- Funkcja wartości: Określa wartość stanu, czyli całkowitą kwotę nagrody. Jest to środek, którego należy się spodziewać począwszy od tego stanu.
- Model środowiska: To naśladuje zachowanie otoczenia. Pomaga wyciągnąć wnioski i określić, jak będzie się zachowywać środowisko.
- Metody oparte na modelu: Jest to metoda rozwiązywania problemów uczenia się przez wzmacnianie, wykorzystująca metody oparte na modelach.
- Wartość Q lub wartość działania (Q): Wartość Q jest dość podobna do wartości. Jedyna różnica między nimi polega na tym, że jako bieżąca akcja pobiera dodatkowy parametr.
Jak działa uczenie się przez wzmacnianie?
Zobaczmy prosty przykład, który pomoże Ci zilustrować mechanizm uczenia się przez wzmacnianie.
Rozważ scenariusz uczenia kota nowych sztuczek
- Ponieważ kot nie rozumie angielskiego ani żadnego innego ludzkiego języka, nie możemy jej bezpośrednio powiedzieć, co ma robić. Zamiast tego stosujemy inną strategię.
- Naśladujemy sytuację, a kot próbuje zareagować na wiele różnych sposobów. Jeżeli kotka zareaguje w pożądany sposób, podamy jej rybę.
- Teraz, ilekroć kot znajduje się w tej samej sytuacji, wykonuje podobne działanie z jeszcze większym entuzjazmem w oczekiwaniu na większą nagrodę (jedzenie).
- To jakby dowiedzieć się, że kot czerpie „co ma robić” z pozytywnych doświadczeń.
- Jednocześnie kot uczy się również, czego nie robić w obliczu negatywnych doświadczeń.
Przykład uczenia się przez wzmacnianie
W tym przypadku,
- Twój kot jest czynnikiem narażonym na działanie środowiska. W tym przypadku jest to Twój dom. Przykładem stanu może być siedzący kot, a Ty używasz określonego słowa, aby kot chodził.
- Nasz agent reaguje, wykonując akcję przejście z jednego „stanu” do innego „stanu”.
- Na przykład Twój kot przechodzi z siedzenia do chodzenia.
- Reakcją agenta jest działanie, a polityka to metoda wyboru działania w danym stanie w oczekiwaniu na lepsze wyniki.
- Po przejściu mogą otrzymać w zamian nagrodę lub karę.
Uczenie się ze wzmocnieniem Algorithms
Istnieją trzy podejścia do wdrożenia algorytmu uczenia się przez wzmacnianie.
Oparte na wartościach
W metodzie uczenia się przez wzmacnianie opartej na wartościach należy starać się maksymalizować funkcję wartości Vs). W tej metodzie agent oczekuje długoterminowego powrotu obecnych stanów objętych polityką π.
Oparte na zasadach
W metodzie RL opartej na zasadach starasz się opracować taką politykę, aby działanie wykonane w każdym stanie pomogło ci uzyskać maksymalną nagrodę w przyszłości.
Dwa typy metod opartych na zasadach to:
- Deterministyczny: dla dowolnego stanu polityka π wywołuje to samo działanie.
- Stochastyczny: Każde działanie ma pewne prawdopodobieństwo, które jest określone przez następujące równanie.Polityka stochastyczna:
n{a\s) = P\A, = a\S, =S]
Oparte na modelu
W tej metodzie uczenia się przez wzmacnianie musisz stworzyć wirtualny model dla każdego środowiska. Agent uczy się działać w tym konkretnym środowisku.
Charakterystyka uczenia się przez wzmacnianie
Oto ważne cechy uczenia się przez wzmacnianie
- Nie ma nadzorcy, jest tylko liczba rzeczywista lub sygnał nagrody
- Sekwencyjne podejmowanie decyzji
- Czas odgrywa kluczową rolę w problemach ze wzmocnieniem
- Informacje zwrotne są zawsze opóźnione, a nie natychmiastowe
- Działania agenta determinują, jakie kolejne dane otrzyma
Rodzaje uczenia się ze wzmocnieniem
Dwa rodzaje metod uczenia się przez wzmacnianie to:
Pozytywny:
Definiuje się je jako zdarzenie, które następuje w wyniku określonego zachowania. Zwiększa siłę i częstotliwość zachowań oraz pozytywnie wpływa na działania podejmowane przez agenta.
Ten rodzaj wzmocnienia pomaga zmaksymalizować wydajność i utrzymać zmianę przez dłuższy czas. Jednak zbyt duże wzmocnienie może prowadzić do nadmiernej optymalizacji stanu, co może mieć wpływ na wyniki.
Negatywny:
Wzmocnienie negatywne definiuje się jako wzmocnienie zachowania, które pojawia się z powodu negatywnego warunku, którego należy się powstrzymać lub którego należy unikać. Pomaga określić minimalny poziom wydajności. Jednak wadą tej metody jest to, że zapewnia ona wystarczającą ilość danych, aby spełnić minimalne wymagania.
Uczenie się modeli wzmocnienia
Istnieją dwa ważne modele uczenia się w uczeniu się przez wzmacnianie:
- Proces decyzyjny Markowa
- Nauka Q
Proces decyzyjny Markowa
Aby uzyskać rozwiązanie, użyto następujących parametrów:
- Zestaw działań – A
- Zbiór stanów -S
- Nagroda – R
- Polityka- n
- Wartość- V
Matematyczne podejście do mapowania rozwiązania w uczeniu się przez wzmacnianie jest rozpoznawane jako proces decyzyjny Markowa lub (MDP).
Q-Learning
Uczenie się Q to oparta na wartościach metoda dostarczania informacji, które informują, jakie działanie powinien podjąć agent.
Zrozumiemy tę metodę na poniższym przykładzie:
- W budynku znajduje się pięć pokoi połączonych drzwiami.
- Każdy pokój jest ponumerowany od 0 do 4
- Zewnętrzna część budynku może stanowić jeden duży obszar zewnętrzny (5)
- Drzwi nr 1 i 4 prowadzą do budynku z pokoju 5
Następnie musisz powiązać wartość nagrody z każdymi drzwiami:
- Drzwi prowadzące bezpośrednio do celu mają nagrodę 100
- Drzwi, które nie są bezpośrednio połączone z docelowym pomieszczeniem, dają zerową nagrodę
- Ponieważ drzwi są dwukierunkowe, a do każdego pomieszczenia przypisane są dwie strzałki
- Każda strzałka na powyższym obrazku zawiera natychmiastową wartość nagrody
Wyjaśnienie:
Na tym obrazie widać, że pokój reprezentuje stan
Ruch agenta z jednego pokoju do drugiego reprezentuje akcję
Na poniższym obrazku stan jest opisany jako węzeł, a strzałki pokazują działanie.
Na przykład agent przechodzi z pokoju nr 2 do 5
- Stan początkowy = stan 2
- Stan 2 -> stan 3
- Stan 3 -> stan (2,1,4)
- Stan 4-> stan (0,5,3)
- Stan 1-> stan (5,3)
- Stan 0 -> stan 4
Uczenie się przez wzmacnianie a uczenie się pod nadzorem
Parametry | Uczenie się ze wzmocnieniem | Nadzorowana nauka |
---|---|---|
Styl decyzji | uczenie się przez wzmacnianie pomaga podejmować decyzje sekwencyjnie. | W tej metodzie decyzję podejmuje się na podstawie danych wejściowych podanych na początku. |
Działa na | Pracuje nad interakcją z otoczeniem. | Pracuje na przykładach lub podanych przykładowych danych. |
Zależność od decyzji | W metodzie RL decyzja o uczeniu się jest zależna. Dlatego należy nadać etykiety wszystkim zależnym decyzjom. | Nadzorowane uczenie się decyzji, które są od siebie niezależne, dlatego każdej decyzji nadawane są etykiety. |
Najlepiej dopasowany | Obsługuje i działa lepiej w sztucznej inteligencji, gdzie dominuje interakcja międzyludzka. | Najczęściej jest obsługiwany za pomocą interaktywnego systemu oprogramowania lub aplikacji. |
Przykład | Gra w szachy | Rozpoznawanie obiektów |
Zastosowania uczenia się przez wzmacnianie
Oto zastosowania uczenia się przez wzmacnianie:
- Robotyka dla automatyki przemysłowej.
- Planowanie strategii biznesowej
- Nauczanie maszynowe i przetwarzanie danych
- Pomaga w tworzeniu systemów szkoleniowych, które zapewniają niestandardowe instrukcje i materiały zgodnie z wymaganiami uczniów.
- Sterowanie samolotem i sterowanie ruchem robota
Dlaczego warto korzystać z uczenia się przez wzmacnianie?
Oto główne powody, dla których warto korzystać z uczenia się przez wzmacnianie:
- Pomaga Ci znaleźć sytuację wymagającą działania
- Pomaga odkryć, które działanie przynosi największą nagrodę w dłuższym okresie.
- Uczenie się przez wzmacnianie zapewnia także osobie uczącej się funkcję nagrody.
- Pozwala także znaleźć najlepszą metodę uzyskania dużych nagród.
Kiedy nie stosować uczenia się przez wzmacnianie?
W tej sytuacji nie można zastosować modelu uczenia się przez wzmacnianie. Oto kilka warunków, w których nie należy stosować modelu uczenia się przez wzmacnianie.
- Kiedy masz wystarczającą ilość danych, aby rozwiązać problem za pomocą metody uczenia się nadzorowanego
- Należy pamiętać, że uczenie się przez wzmacnianie wymaga dużej mocy obliczeniowej i jest czasochłonne. szczególnie gdy przestrzeń akcji jest duża.
Wyzwania uczenia się przez wzmacnianie
Oto główne wyzwania, z którymi będziesz musiał się zmierzyć podczas zarabiania na wzmocnieniu:
- Projekt funkcji/nagrody, który powinien być bardzo zaangażowany
- Parametry mogą mieć wpływ na szybkość uczenia się.
- Realistyczne środowiska mogą mieć częściową obserwowalność.
- Zbyt duże wzmocnienie może prowadzić do przeciążenia stanów, co może pogorszyć wyniki.
- Realistyczne środowiska mogą być niestacjonarne.
Podsumowanie
- Uczenie się przez wzmacnianie to metoda uczenia maszynowego
- Pomaga odkryć, które działanie przynosi największą nagrodę w dłuższym okresie.
- Trzy metody uczenia się przez wzmacnianie to: 1) Uczenie się oparte na wartościach, 2) Uczenie się oparte na zasadach i modelach.
- Agent, Stan, Nagroda, Środowisko, Funkcja wartości Model środowiska, Metody oparte na modelach, to kilka ważnych terminów używanych w metodzie uczenia się RL
- Przykładem uczenia się przez wzmacnianie jest to, że Twój kot jest agentem narażonym na działanie środowiska.
- Największą cechą tej metody jest to, że nie ma nadzorcy, tylko liczba rzeczywista lub sygnał nagrody
- Dwa rodzaje uczenia się przez wzmacnianie to 1) pozytywne i 2) negatywne
- Dwa powszechnie stosowane modele uczenia się to 1) Proces decyzyjny Markowa 2) Uczenie się Q
- Metoda uczenia się przez wzmacnianie działa na interakcję z otoczeniem, natomiast metoda uczenia się przez wzmocnienie Nadzorowana nauka metoda działa na podanych przykładowych danych lub przykładzie.
- Metody aplikacji lub uczenia się przez wzmacnianie to: Robotyka w automatyce przemysłowej i planowaniu strategii biznesowej
- Nie powinieneś używać tej metody, jeśli masz wystarczającą ilość danych, aby rozwiązać problem
- Największym wyzwaniem tej metody jest to, że parametry mogą wpływać na szybkość uczenia się