Reinforcement Learning: Was ist, Algorithms, Typen und Beispiele

Was ist Reinforcement Learning?

Verstärkung lernen ist definiert als eine Methode des maschinellen Lernens, die sich damit befasst, wie Softwareagenten in einer Umgebung Aktionen ausführen sollen. Reinforcement Learning ist ein Teil der Deep-Learning-Methode, der Ihnen hilft, einen Teil der kumulativen Belohnung zu maximieren.

Mithilfe dieser Lernmethode mit neuronalen Netzwerken lernen Sie, wie Sie in vielen Schritten ein komplexes Ziel erreichen oder eine bestimmte Dimension maximieren.

Wichtige Komponenten der Deep-Reinforcement-Learning-Methode

Wichtige Komponenten der Tiefenverstärkung

Hier sind einige wichtige Begriffe, die in Reinforcement AI verwendet werden:

  • Agenten: Es handelt sich um eine angenommene Entität, die in einer Umgebung Aktionen ausführt, um eine Belohnung zu erhalten.
  • Umgebung (e): Ein Szenario, dem sich ein Agent stellen muss.
  • Belohnung (R): Eine sofortige Gegenleistung, die einem Agenten gewährt wird, wenn er oder sie eine bestimmte Aktion oder Aufgabe ausführt.
  • Zustände): Der Zustand bezieht sich auf die aktuelle Situation, die von der Umgebung zurückgegeben wird.
  • Richtlinie (π): Dabei handelt es sich um eine Strategie, die der Agent anwendet, um auf der Grundlage des aktuellen Zustands über die nächste Aktion zu entscheiden.
  • Wert (V): Es wird eine langfristige Rendite mit Abschlag im Vergleich zur kurzfristigen Belohnung erwartet.
  • Wertfunktion: Es gibt den Wert eines Zustands an, der den Gesamtbetrag der Belohnung darstellt. Es handelt sich um einen Agenten, den man ab diesem Zustand erwarten sollte.
  • Modell der Umgebung: Dadurch wird das Verhalten der Umgebung nachgeahmt. Es hilft Ihnen, Schlussfolgerungen zu ziehen und zu bestimmen, wie sich die Umgebung verhalten wird.
  • Modellbasierte Methoden: Es handelt sich um eine Methode zur Lösung von Reinforcement-Learning-Problemen, die modellbasierte Methoden verwendet.
  • Q-Wert oder Aktionswert (Q): Der Q-Wert ist dem Wert ziemlich ähnlich. Der einzige Unterschied zwischen den beiden besteht darin, dass ein zusätzlicher Parameter als aktuelle Aktion verwendet wird.

Wie funktioniert Reinforcement Learning?

Sehen wir uns ein einfaches Beispiel an, das Ihnen hilft, den Mechanismus des verstärkenden Lernens zu veranschaulichen.

Stellen Sie sich das Szenario vor, Ihrer Katze neue Tricks beizubringen

  • Da die Katze weder Englisch noch eine andere menschliche Sprache versteht, können wir ihr nicht direkt sagen, was sie tun soll. Stattdessen verfolgen wir eine andere Strategie.
  • Wir ahmen eine Situation nach und die Katze versucht auf viele verschiedene Arten zu reagieren. Wenn die Reaktion der Katze die gewünschte ist, geben wir ihr Fisch.
  • Immer wenn die Katze der gleichen Situation ausgesetzt ist, führt sie eine ähnliche Aktion mit noch größerem Enthusiasmus aus, in der Erwartung, mehr Belohnung (Futter) zu erhalten.
  • Das ist, als würde man einer Katze aus positiven Erfahrungen lernen, „was zu tun ist“.
  • Gleichzeitig lernt die Katze auch, was sie bei negativen Erfahrungen nicht tun sollte.

Beispiel für Reinforcement Learning

Beispiel für Reinforcement Learning
Wie Reinforcement Learning funktioniert

In diesem Fall

  • Ihre Katze ist ein Erreger, der der Umwelt ausgesetzt ist. In diesem Fall ist es Ihr Haus. Ein Beispiel für einen Zustand könnte sein, dass Ihre Katze sitzt und Sie ein bestimmtes Wort für „Katze laufen“ verwenden.
  • Unser Agent reagiert, indem er einen Aktionsübergang von einem „Zustand“ in einen anderen „Zustand“ durchführt.
  • Beispielsweise wechselt Ihre Katze vom Sitzen zum Gehen.
  • Die Reaktion eines Agenten ist eine Aktion, und die Richtlinie ist eine Methode zur Auswahl einer Aktion in einem gegebenen Zustand in Erwartung besserer Ergebnisse.
  • Nach dem Übergang erhalten sie möglicherweise eine Belohnung oder Strafe.

Verstärkung lernen Algorithms

Es gibt drei Ansätze zur Implementierung eines Reinforcement-Learning-Algorithmus.

Wertebasiert

Bei einer wertbasierten Reinforcement-Learning-Methode sollten Sie versuchen, eine Wertfunktion zu maximieren V(s). Bei dieser Methode erwartet der Agent eine langfristige Rückkehr der aktuellen Vertragszustände π.

Richtlinienbasiert

Bei einer richtlinienbasierten RL-Methode versuchen Sie, eine solche Richtlinie zu entwickeln, dass die in jedem Bundesstaat durchgeführte Aktion Ihnen dabei hilft, in Zukunft die maximale Belohnung zu erhalten.

Es gibt zwei Arten richtlinienbasierter Methoden:

  • Deterministisch: Für jeden Zustand wird die gleiche Aktion durch die Richtlinie π erzeugt.
  • Stochastik: Jede Aktion hat eine bestimmte Wahrscheinlichkeit, die durch die folgende Gleichung bestimmt wird. Stochastische Politik:
    n{a\s) = P\A, = a\S, =S]

Modellbasiert

Bei dieser Reinforcement-Learning-Methode müssen Sie für jede Umgebung ein virtuelles Modell erstellen. Der Agent lernt, in dieser spezifischen Umgebung zu agieren.

Merkmale des Reinforcement Learning

Hier sind wichtige Merkmale des verstärkenden Lernens

  • Es gibt keinen Vorgesetzten, nur eine echte Zahl oder ein Belohnungssignal
  • Sequentielle Entscheidungsfindung
  • Zeit spielt bei Verstärkungsproblemen eine entscheidende Rolle
  • Feedback erfolgt immer verzögert, nicht sofort
  • Die Aktionen des Agenten bestimmen die nachfolgenden Daten, die er empfängt

Arten von Reinforcement Learning

Es gibt zwei Arten von verstärkenden Lernmethoden:

Positiv:

Es wird als ein Ereignis definiert, das aufgrund eines bestimmten Verhaltens auftritt. Es erhöht die Stärke und Häufigkeit des Verhaltens und wirkt sich positiv auf die vom Agenten ergriffenen Maßnahmen aus.

Diese Art der Verstärkung hilft Ihnen, die Leistung zu maximieren und Veränderungen über einen längeren Zeitraum aufrechtzuerhalten. Eine zu starke Verstärkung kann jedoch zu einer Überoptimierung des Zustands führen, was sich auf die Ergebnisse auswirken kann.

Negativ:

Unter negativer Verstärkung versteht man die Verstärkung eines Verhaltens, das aufgrund eines negativen Zustands auftritt, der hätte gestoppt oder vermieden werden sollen. Es hilft Ihnen, den Mindestleistungsstandard zu definieren. Der Nachteil dieser Methode besteht jedoch darin, dass sie ausreichend ist, um das Mindestverhalten zu erfüllen.

Lernmodelle der Verstärkung

Beim Reinforcement Learning gibt es zwei wichtige Lernmodelle:

  • Markov-Entscheidungsprozess
  • Q Lernen

Markov-Entscheidungsprozess

Um eine Lösung zu erhalten, werden die folgenden Parameter verwendet:

  • Aktionspaket - A
  • Satz von Staaten -S
  • Belohnung- R
  • Politik- n
  • Wert- V

Der mathematische Ansatz zur Abbildung einer Lösung beim Reinforcement Learning ist die Aufklärung als Markov-Entscheidungsprozess oder (MDP).

Markov-Entscheidungsprozess

Q-Learning

Q-Learning ist eine wertebasierte Methode zur Bereitstellung von Informationen, die einem Agenten mitteilen, welche Maßnahmen er ergreifen sollte.

Lassen Sie uns diese Methode anhand des folgenden Beispiels verstehen:

  • In einem Gebäude gibt es fünf Räume, die durch Türen miteinander verbunden sind.
  • Jedes Zimmer ist von 0 bis 4 nummeriert
  • Die Außenseite des Gebäudes kann ein großer Außenbereich sein (5)
  • Die Türen Nr. 1 und 4 führen von Raum 5 in das Gebäude

Q-Learning

Als Nächstes müssen Sie jeder Tür einen Belohnungswert zuordnen:

  • Türen, die direkt zum Ziel führen, haben eine Belohnung von 100
  • Türen, die nicht direkt mit dem Zielraum verbunden sind, geben keine Belohnung
  • Da die Türen beidseitig geöffnet sind, sind jedem Raum zwei Pfeile zugeordnet
  • Jeder Pfeil im obigen Bild enthält einen sofortigen Belohnungswert

Erläuterung:

In diesem Bild können Sie sehen, dass der Raum einen Zustand darstellt

Die Bewegung des Agenten von einem Raum in einen anderen stellt eine Aktion dar

Im Bild unten wird ein Zustand als Knoten beschrieben, während die Pfeile die Aktion zeigen.

Q-Learning

Beispiel: Ein Agent geht von Raum Nr. 2 nach 5

  • Ausgangszustand = Zustand 2
  • Zustand 2 -> Zustand 3
  • Zustand 3 -> Zustand (2,1,4)
  • Zustand 4-> Zustand (0,5,3)
  • Zustand 1-> Zustand (5,3)
  • Zustand 0 -> Zustand 4

Reinforcement Learning vs. Supervised Learning

Parameter Verstärkung lernen Überwachtes Lernen
Entscheidungsstil Reinforcement Learning hilft Ihnen dabei, Ihre Entscheidungen der Reihe nach zu treffen. Bei dieser Methode wird eine Entscheidung anhand der zu Beginn gegebenen Eingaben getroffen.
Funktioniert auf Arbeitet an der Interaktion mit der Umgebung. Arbeitet anhand von Beispielen oder gegebenen Beispieldaten.
Abhängigkeit von der Entscheidung Bei der RL-Methode ist die Lernentscheidung abhängig. Daher sollten Sie alle abhängigen Entscheidungen mit Etiketten versehen. Überwachtes Lernen der Entscheidungen, die unabhängig voneinander sind, sodass für jede Entscheidung Bezeichnungen vergeben werden.
am besten geeignet Unterstützt und funktioniert besser in der KI, wo menschliche Interaktion vorherrscht. Die Bedienung erfolgt meist über interaktive Softwaresysteme oder Anwendungen.
Beispiel Schachspiel Objekterkennung

Anwendungen des Reinforcement Learning

Hier sind Anwendungen des Reinforcement Learning:

  • Robotik für die industrielle Automatisierung.
  • Planung der Geschäftsstrategie
  • Maschinelles Lernen und Datenverarbeitung
  • Es hilft Ihnen, Schulungssysteme zu erstellen, die maßgeschneiderte Anweisungen und Materialien entsprechend den Anforderungen der Schüler bereitstellen.
  • Flugzeugsteuerung und Roboterbewegungssteuerung

Warum Reinforcement Learning nutzen?

Hier sind die Hauptgründe für den Einsatz von Reinforcement Learning:

  • Es hilft Ihnen herauszufinden, in welcher Situation Maßnahmen erforderlich sind
  • Hilft Ihnen herauszufinden, welche Aktion über einen längeren Zeitraum die höchste Belohnung bringt.
  • Reinforcement Learning stellt dem Lernagenten außerdem eine Belohnungsfunktion zur Verfügung.
  • Es ermöglicht ihm auch, die beste Methode herauszufinden, um große Belohnungen zu erhalten.

Wann sollte Reinforcement Learning nicht eingesetzt werden?

Sie können das Reinforcement-Learning-Modell nicht anwenden, das ist die ganze Situation. Hier sind einige Bedingungen, unter denen Sie das Reinforcement-Learning-Modell nicht verwenden sollten.

  • Wenn Sie über genügend Daten verfügen, um das Problem mit einer überwachten Lernmethode zu lösen
  • Sie müssen bedenken, dass Reinforcement Learning rechenintensiv und zeitaufwändig ist. insbesondere wenn der Aktionsraum groß ist.

Herausforderungen des Reinforcement Learning

Hier sind die größten Herausforderungen, denen Sie beim Verdienen von Verstärkung gegenüberstehen werden:

  • Feature-/Belohnungsdesign, das sehr aufwändig sein sollte
  • Parameter können die Lerngeschwindigkeit beeinflussen.
  • Realistische Umgebungen können teilweise beobachtbar sein.
  • Zu viel Verstärkung kann zu einer Überlastung der Zustände führen, was die Ergebnisse verschlechtern kann.
  • Realistische Umgebungen können instationär sein.

Zusammenfassung

  • Reinforcement Learning ist eine Methode des maschinellen Lernens
  • Hilft Ihnen herauszufinden, welche Aktion über einen längeren Zeitraum die höchste Belohnung bringt.
  • Drei Methoden für das verstärkende Lernen sind 1) wertebasiertes, 2) richtlinienbasiertes und modellbasiertes Lernen.
  • Agent, Zustand, Belohnung, Umgebung, Wertfunktionsmodell der Umgebung, modellbasierte Methoden sind einige wichtige Begriffe, die in der RL-Lernmethode verwendet werden
  • Das Beispiel des verstärkenden Lernens ist, dass Ihre Katze ein Agent ist, der der Umwelt ausgesetzt ist.
  • Das größte Merkmal dieser Methode ist, dass es keinen Vorgesetzten gibt, sondern nur eine echte Zahl oder ein Belohnungssignal
  • Zwei Arten des verstärkenden Lernens sind 1) positiv und 2) negativ
  • Zwei weit verbreitete Lernmodelle sind 1) Markov-Entscheidungsprozess und 2) Q-Lernen
  • Die Reinforcement-Learning-Methode arbeitet an der Interaktion mit der Umgebung, während die überwachtes Lernen Die Methode funktioniert mit gegebenen Beispieldaten oder Beispielen.
  • Anwendungs- oder Verstärkungslernmethoden sind: Robotik für die industrielle Automatisierung und Geschäftsstrategieplanung
  • Sie sollten diese Methode nicht verwenden, wenn Sie über genügend Daten zur Lösung des Problems verfügen
  • Die größte Herausforderung dieser Methode besteht darin, dass Parameter die Lerngeschwindigkeit beeinflussen können