強化学習: とは何か Algorithms、種類と例
強化学習とは
強化学習 は、ソフトウェア エージェントが環境内でどのようにアクションを実行するかを考慮した機械学習手法として定義されます。 強化学習は、累積報酬の一部を最大化するのに役立つ深層学習手法の一部です。
このニューラル ネットワーク学習方法は、複雑な目標を達成する方法や、多くのステップにわたって特定の次元を最大化する方法を学ぶのに役立ちます。
深層強化学習法の重要なコンポーネント
Reinforcement AI で使用される重要な用語をいくつか紹介します。
- エージェント: それは、何らかの報酬を得るために環境内でアクションを実行する想定されたエンティティです。
- 環境 (e): エージェントが直面しなければならないシナリオ。
- 報酬(R): エージェントが特定のアクションまたはタスクを実行したときに、エージェントに与えられる即時復帰。
- 状態: 状態とは、環境によって返される現在の状況を指します。
- ポリシー (π): これは、現在の状態に基づいて次のアクションを決定するためにエージェントによって適用される戦略です。
- 値 (V): 短期的な報酬と比較して、割引付きの長期的な収益が期待されます。
- 値関数: 報酬の合計額である状態の値を指定します。 その状態から始まる期待すべきエージェントである。
- 環境のモデル: これは環境の動作を模倣します。 これは、行うべき推論を作成し、環境がどのように動作するかを決定するのに役立ちます。
- モデルベースの方法: モデルベースの手法を使用する強化学習問題を解決する手法です。
- Q値またはアクション値(Q): Q値はvalueに非常に似ています。 XNUMX つの唯一の違いは、現在のアクションとして追加のパラメーターを取ることです。
強化学習はどのように機能するのでしょうか?
強化学習メカニズムを説明するのに役立つ簡単な例を見てみましょう。
猫に新しい芸を教えるシナリオを考えてみましょう
- 猫は英語やその他の人間の言語を理解できないため、私たちは彼女に何をすべきかを直接伝えることができません。 代わりに、私たちは別の戦略に従います。
- 私たちが状況を真似ると、猫はさまざまな方法で反応しようとします。 猫の反応が望ましいものであれば、私たちは彼女に魚を与えます。
- さて、猫が同じ状況にさらされるたびに、猫はより多くの報酬(食べ物)を期待してさらに熱心に同様の行動を実行します。
- それは、猫がポジティブな経験から「何をすべきか」から得られることを学ぶようなものです。
- 同時に、猫はネガティブな経験に直面したときに何をしてはいけないかを学びます。
強化学習の例
この場合、
- あなたの猫は環境にさらされるエージェントです。 この場合、それはあなたの家です。 状態の例としては、猫が座っていて、猫が歩くために特定の単語を使用することが考えられます。
- 私たちのエージェントは、ある「状態」から別の「状態」へのアクション遷移を実行することで反応します。
- たとえば、猫が座っていた状態から歩き始めたとします。
- エージェントの反応はアクションであり、ポリシーは、より良い結果を期待して状態を与えられたアクションを選択する方法です。
- 移行後、見返りに報酬またはペナルティを受け取る場合があります。
強化学習 Algorithms
強化学習アルゴリズムを実装するには XNUMX つのアプローチがあります。
価値ベース
価値ベースの強化学習法では、価値関数を最大化するように努める必要があります。 V(秒)。 この方法では、エージェントはポリシーに従って現在の状態が長期的に戻ることを期待します。 π.
ポリシーベース
ポリシーベースの RL 手法では、すべての状態で実行されるアクションが将来最大の報酬を得るのに役立つようなポリシーを考案しようとします。
ポリシーベースの方法には次の XNUMX 種類があります。
- 決定的: どの状態でも、ポリシー π によって同じアクションが生成されます。
- 確率的: すべてのアクションには一定の確率があり、それは次の式によって決定されます。確率的ポリシー:
n{a\s) = P\A, = a\S, =S]
モデルベース
この強化学習手法では、環境ごとに仮想モデルを作成する必要があります。 エージェントは、その特定の環境でのパフォーマンスを学習します。
強化学習の特徴
強化学習の重要な特徴は次のとおりです
- 監視者は存在せず、実数または報酬信号のみが存在します。
- 逐次的な意思決定
- 時間が鉄筋の問題で重要な役割を果たす
- フィードバックは常に遅れており、即時ではない
- エージェントのアクションによって、その後受信するデータが決まります
強化学習の種類
強化学習手法には次の XNUMX 種類があります。
ポジティブ:
これは、特定の動作によって発生するイベントとして定義されます。 それは行動の強さと頻度を増加させ、エージェントがとる行動にプラスの影響を与えます。
このタイプの強化は、パフォーマンスを最大化し、より長期間にわたって変化を維持するのに役立ちます。 ただし、強化が多すぎると状態が過剰に最適化され、結果に影響を与える可能性があります。
負:
ネガティブな強化は、停止または回避すべきネガティブな状態が原因で発生する行動の強化として定義されます。 これは、パフォーマンスの最低レベルを定義するのに役立ちます。 ただし、この方法の欠点は、最小限の動作を満たすのに十分な機能が提供されることです。
強化の学習モデル
強化学習には XNUMX つの重要な学習モデルがあります。
- マルコフ決定過程
- Q学習
マルコフ決定過程
ソリューションを取得するには、次のパラメータが使用されます。
- アクションのセット - A
- 状態の集合 -S
- 報酬-R
- ポリシー-n
- 値-V
強化学習で解をマッピングするための数学的アプローチは、マルコフ決定プロセス (MDP) として検討されています。
Q学習
Q 学習は、エージェントがどのようなアクションをとるべきかを知らせる情報を提供する価値ベースの方法です。
次の例でこの方法を理解しましょう。
- 建物内には XNUMX つの部屋があり、ドアでつながっています。
- 各部屋には0から4までの番号が付けられています
- 建物の外側を 5 つの大きな屋外エリアにすることができます (XNUMX)
- ドア番号 1 と 4 は部屋 5 から建物に通じています
次に、各ドアに報酬値を関連付ける必要があります。
- ゴールに直結する扉の報酬は100
- 対象の部屋に直接つながっていないドアには報酬はゼロです
- ドアは双方向であり、各部屋に XNUMX つの矢印が割り当てられているため、
- 上の画像の各矢印には即時の報酬値が含まれています
説明:
この画像では、部屋が状態を表していることがわかります。
エージェントのある部屋から別の部屋への移動はアクションを表します
以下の図では、状態がノードとして記述されており、矢印はアクションを示しています。
たとえば、エージェントが部屋番号 2 から 5 まで移動するとします。
- 初期状態 = 状態 2
- 状態 2 -> 状態 3
- 状態 3 -> 状態 (2,1,4)
- 状態 4 -> 状態 (0,5,3)
- 状態 1 -> 状態 (5,3)
- 状態 0 -> 状態 4
強化学習と教師あり学習
技術パラメータ | 強化学習 | 教師あり学習 |
---|---|---|
意思決定スタイル | 強化学習は、意思決定を順番に行うのに役立ちます。 | この方法では、最初に与えられた入力に基づいて決定が行われます。 |
上の作品 | 環境との相互作用に取り組みます。 | 例または指定されたサンプル データに対して動作します。 |
決断への依存 | RL メソッドでは、学習の決定は依存します。 したがって、依存するすべての決定にラベルを付ける必要があります。 | 互いに独立した決定を教師あり学習するため、すべての決定にラベルが付けられます。 |
最適な | 人間との対話が普及している AI をサポートし、より適切に機能します。 | 主に対話型のソフトウェア システムまたはアプリケーションを使用して操作されます。 |
例: | チェスゲーム | 物体認識 |
強化学習の応用
強化学習の応用例は次のとおりです。
- 産業オートメーションのためのロボット工学。
- 事業戦略立案
- 機械学習 およびデータ処理
- 学生の要件に応じてカスタムの指導や教材を提供するトレーニング システムの作成に役立ちます。
- 航空機制御とロボット動作制御
強化学習を使用する理由
強化学習を使用する主な理由は次のとおりです。
- どの状況でアクションが必要かを見つけるのに役立ちます
- 長期にわたってどのアクションが最も高い報酬をもたらすかを発見するのに役立ちます。
- 強化学習は、学習エージェントに報酬関数も提供します。
- また、多額の報酬を獲得するための最適な方法を見つけることもできます。
強化学習を使用すべきでない場合は?
強化学習モデルを適用できない状況ばかりです。 強化学習モデルを使用すべきではない条件をいくつか示します。
- 教師あり学習方法で問題を解決するのに十分なデータがある場合
- 強化学習はコンピューティングを多用し、時間がかかることを覚えておく必要があります。 特にアクションスペースが広い場合。
強化学習の課題
強化を獲得する際に直面する主な課題は次のとおりです。
- 深く関与する必要がある機能/報酬の設計
- パラメータは学習速度に影響を与える可能性があります。
- 現実的な環境には部分的な可観測性がある場合があります。
- 強化が多すぎると、状態の過負荷が発生し、結果が低下する可能性があります。
- 現実的な環境は非定常である場合があります。
製品概要
- 強化学習は機械学習手法です
- 長期にわたってどのアクションが最も高い報酬をもたらすかを発見するのに役立ちます。
- 強化学習の 1 つの方法は、2) 値ベースの学習、XNUMX) ポリシーベースの学習、およびモデルベースの学習です。
- エージェント、状態、報酬、環境、価値関数環境のモデル、モデルベースの方法は、RL 学習方法で使用される重要な用語です。
- 強化学習の例は、あなたの猫が環境にさらされたエージェントであるということです。
- この手法の最大の特徴は、監視者が存在せず、実数または報酬信号のみであることです。
- 1 種類の強化学習: 2) ポジティブ学習、XNUMX) ネガティブ学習
- 広く使用されている 1 つの学習モデルは、2) マルコフ決定プロセス XNUMX) Q 学習です。
- 強化学習手法は環境との相互作用に基づいて機能しますが、 教師あり学習 メソッドは、指定されたサンプル データまたは例に対して機能します。
- 応用学習または強化学習の手法は次のとおりです。 産業オートメーションおよびビジネス戦略計画のためのロボット工学
- 問題を解決するのに十分なデータがある場合は、この方法を使用しないでください。
- この方法の最大の課題は、パラメータが学習速度に影響を与える可能性があることです。