강화 학습:이란 무엇입니까? Algorithms, 유형 및 예

강화 학습이란 무엇입니까?

강화 학습 소프트웨어 에이전트가 환경에서 조치를 취하는 방법과 관련된 기계 학습 방법으로 정의됩니다. 강화학습은 누적 보상의 일부를 최대화하는 데 도움이 되는 딥러닝 방법의 일부입니다.

이 신경망 학습 방법은 복잡한 목표를 달성하거나 여러 단계에 걸쳐 특정 차원을 극대화하는 방법을 학습하는 데 도움이 됩니다.

심층 강화 학습 방법의 중요한 구성 요소

깊은 강화의 중요한 구성 요소

Reinforcement AI에서 사용되는 몇 가지 중요한 용어는 다음과 같습니다.

  • 에이전트: 보상을 얻기 위해 환경에서 작업을 수행하는 가정된 개체입니다.
  • 환경(e): 상담원이 직면해야 하는 시나리오입니다.
  • 보상(R): 에이전트가 특정 작업이나 작업을 수행할 때 에이전트에게 즉시 제공되는 반환입니다.
  • 상태: 상태는 환경이 반환한 현재 상황을 나타냅니다.
  • 정책(π): 현재 상태를 기반으로 다음 동작을 결정하기 위해 에이전트가 적용하는 전략입니다.
  • 값(V): 단기 보상에 비해 할인된 장기 수익이 기대됩니다.
  • 가치 기능: 총 보상 금액인 상태 값을 지정합니다. 해당 상태에서 시작되는 것으로 예상되는 에이전트입니다.
  • 환경 모델: 이는 환경의 동작을 모방합니다. 이는 추론을 하고 환경이 어떻게 작동할지 결정하는 데 도움이 됩니다.
  • 모델 기반 방법: 모델 기반 방법을 사용하여 강화학습 문제를 해결하는 방법입니다.
  • Q값 또는 행동값(Q): Q 값은 가치와 매우 유사합니다. 둘 사이의 유일한 차이점은 현재 작업으로 추가 매개변수를 사용한다는 것입니다.

강화 학습은 어떻게 작동하나요?

강화 학습 메커니즘을 설명하는 데 도움이 되는 몇 가지 간단한 예를 살펴보겠습니다.

고양이에게 새로운 재주를 가르치는 시나리오를 생각해 보세요.

  • 고양이는 영어나 다른 인간 언어를 이해하지 못하기 때문에 우리는 고양이에게 무엇을 해야 할지 직접적으로 말해 줄 수 없습니다. 대신, 우리는 다른 전략을 따릅니다.
  • 우리는 상황을 모방하고, 고양이는 다양한 방식으로 반응하려고 합니다. 고양이의 반응이 원하는 방식이라면 우리는 그녀에게 물고기를 줄 것입니다.
  • 이제 고양이는 같은 상황에 노출될 때마다 더 많은 보상(음식)을 기대하며 더욱 열정적으로 비슷한 행동을 취합니다.
  • 이는 고양이가 긍정적인 경험을 통해 "무엇을 해야 할지"를 배운다는 것과 같습니다.
  • 동시에, 고양이는 부정적인 경험에 직면했을 때 하지 말아야 할 일도 배웁니다.

강화 학습의 예

강화 학습의 예
강화 학습의 작동 방식

이 경우,

  • 당신의 고양이는 환경에 노출되는 매개체입니다. 이 경우에는 귀하의 집입니다. 상태의 예로는 고양이가 앉아 있고 고양이가 걷는다는 특정 단어를 사용할 수 있습니다.
  • 에이전트는 하나의 "상태"에서 다른 "상태"로 작업 전환을 수행하여 반응합니다.
  • 예를 들어, 고양이는 앉았다가 걷기 시작합니다.
  • 에이전트의 반응은 행동이고, 정책은 더 나은 결과를 기대하는 상태에서 행동을 선택하는 방법입니다.
  • 전환 후에는 그 대가로 보상이나 페널티를 받을 수 있습니다.

강화 학습 Algorithms

강화 학습 알고리즘을 구현하는 데는 세 가지 접근 방식이 있습니다.

가치 기반

가치 기반 강화 학습 방법에서는 가치 함수를 최대화하려고 노력해야 합니다. V(들). 이 방법에서 에이전트는 정책에 따라 현재 상태의 장기적인 반환을 기대합니다. π.

정책 기반

정책 기반 RL 방법에서는 모든 상태에서 수행되는 작업이 향후 최대 보상을 얻는 데 도움이 되는 정책을 생각해내려고 합니다.

두 가지 유형의 정책 기반 방법은 다음과 같습니다.

  • 결정론적: 모든 상태에 대해 정책 π에 의해 동일한 조치가 생성됩니다.
  • 확률론적: 모든 행동에는 다음 방정식에 의해 결정되는 특정 확률이 있습니다. 확률론적 정책:
    n{a\s) = P\A, = a\S, =S]

모델 기반

이 강화 학습 방법에서는 각 환경에 대한 가상 모델을 만들어야 합니다. 에이전트는 특정 환경에서 수행하는 방법을 학습합니다.

강화학습의 특징

강화학습의 중요한 특징은 다음과 같습니다.

  • 감독자는 없고 실수 또는 보상 신호만 있음
  • 순차적 의사결정
  • 강화 문제에서 시간은 중요한 역할을 합니다.
  • 피드백은 즉각적이지 않고 항상 지연됩니다.
  • 에이전트의 작업에 따라 수신되는 후속 데이터가 결정됩니다.

강화 학습의 유형

강화 학습 방법에는 두 가지 유형이 있습니다.

양:

특정 동작으로 인해 발생하는 이벤트로 정의됩니다. 이는 행동의 강도와 빈도를 증가시키고 에이전트가 취하는 행동에 긍정적인 영향을 미칩니다.

이러한 유형의 강화는 성과를 극대화하고 더 오랜 기간 동안 변화를 유지하는 데 도움이 됩니다. 그러나 강화가 너무 많으면 상태가 과도하게 최적화되어 결과에 영향을 줄 수 있습니다.

부정:

부정적 강화는 중지하거나 피해야 하는 부정적 조건으로 인해 발생하는 행동을 강화하는 것으로 정의됩니다. 이는 성능의 최소 수준을 정의하는 데 도움이 됩니다. 그러나 이 방법의 단점은 최소한의 동작을 충족하기에 충분하다는 것입니다.

강화 모델 학습

강화 학습에는 두 가지 중요한 학습 모델이 있습니다.

  • 마르코프 결정 과정
  • Q학습

마르코프 결정 과정

다음 매개변수는 솔루션을 얻는 데 사용됩니다.

  • 일련의 작업 - A
  • 상태 집합 -S
  • 보상-R
  • 정책-n
  • 가치-V

강화 학습에서 솔루션을 매핑하기 위한 수학적 접근 방식은 MDP(Markov Decision Process)로 재구성됩니다.

마르코프 결정 과정

Q- 학습

Q 학습은 에이전트가 어떤 조치를 취해야 하는지 알려주는 정보를 제공하는 가치 기반 방법입니다.

다음 예를 통해 이 방법을 알아보겠습니다.

  • 한 건물에는 문으로 연결된 XNUMX개의 방이 있습니다.
  • 각 방에는 0부터 4까지 번호가 매겨져 있습니다.
  • 건물 외부는 하나의 큰 외부 공간이 될 수 있습니다. (5)
  • 1번과 4번 문은 5번 방에서 건물로 연결됩니다.

Q- 학습

다음으로 각 문에 보상 값을 연결해야 합니다.

  • 목표로 직접 연결되는 문은 100의 보상을 받습니다.
  • 대상 방에 직접 연결되지 않은 문은 보상이 없습니다.
  • 문은 양방향이므로 방마다 화살표가 XNUMX개씩 지정되어 있습니다.
  • 위 이미지의 모든 화살표에는 즉각적인 보상 값이 포함되어 있습니다.

설명 :

이 이미지에서는 방이 상태를 나타내는 것을 볼 수 있습니다.

에이전트가 한 방에서 다른 방으로 이동하는 것은 행동을 나타냅니다.

아래 주어진 이미지에서 상태는 노드로 설명되고 화살표는 작업을 표시합니다.

Q- 학습

예를 들어 상담원이 방 번호 2에서 5로 이동합니다.

  • 초기 상태 = 상태 2
  • 상태 2 -> 상태 3
  • 상태 3 -> 상태 (2,1,4)
  • 상태 4-> 상태 (0,5,3)
  • 상태 1-> 상태 (5,3)
  • 상태 0 -> 상태 4

강화 학습과 지도 학습

파라미터 강화 학습 지도 학습
의사결정 스타일 강화 학습은 순차적으로 결정을 내리는 데 도움이 됩니다. 이 방법에서는 처음에 주어진 입력에 따라 결정이 내려집니다.
에 작동 환경과 상호작용하는 작업을 수행합니다. 예제 또는 주어진 샘플 데이터에 대해 작업합니다.
결정에 대한 의존성 RL 방법에서 학습 결정은 의존적입니다. 따라서 모든 종속 결정에 레이블을 지정해야 합니다. 지도 학습은 서로 독립적인 결정이므로 모든 결정에 라벨이 제공됩니다.
잘 맞는다 인간 상호 작용이 널리 퍼져 있는 AI를 더 잘 지원하고 작업합니다. 대부분 대화형 소프트웨어 시스템이나 애플리케이션으로 운영됩니다.
예시 체스 게임 물체 인식

강화 학습의 응용

강화 학습의 응용 프로그램은 다음과 같습니다.

  • 산업 자동화를 위한 로봇공학.
  • 사업 전략 기획
  • 기계 학습 및 데이터 처리
  • 학생의 요구 사항에 따라 맞춤형 교육 및 자료를 제공하는 교육 시스템을 만드는 데 도움이 됩니다.
  • 항공기 제어 및 로봇 모션 제어

강화 학습을 사용하는 이유는 무엇입니까?

강화 학습을 사용하는 주요 이유는 다음과 같습니다.

  • 어떤 상황에 조치가 필요한지 찾는 데 도움이 됩니다.
  • 장기간에 걸쳐 가장 높은 보상을 제공하는 작업을 찾는 데 도움이 됩니다.
  • 강화 학습은 또한 학습 에이전트에 보상 기능을 제공합니다.
  • 또한 큰 보상을 얻기 위한 최선의 방법을 알아낼 수도 있습니다.

강화 학습을 사용하지 말아야 할 경우는 언제입니까?

강화학습 모델을 적용할 수 없는 상황이 전부입니다. 강화 학습 모델을 사용해서는 안 되는 몇 가지 조건은 다음과 같습니다.

  • 지도 학습 방법으로 문제를 해결할 수 있을 만큼 충분한 데이터가 있는 경우
  • 강화 학습은 계산량이 많고 시간이 많이 걸린다는 점을 기억해야 합니다. 특히 행동 공간이 큰 경우.

강화 학습의 과제

강화를 획득하는 동안 직면하게 될 주요 과제는 다음과 같습니다.

  • 매우 관련되어야 하는 기능/보상 디자인
  • 매개변수는 학습 속도에 영향을 미칠 수 있습니다.
  • 현실적인 환경에서는 부분적으로 관찰할 수 있습니다.
  • 강화가 너무 많으면 상태의 과부하가 발생하여 결과가 줄어들 수 있습니다.
  • 현실적인 환경은 고정적이지 않을 수 있습니다.

제품 개요

  • 강화 학습은 기계 학습 방법입니다.
  • 장기간에 걸쳐 가장 높은 보상을 제공하는 작업을 찾는 데 도움이 됩니다.
  • 강화 학습의 세 가지 방법은 1) 가치 기반 2) 정책 기반 및 모델 기반 학습입니다.
  • Agent, State, Reward, Environment, Value function 환경 모델, 모델 기반 방법은 RL 학습 방법에서 사용되는 몇 가지 중요한 용어입니다.
  • 강화 학습의 예는 고양이가 환경에 노출되는 에이전트라는 것입니다.
  • 이 방식의 가장 큰 특징은 감독자가 없고 실수나 보상 신호만 있다는 점입니다.
  • 강화 학습에는 두 가지 유형이 있습니다. 1) 긍정적인 학습 2) 부정적인 강화 학습
  • 널리 사용되는 두 가지 학습 모델은 1) Markov 결정 과정 2) Q 학습입니다.
  • 강화 학습 방법은 환경과 상호 작용하는 데 작동하는 반면, 지도 학습 방법은 주어진 샘플 데이터 또는 예제에 대해 작동합니다.
  • 적용 또는 강화 학습 방법은 다음과 같습니다. 산업 자동화 및 비즈니스 전략 계획을 위한 로봇 공학
  • 문제를 해결하기에 충분한 데이터가 있는 경우 이 방법을 사용하면 안 됩니다.
  • 이 방법의 가장 큰 문제점은 매개변수가 학습 속도에 영향을 미칠 수 있다는 것입니다.

이 게시물을 요약하면 다음과 같습니다.