강화 학습:이란 무엇입니까? Algorithms, 유형 및 예
강화 학습이란 무엇입니까?
강화 학습 소프트웨어 에이전트가 환경에서 조치를 취하는 방법과 관련된 기계 학습 방법으로 정의됩니다. 강화학습은 누적 보상의 일부를 최대화하는 데 도움이 되는 딥러닝 방법의 일부입니다.
이 신경망 학습 방법은 복잡한 목표를 달성하거나 여러 단계에 걸쳐 특정 차원을 극대화하는 방법을 학습하는 데 도움이 됩니다.
심층 강화 학습 방법의 중요한 구성 요소
Reinforcement AI에서 사용되는 몇 가지 중요한 용어는 다음과 같습니다.
- 에이전트: 보상을 얻기 위해 환경에서 작업을 수행하는 가정된 개체입니다.
- 환경(e): 상담원이 직면해야 하는 시나리오입니다.
- 보상(R): 에이전트가 특정 작업이나 작업을 수행할 때 에이전트에게 즉시 제공되는 반환입니다.
- 상태: 상태는 환경이 반환한 현재 상황을 나타냅니다.
- 정책(π): 현재 상태를 기반으로 다음 동작을 결정하기 위해 에이전트가 적용하는 전략입니다.
- 값(V): 단기 보상에 비해 할인된 장기 수익이 기대됩니다.
- 가치 기능: 총 보상 금액인 상태 값을 지정합니다. 해당 상태에서 시작되는 것으로 예상되는 에이전트입니다.
- 환경 모델: 이는 환경의 동작을 모방합니다. 이는 추론을 하고 환경이 어떻게 작동할지 결정하는 데 도움이 됩니다.
- 모델 기반 방법: 모델 기반 방법을 사용하여 강화학습 문제를 해결하는 방법입니다.
- Q값 또는 행동값(Q): Q 값은 가치와 매우 유사합니다. 둘 사이의 유일한 차이점은 현재 작업으로 추가 매개변수를 사용한다는 것입니다.
강화 학습은 어떻게 작동하나요?
강화 학습 메커니즘을 설명하는 데 도움이 되는 몇 가지 간단한 예를 살펴보겠습니다.
고양이에게 새로운 재주를 가르치는 시나리오를 생각해 보세요.
- 고양이는 영어나 다른 인간 언어를 이해하지 못하기 때문에 우리는 고양이에게 무엇을 해야 할지 직접적으로 말해 줄 수 없습니다. 대신, 우리는 다른 전략을 따릅니다.
- 우리는 상황을 모방하고, 고양이는 다양한 방식으로 반응하려고 합니다. 고양이의 반응이 원하는 방식이라면 우리는 그녀에게 물고기를 줄 것입니다.
- 이제 고양이는 같은 상황에 노출될 때마다 더 많은 보상(음식)을 기대하며 더욱 열정적으로 비슷한 행동을 취합니다.
- 이는 고양이가 긍정적인 경험을 통해 "무엇을 해야 할지"를 배운다는 것과 같습니다.
- 동시에, 고양이는 부정적인 경험에 직면했을 때 하지 말아야 할 일도 배웁니다.
강화 학습의 예

이 경우,
- 당신의 고양이는 환경에 노출되는 매개체입니다. 이 경우에는 귀하의 집입니다. 상태의 예로는 고양이가 앉아 있고 고양이가 걷는다는 특정 단어를 사용할 수 있습니다.
- 에이전트는 하나의 "상태"에서 다른 "상태"로 작업 전환을 수행하여 반응합니다.
- 예를 들어, 고양이는 앉았다가 걷기 시작합니다.
- 에이전트의 반응은 행동이고, 정책은 더 나은 결과를 기대하는 상태에서 행동을 선택하는 방법입니다.
- 전환 후에는 그 대가로 보상이나 페널티를 받을 수 있습니다.
강화 학습 Algorithms
강화 학습 알고리즘을 구현하는 데는 세 가지 접근 방식이 있습니다.
가치 기반
가치 기반 강화 학습 방법에서는 가치 함수를 최대화하려고 노력해야 합니다. V(들). 이 방법에서 에이전트는 정책에 따라 현재 상태의 장기적인 반환을 기대합니다. π.
정책 기반
정책 기반 RL 방법에서는 모든 상태에서 수행되는 작업이 향후 최대 보상을 얻는 데 도움이 되는 정책을 생각해내려고 합니다.
두 가지 유형의 정책 기반 방법은 다음과 같습니다.
- 결정론적: 모든 상태에 대해 정책 π에 의해 동일한 조치가 생성됩니다.
- 확률론적: 모든 행동에는 다음 방정식에 의해 결정되는 특정 확률이 있습니다. 확률론적 정책:
n{a\s) = P\A, = a\S, =S]
모델 기반
이 강화 학습 방법에서는 각 환경에 대한 가상 모델을 만들어야 합니다. 에이전트는 특정 환경에서 수행하는 방법을 학습합니다.
강화학습의 특징
강화학습의 중요한 특징은 다음과 같습니다.
- 감독자는 없고 실수 또는 보상 신호만 있음
- 순차적 의사결정
- 강화 문제에서 시간은 중요한 역할을 합니다.
- 피드백은 즉각적이지 않고 항상 지연됩니다.
- 에이전트의 작업에 따라 수신되는 후속 데이터가 결정됩니다.
강화 학습의 유형
강화 학습 방법에는 두 가지 유형이 있습니다.
양:
특정 동작으로 인해 발생하는 이벤트로 정의됩니다. 이는 행동의 강도와 빈도를 증가시키고 에이전트가 취하는 행동에 긍정적인 영향을 미칩니다.
이러한 유형의 강화는 성과를 극대화하고 더 오랜 기간 동안 변화를 유지하는 데 도움이 됩니다. 그러나 강화가 너무 많으면 상태가 과도하게 최적화되어 결과에 영향을 줄 수 있습니다.
부정:
부정적 강화는 중지하거나 피해야 하는 부정적 조건으로 인해 발생하는 행동을 강화하는 것으로 정의됩니다. 이는 성능의 최소 수준을 정의하는 데 도움이 됩니다. 그러나 이 방법의 단점은 최소한의 동작을 충족하기에 충분하다는 것입니다.
강화 모델 학습
강화 학습에는 두 가지 중요한 학습 모델이 있습니다.
- 마르코프 결정 과정
- Q학습
마르코프 결정 과정
다음 매개변수는 솔루션을 얻는 데 사용됩니다.
- 일련의 작업 - A
- 상태 집합 -S
- 보상-R
- 정책-n
- 가치-V
강화 학습에서 솔루션을 매핑하기 위한 수학적 접근 방식은 MDP(Markov Decision Process)로 재구성됩니다.
Q- 학습
Q 학습은 에이전트가 어떤 조치를 취해야 하는지 알려주는 정보를 제공하는 가치 기반 방법입니다.
다음 예를 통해 이 방법을 알아보겠습니다.
- 한 건물에는 문으로 연결된 XNUMX개의 방이 있습니다.
- 각 방에는 0부터 4까지 번호가 매겨져 있습니다.
- 건물 외부는 하나의 큰 외부 공간이 될 수 있습니다. (5)
- 1번과 4번 문은 5번 방에서 건물로 연결됩니다.
다음으로 각 문에 보상 값을 연결해야 합니다.
- 목표로 직접 연결되는 문은 100의 보상을 받습니다.
- 대상 방에 직접 연결되지 않은 문은 보상이 없습니다.
- 문은 양방향이므로 방마다 화살표가 XNUMX개씩 지정되어 있습니다.
- 위 이미지의 모든 화살표에는 즉각적인 보상 값이 포함되어 있습니다.
설명 :
이 이미지에서는 방이 상태를 나타내는 것을 볼 수 있습니다.
에이전트가 한 방에서 다른 방으로 이동하는 것은 행동을 나타냅니다.
아래 주어진 이미지에서 상태는 노드로 설명되고 화살표는 작업을 표시합니다.
예를 들어 상담원이 방 번호 2에서 5로 이동합니다.
- 초기 상태 = 상태 2
- 상태 2 -> 상태 3
- 상태 3 -> 상태 (2,1,4)
- 상태 4-> 상태 (0,5,3)
- 상태 1-> 상태 (5,3)
- 상태 0 -> 상태 4
강화 학습과 지도 학습
| 파라미터 | 강화 학습 | 지도 학습 |
|---|---|---|
| 의사결정 스타일 | 강화 학습은 순차적으로 결정을 내리는 데 도움이 됩니다. | 이 방법에서는 처음에 주어진 입력에 따라 결정이 내려집니다. |
| 에 작동 | 환경과 상호작용하는 작업을 수행합니다. | 예제 또는 주어진 샘플 데이터에 대해 작업합니다. |
| 결정에 대한 의존성 | RL 방법에서 학습 결정은 의존적입니다. 따라서 모든 종속 결정에 레이블을 지정해야 합니다. | 지도 학습은 서로 독립적인 결정이므로 모든 결정에 라벨이 제공됩니다. |
| 잘 맞는다 | 인간 상호 작용이 널리 퍼져 있는 AI를 더 잘 지원하고 작업합니다. | 대부분 대화형 소프트웨어 시스템이나 애플리케이션으로 운영됩니다. |
| 예시 | 체스 게임 | 물체 인식 |
강화 학습의 응용
강화 학습의 응용 프로그램은 다음과 같습니다.
- 산업 자동화를 위한 로봇공학.
- 사업 전략 기획
- 기계 학습 및 데이터 처리
- 학생의 요구 사항에 따라 맞춤형 교육 및 자료를 제공하는 교육 시스템을 만드는 데 도움이 됩니다.
- 항공기 제어 및 로봇 모션 제어
강화 학습을 사용하는 이유는 무엇입니까?
강화 학습을 사용하는 주요 이유는 다음과 같습니다.
- 어떤 상황에 조치가 필요한지 찾는 데 도움이 됩니다.
- 장기간에 걸쳐 가장 높은 보상을 제공하는 작업을 찾는 데 도움이 됩니다.
- 강화 학습은 또한 학습 에이전트에 보상 기능을 제공합니다.
- 또한 큰 보상을 얻기 위한 최선의 방법을 알아낼 수도 있습니다.
강화 학습을 사용하지 말아야 할 경우는 언제입니까?
강화학습 모델을 적용할 수 없는 상황이 전부입니다. 강화 학습 모델을 사용해서는 안 되는 몇 가지 조건은 다음과 같습니다.
- 지도 학습 방법으로 문제를 해결할 수 있을 만큼 충분한 데이터가 있는 경우
- 강화 학습은 계산량이 많고 시간이 많이 걸린다는 점을 기억해야 합니다. 특히 행동 공간이 큰 경우.
강화 학습의 과제
강화를 획득하는 동안 직면하게 될 주요 과제는 다음과 같습니다.
- 매우 관련되어야 하는 기능/보상 디자인
- 매개변수는 학습 속도에 영향을 미칠 수 있습니다.
- 현실적인 환경에서는 부분적으로 관찰할 수 있습니다.
- 강화가 너무 많으면 상태의 과부하가 발생하여 결과가 줄어들 수 있습니다.
- 현실적인 환경은 고정적이지 않을 수 있습니다.
제품 개요
- 강화 학습은 기계 학습 방법입니다.
- 장기간에 걸쳐 가장 높은 보상을 제공하는 작업을 찾는 데 도움이 됩니다.
- 강화 학습의 세 가지 방법은 1) 가치 기반 2) 정책 기반 및 모델 기반 학습입니다.
- Agent, State, Reward, Environment, Value function 환경 모델, 모델 기반 방법은 RL 학습 방법에서 사용되는 몇 가지 중요한 용어입니다.
- 강화 학습의 예는 고양이가 환경에 노출되는 에이전트라는 것입니다.
- 이 방식의 가장 큰 특징은 감독자가 없고 실수나 보상 신호만 있다는 점입니다.
- 강화 학습에는 두 가지 유형이 있습니다. 1) 긍정적인 학습 2) 부정적인 강화 학습
- 널리 사용되는 두 가지 학습 모델은 1) Markov 결정 과정 2) Q 학습입니다.
- 강화 학습 방법은 환경과 상호 작용하는 데 작동하는 반면, 지도 학습 방법은 주어진 샘플 데이터 또는 예제에 대해 작동합니다.
- 적용 또는 강화 학습 방법은 다음과 같습니다. 산업 자동화 및 비즈니스 전략 계획을 위한 로봇 공학
- 문제를 해결하기에 충분한 데이터가 있는 경우 이 방법을 사용하면 안 됩니다.
- 이 방법의 가장 큰 문제점은 매개변수가 학습 속도에 영향을 미칠 수 있다는 것입니다.




