强化学习:什么是 Algorithms、类型和示例
什么是强化学习?
强化学习 被定义为一种机器学习方法,它关注软件代理如何在环境中采取行动。强化学习是深度学习方法的一部分,可帮助您最大化部分累积奖励。
这种神经网络学习方法可以帮助您学习如何通过多个步骤实现复杂的目标或最大化特定维度。
深度强化学习方法的重要组成部分
以下是强化人工智能中使用的一些重要术语:
- 代理人: 它是一种假定的实体,在环境中执行动作以获得某种奖励。
- 环境(e): 经纪人必须面对的场景。
- 獎勵 (R): 当代理执行特定操作或任务时立即给予的回报。
- 状态): 状态是指环境返回的当前情况。
- 政策(π): 它是代理根据当前状态决定下一步行动所采用的策略。
- 值(V): 与短期回报相比,预期长期回报会有折扣。
- 值函数: 它指定了某个状态的值,即奖励总额。它是从该状态开始应预期的代理。
- 环境模型: 这模仿了环境的行为。它可以帮助您做出推断,并确定环境将如何表现。
- 基于模型的方法: 它是一种使用基于模型的方法解决强化学习问题的方法。
- Q值或动作值(Q): Q value 与 value 非常相似。两者之间的唯一区别是它接受一个额外的参数作为当前动作。
强化学习如何发挥作用?
让我们看一些简单的例子来帮助你说明强化学习机制。
想象一下教猫咪新技巧的场景
- 由于猫不懂英语或任何其他人类语言,我们无法直接告诉她该做什么。相反,我们采取了不同的策略。
- 我们模拟一种情况,猫会尝试以多种不同的方式做出反应。如果猫的反应符合我们的预期,我们就会给她鱼。
- 现在,每当猫遇到相同的情况时,它就会更加热情地执行类似的动作,以期获得更多的奖励(食物)。
- 这就像猫从积极的经历中学习“该做什么”一样。
- 同时,猫也学会了面对负面经历时不该做什么。
强化学习的例子
在这种情况下,
- 你的猫是暴露于环境的媒介。在这种情况下,环境就是你的房子。状态的一个例子可能是你的猫坐着,并且你使用一个特定的词来表示猫走路。
- 我们的代理通过从一个“状态”到另一个“状态”执行动作转换来做出反应。
- 例如,你的猫从坐姿变成走姿。
- 代理的反应是一种动作,而策略是一种在给定状态下选择动作以期望获得更好结果的方法。
- 转变之后,他们可能会得到奖励或惩罚。
强化学习 Algorithms
有三种方法可以实现强化学习算法。
基于价值
在基于价值的强化学习方法中,你应该尝试最大化价值函数 速度在这种方法中,代理期望在策略下长期回报当前状态 π.
基于政策
在基于策略的 RL 方法中,您尝试制定这样一种策略,即在每个状态下执行的操作都能帮助您在未来获得最大的回报。
两种基于策略的方法是:
- 确定性:对于任何状态,策略π都会产生相同的动作。
- 随机:每个动作都有一定的概率,由以下公式决定。随机策略:
n{a\s) = P\A, = a\S, =S]
基于模型的
在这种强化学习方法中,您需要为每个环境创建一个虚拟模型。代理将学习在特定环境中执行任务。
强化学习的特点
以下是强化学习的重要特征
- 没有监督者,只有真实的数字或奖励信号
- 顺序决策
- 时间在强化问题中起着至关重要的作用
- 反馈总是延迟的,不是即时的
- Agent 的行为决定了它接收的后续数据
强化学习的类型
两种类型的强化学习方法是:
正面:
它被定义为由于特定行为而发生的事件。它增加了行为的强度和频率,并对代理采取的行动产生积极影响。
这种强化有助于您最大限度地提高绩效,并在更长的时间内维持变革。然而,过多的强化可能会导致状态过度优化,从而影响结果。
负:
负强化被定义为强化由于负面条件而发生的行为,而这种负面条件本应停止或避免。它可以帮助您定义最低限度的表现标准。然而,这种方法的缺点是它提供的只是满足最低限度行为的足够数量。
强化学习模型
强化学习中有两种重要的学习模型:
- 马尔可夫决策过程
- 问学习
马尔可夫决策过程
使用以下参数来获取解决方案:
- 动作集-A
- 状态集-S
- 獎勵-R
- 政策-n
- 值- V
强化学习中映射解决方案的数学方法被称为马尔可夫决策过程或 (MDP)。
Q学习
Q 学习是一种基于价值的方法,它提供信息来告知代理应该采取什么行动。
让我们通过以下示例来理解这种方法:
- 一栋楼有五个房间,各房间之间有门相连。
- 每个房间编号为 0 至 4
- 建筑外部可以是一个大的室外区域(5)
- 1 号门和 4 号门可从 5 号房间进入大楼
接下来,您需要将奖励值与每扇门关联起来:
- 直接通往目标的门的奖励是 100
- 与目标房间不直接相连的门将不会获得任何奖励
- 由于门是双向的,每个房间都有两个箭头
- 上图中的每个箭头都包含即时奖励值
说明:
在这张图片中,你可以看到房间代表着一种状态
代理从一个房间到另一个房间的移动代表一个动作
在下图中,状态被描述为节点,而箭头显示动作。
例如,代理从 2 号房间走到 5 号房间
- 初始状态 = 状态 2
- 状态 2-> 状态 3
- 状态 3 -> 状态 (2,1,4)
- 状态 4-> 状态 (0,5,3)
- 状态 1-> 状态 (5,3)
- 状态 0-> 状态 4
强化学习与监督学习
参数 | 强化学习 | 监督学习 |
---|---|---|
决策风格 | 强化学习可以帮助你按顺序做出决策。 | 在这种方法中,是根据一开始给出的输入做出决定的。 |
工程 | 致力于与环境互动。 | 根据示例或给定的样本数据进行工作。 |
取决于决策 | 在 RL 方法中,学习决策是依赖的。因此,你应该给所有依赖的决策贴上标签。 | 监督学习彼此独立的决策,因此每个决策都会给出标签。 |
最适合 | 在人类互动盛行的人工智能中得到更好的支持和工作。 | 它主要通过交互式软件系统或应用程序进行操作。 |
例如: | 棋局 | 物体识别 |
强化学习的应用
以下是强化学习的应用:
- 用于工业自动化的机器人。
- 商业策略规划
- 机器识别 和数据处理
- 它可以帮助您创建培训系统,根据学生的要求提供定制指导和材料。
- 飞机控制和机器人运动控制
为什么要使用强化学习?
以下是使用强化学习的主要原因:
- 它可以帮助找到哪些情况需要采取行动
- 帮助您发现哪些行动在较长时期内能带来最高的回报。
- 强化学习还为学习代理提供了奖励功能。
- 它还可以帮助它找出获得丰厚奖励的最佳方法。
何时不使用强化学习?
在所有情况下,您都不能应用强化学习模型。以下是一些不应使用强化学习模型的情况。
- 当你有足够的数据来用监督学习方法解决问题时
- 你需要记住,强化学习计算量大且耗时,特别是当动作空间很大时。
强化学习的挑战
以下是您在进行强化收入时将面临的主要挑战:
- 功能/奖励设计应该非常复杂
- 参数可能会影响学习的速度。
- 现实环境可以具有部分可观察性。
- 过多的强化可能会造成状态超负荷,从而降低效果。
- 现实环境可能是非平稳的。
总结
- 强化学习是一种机器学习方法
- 帮助您发现哪些行动在较长时期内能带来最高的回报。
- 强化学习有三种方法是:1)基于价值的学习;2)基于策略的学习;以及基于模型的学习。
- 代理、状态、奖励、环境、环境的价值函数模型、基于模型的方法,是强化学习方法中使用的一些重要术语
- 强化学习的例子是,你的猫是一个暴露于环境中的代理。
- 这种方法最大的特点是没有监督者,只有真实的数字或奖励信号
- 强化学习有两种类型:1)正面的;2)负面的
- 两种广泛使用的学习模型是 1)马尔可夫决策过程 2)Q 学习
- 强化学习方法致力于与环境互动,而 监督学习 方法适用于给定的样本数据或示例。
- 应用或强化学习方法包括:工业自动化和商业战略规划的机器人技术
- 当你有足够的数据来解决问题时,你不应该使用此方法
- 该方法最大的挑战是参数可能会影响学习速度