监督机器学习:什么是 Algorithms 与例子
什么是监督机器学习?
监督机器学习 是一种从标记的训练数据中学习的算法,可帮助您预测不可预见的数据的结果。在监督学习中,您使用经过良好“标记”的数据来训练机器。这意味着一些数据已经标记了正确的答案。这可以比作在主管或老师面前的学习。
成功构建、扩展和部署 精准的 监督机器学习模型需要一组高技能的数据科学家投入时间和技术专长。此外, 时间 科学家必须重建 模型 以确保给出的见解在数据发生变化之前仍然正确。
监督学习的工作原理
监督式机器学习使用训练数据集来实现预期结果。这些数据集包含输入和正确的输出,有助于模型更快地学习。例如,您想训练一台机器来帮助您预测从工作地点开车回家需要多长时间。
首先,创建一组标记数据。这些数据包括:
- 天气状况
- 一天中的时间
- 假期
所有这些细节都是您在此监督学习示例中的输入。输出是特定日期开车回家所花费的时间。
你本能地知道,如果外面下雨,那么开车回家会花更长时间。但机器需要数据和统计数字。
让我们看一些监督学习示例,了解如何开发此示例的监督学习模型,以帮助用户确定通勤时间。您需要创建的第一件事是训练集。该训练集将包含总通勤时间和相应的因素,如天气、时间等。基于此训练集,您的机器可能会发现降雨量与您回家所需的时间之间存在直接关系。
因此,它可以确定雨下得越厉害,你开车回家的时间就越长。它还可以发现你下班时间和你上路时间之间的联系。
越接近下午 6 点,回家所需的时间就越长。你的机器可能会发现一些与你的标记数据之间的关系。

这是数据模型的开始。它开始影响雨水如何影响人们的驾驶方式。它还开始发现在一天中的特定时间出行的人更多。
监督机器学习的类型 Algorithms
以下是监督机器学习算法的类型:
数据复原测试
回归技术使用训练数据预测单个输出值。
例如::您可以使用回归根据训练数据预测房价。输入变量包括地点、房屋大小等。
我们的强项:输出始终具有概率解释,并且可以对算法进行正则化以避免过度拟合。
弱点:当存在多个或非线性决策边界时,逻辑回归可能表现不佳。这种方法不够灵活,因此无法捕捉更复杂的关系。
逻辑回归:
逻辑回归方法用于根据给定的一组独立变量估计离散值。它通过将数据拟合到逻辑函数来帮助您预测事件发生的概率。因此,它也被称为逻辑回归。由于它预测概率,因此其输出值介于 0 和 1 之间。
以下是几种回归类型 Algorithms
分类
分类意味着将输出归类。如果算法试图将输入标记为两个不同的类别,则称为二元分类。在两个以上的类别中进行选择称为多类分类。
例如::确定某人是否会拖欠贷款。
我们的强项:分类树在实践中表现很好
弱点:不受约束的单个树容易过度拟合。
以下是几种分类 Algorithms
朴素贝叶斯分类器
朴素贝叶斯模型 (NBN) 易于构建,对大型数据集非常有用。该方法由具有一个父节点和多个子节点的有向无环图组成。它假设子节点与父节点分离,彼此独立。
决策树
决策树通过基于特征值对实例进行排序来对实例进行分类。在这种方法中,每个模式都是一个实例的特征。它应该被分类,每个分支代表节点可以假设的一个值。它是一种广泛使用的分类技术。在这种方法中,分类是一棵树,称为决策树。
它可以帮助您估算真实价值(购买汽车的成本、通话次数、每月总销售额等)。
支持向量机
支持向量机(SVM)是1990年开发的一种学习算法。该方法基于Vap Nik提出的统计学习理论的结果。
SVM 机器也与核函数密切相关,而核函数是大多数学习任务的核心概念。核框架和 SVM 用于各种领域。它包括多媒体信息检索、生物信息学和模式识别。
监督与无监督机器学习技术
| 基于 | 监督机器学习技术 | 无监督机器学习技术 |
|---|---|---|
| 输入数据 | Algorithms 使用标记数据进行训练。 | Algorithms 用于未标记的数据 |
| 计算复杂度 | 监督学习是一种更简单的方法。 | 无监督学习在计算上很复杂 |
| 准确性 | 高度准确且值得信赖的方法。 | Less 准确、值得信赖的方法。 |
监督机器学习的挑战
以下是监督机器学习面临的挑战:
- 不相关的输入特征可能会给训练数据带来不准确的结果
- 数据准备和预处理始终是一个挑战。
- 当不可能、不可能和不完整的值作为训练数据输入时,准确性会受到影响
- 如果没有相关专家,那么另一种方法就是“蛮力”。这意味着你需要想出正确的特征(输入变量)来训练机器。但这可能不准确。
监督学习的优势
以下是监督机器学习的优点:
- 监督学习 机器学习 允许你根据以前的经验收集数据或生成数据输出
- 帮助您利用经验优化绩效标准
- 监督机器学习可帮助您解决各种类型的现实世界计算问题。
监督学习的缺点
以下是监督机器学习的缺点:
- 如果你的训练集没有你想要的类别样本,那么决策边界可能会过度训练
- 在训练分类器时,你需要从每个类别中选择大量好的例子。
- 分类 大数据 可能是一个真正的挑战。
- 监督学习的训练需要大量的计算时间。
监督学习的最佳实践
- 在做其他事情之前,你需要决定使用哪种数据作为训练集
- 你需要决定学习函数和学习算法的结构。
- 收集来自人类专家或测量的相应输出
结语
- 在监督学习算法中,您使用“标记”良好的数据来训练机器。
- 你想要训练一台机器来帮助你预测从工作地点开车回家需要多长时间,这就是监督学习的一个例子。
- 回归和分类是监督机器学习算法的两个维度。
- 监督学习 是一种更简单的方法,而无监督学习是一种复杂的方法。
- 监督学习中最大的挑战是,不相关的输入特征存在的训练数据可能会产生不准确的结果。
- 监督学习的主要优点是它允许您根据以前的经验收集数据或产生数据输出。
- 该模型的缺点是,如果您的训练集没有您想要的类别中的示例,决策边界可能会过度紧张。
- 作为监督学习的最佳实践,首先需要决定应该使用什么样的数据作为训练集。

