监督学习与无监督学习:两者的区别
监督学习和无监督学习之间的主要区别
- 在监督学习中,您使用“标记”良好的数据来训练机器。
- 无监督学习是一种机器学习技术,你不需要监督模型。
- 监督学习允许您根据以前的经验收集数据或产生数据输出。
- 无监督机器学习可以帮助您在数据中发现各种未知模式。
- 回归和分类是两种监督机器学习技术。
- Cluster和联想是无监督学习的两种类型。
- 在监督学习模型中,将给出输入和输出变量,而在无监督学习模型中,仅给出输入数据
什么是监督机器学习?
在监督学习中,你使用经过良好训练的数据来训练机器 “标签”。这意味着一些数据已经标记了正确答案。这可以比作在主管或老师在场的情况下进行的学习。
监督学习算法从标记的训练数据中学习,帮助您预测不可预见的数据的结果。成功构建、扩展和部署准确的监督机器学习数据科学模型需要一支高技能数据科学家团队的时间和技术专长。此外,数据科学家必须重建模型,以确保给出的见解在数据发生变化之前仍然正确。
什么是无监督学习?
无监督学习是一种机器学习技术,你不需要监督模型。相反,你需要让模型自行工作以发现信息。它主要处理未标记的数据。
与监督学习相比,无监督学习算法可让您执行更复杂的处理任务。尽管与其他自然学习深度学习和强化学习方法相比,无监督学习可能更加难以预测。
为什么要进行监督学习?
- 监督学习允许您根据以前的经验收集数据或产生数据输出。
- 帮助您利用经验优化绩效标准
- 监督机器学习可帮助您解决各种类型的现实世界计算问题。
为什么要进行无监督学习?
以下是使用无监督学习的主要原因:
- 无监督机器学习可以在数据中发现各种未知模式。
- 无监督方法可以帮助您找到可用于分类的特征。
- 它是实时进行的,因此所有输入数据都要在学习者面前进行分析和标记。
- 从计算机获取未标记的数据比获取需要人工干预的标记数据更容易。
监督学习如何起作用?
例如,你想训练一台机器来帮助你预测从工作地点开车回家需要多长时间。在这里,你首先要创建一组带标签的数据。这些数据包括
- 天气状况
- 一天中的时间
- 假期
所有这些细节都是你的输入。输出是当天开车回家所花的时间。
你本能地知道,如果外面下雨,那么开车回家会花更长时间。但机器需要数据和统计数字。
现在让我们看看如何开发此示例的监督学习模型,以帮助用户确定通勤时间。您需要创建的第一件事是训练数据集。该训练集将包含总通勤时间和相应的因素,如天气、时间等。基于此训练集,您的机器可能会发现降雨量与您回家所需的时间之间存在直接关系。
因此,它可以确定雨下得越厉害,你开车回家的时间就越长。它还可以发现你下班时间和你上路时间之间的联系。
越接近下午 6 点,你回家所需的时间就越长。你的机器可能会发现一些与你的标记数据之间的关系。
这是数据模型的开始。它开始影响雨水如何影响人们的驾驶方式。它还开始发现在一天中的特定时间出行的人更多。
无监督学习如何运作?
我们以一个婴儿和她家的狗为例。
她认识这只狗,也认出了它。几周后,一位家庭朋友带着一只狗过来,试图和婴儿玩耍。
宝宝以前没有见过这只狗。但它能识别出许多特征(两只耳朵、眼睛、用四条腿走路),就像她的宠物狗一样。她能识别出像狗一样的新动物。这是无监督学习,你不会被教导,而是从数据中学习(在这种情况下是关于狗的数据)。如果这是监督学习,那么这位家庭朋友会告诉宝宝这是一只狗。
监督机器学习技术的类型
数据复原测试
回归技术使用训练数据预测单个输出值。
示例:您可以使用回归根据训练数据预测房价。输入变量将是位置、房屋大小等。
分类
分类意味着将输出归类。如果算法试图将输入标记为两个不同的类别,则称为二元分类。在两个以上的类别中进行选择称为多类分类。
例如::确定某人是否会拖欠贷款。
我们的强项:输出始终具有概率解释,并且可以对算法进行正则化以避免过度拟合。
弱点:当存在多个或非线性决策边界时,逻辑回归可能表现不佳。这种方法不够灵活,因此无法捕捉更复杂的关系。
无监督机器学习技术的类型
无监督学习问题进一步分为聚类和关联问题。
Cluster博士开发的技术萃取的
Cluster监督学习是无监督学习的一个重要概念。它主要涉及在一组未分类的数据中寻找结构或模式。 Cluster算法将处理您的数据并找到自然聚类(组)(如果它们存在于数据中)。您还可以修改算法应识别的聚类数量。它允许您调整这些组的粒度。
社区
关联规则允许您在大型数据库中的数据对象之间建立关联。这种无监督技术旨在发现大型数据库中变量之间的有趣关系。例如,购买新房的人最有可能购买新家具。
其他例子:
- 根据基因表达测量结果对癌症患者进行分组
- 根据浏览和购买历史对购物者进行分组
- 根据电影观众的评分对电影进行分组
监督学习与无监督学习之间的区别
参数 | 监督机器学习技术 | 无监督机器学习技术 |
---|---|---|
流程 | 在监督学习模型中,将给出输入和输出变量。 | 在无监督学习模型中,仅给出输入数据 |
输入数据 | Algorithms 使用标记数据进行训练。 | Algorithms 用于未标记的数据 |
Algorithms 旧 | 支持向量机、神经网络、线性和逻辑回归、随机森林和分类树。 | 无监督算法可以分为不同的类别: Cluster 算法、K-means、层次聚类等。 |
计算复杂度 | 监督学习是一种更简单的方法。 | 无监督学习在计算上很复杂 |
数据的使用 | 监督学习模型使用训练数据来学习输入和输出之间的联系。 | 无监督学习不使用输出数据。 |
结果的准确性 | 高度准确且值得信赖的方法。 | Less 准确、值得信赖的方法。 |
实时学习 | 学习方式是线下进行。 | 学习方法是实时进行的。 |
班数 | 已知班级数量。 | 班级数量未知。 |
主要缺点 | 在监督学习中,对大数据进行分类可能是一个真正的挑战。 | 您无法获得有关数据排序的精确信息,并且无监督学习中使用的数据的输出是带标签的且未知的。 |