无监督机器学习: Algorithms、类型及示例

什么是无监督学习?

无监督学习 是一种机器学习技术,用户无需监督模型。相反,它允许模型自行工作以发现以前未被发现的模式和信息。它主要处理未标记的数据。

无监督学习 Algorithms

无监督学习 Algorithms 与监督学习相比,无监督学习允许用户执行更复杂的处理任务。尽管如此,与其他自然学习方法相比,无监督学习可能更加难以预测。无监督学习算法包括聚类、异常检测、神经网络等。

无监督机器学习的例子

让我们以一个婴儿和她的家犬为例来说明无监督学习。

无监督机器学习的例子

她认识这只狗,也认出了它。几周后,一位家庭朋友带着一只狗过来,试图和婴儿玩耍。

无监督机器学习的例子

宝宝以前没有见过这只狗。但它认识到许多特征(两只耳朵、眼睛、用四条腿走路)都像她的宠物狗。她把这只新动物认成了狗。这是无监督学习,你不会被教导,而是从数据中学习(在这种情况下是关于狗的数据)。如果这是 监督学习,家庭朋友就会告诉婴儿,这是一只狗,如上面的无监督学习示例所示。

为什么要进行无监督学习?

以下是在以下领域使用无监督学习的主要原因: 机器学习:

  • 无监督机器学习可以在数据中发现各种未知模式。
  • 无监督方法可以帮助您找到可用于分类的特征。
  • 它是实时进行的,因此所有输入数据都要在学习者面前进行分析和标记。
  • 从计算机获取未标记的数据比获取需要人工干预的标记数据更容易。

Cluster无监督学习的类型 Algorithms

以下是无监督机器学习算法的聚类类型:

无监督学习问题进一步分为聚类和关联问题。

Cluster博士开发的技术萃取的

Cluster博士开发的技术萃取的
Cluster博士开发的技术萃取的

Cluster分类是无监督学习的一个重要概念。它主要涉及在一组未分类的数据中寻找结构或模式。无监督学习 Cluster算法将处理您的数据并找到自然聚类(组)(如果它们存在于数据中)。您还可以修改算法应识别的聚类数量。它允许您调整这些组的粒度。

你可以利用不同类型的聚类:

独占(分区)

在这种聚类方法中,数据以这样的方式分组:一个数据只能属于一个聚类。

示例:K 均值

集聚的

在这种聚类技术中,每个数据都是一个簇。两个最近的簇之间的迭代联合减少了簇的数量。

示例:层次聚类

重叠

在该技术中,模糊集用于对数据进行聚类。每个点可能属于两个或多个具有不同隶属度的聚类。

在这里,数据将与适当的成员值相关联。示例:模糊 C 均值

概率论

该技术使用概率分布来创建聚类

示例:关注关键字

  • “男人的鞋。”
  • “女鞋。”
  • “女士手套。”
  • “男士手套。”

可以聚类为“鞋”和“手套”或“男人”和“女人”两类。

Cluster类型

以下是机器学习的聚类类型:

  • 层次聚类
  • K均值聚类
  • K-NN(k 个最近邻居)
  • 主成分分析
  • 奇异值分解
  • 独立成分分析

分级 Cluster博士开发的技术萃取的

层次聚类是一种构建聚类层次结构的算法。它从分配给自己一个聚类的所有数据开始。在这里,两个相近的聚类将位于同一个聚类中。当只剩下一个聚类时,该算法结束。

K均值 Cluster博士开发的技术萃取的

K 表示它是一种迭代聚类算法,可帮助您在每次迭代中找到最高值。最初,选择所需的聚类数。在此聚类方法中,您需要将数据点聚类为 k 个组。k 越大意味着组越小,粒度越细。k 越小意味着组越大,粒度越细。

该算法的输出是一组“标签”。它将数据点分配给 k 个组中的一个。在 k 均值聚类中,每个组都是通过为每个组创建一个质心来定义的。质心就像聚类的心脏,它捕获最接近它们的点并将它们添加到聚类中。

K均值聚类进一步定义了两个子组:

  • 凝聚聚类
  • 树状图

凝聚聚类

这种 K 均值聚类从固定数量的聚类开始。它将所有数据分配到精确数量的聚类中。这种聚类方法不需要聚类数量 K 作为输入。聚集过程从将每个数据形成为单个聚类开始。

该方法使用某种距离度量,通过合并过程减少簇的数量(每次迭代一个)。最后,我们得到一个包含所有对象的大簇。

树状图

在树状图聚类方法中,每个级别将代表一个可能的聚类。树状图的高度显示了两个连接聚类之间的相似程度。越接近底部,它们就越相似,这是从树状图中发现的组,这并不自然,而且大多是主观的。

K最近邻

K 近邻是所有机器学习分类器中最简单的。它与其他机器学习技术不同,因为它不生成模型。它是一种简单的算法,可存储所有可用案例并根据相似性度量对新实例进行分类。

当样本之间存在距离时,该方法非常有效。当训练集很大时,学习速度会很慢,并且距离计算并不简单。

主成分分析

如果你想要一个更高维度的空间。你需要为该空间选择一个基础,并且只选择该基础的 200 个最重要的分数。这个基础被称为主成分。你选择的子集构成了一个新空间,与原始空间相比,其规模较小。它尽可能地保持数据的复杂性。

社区

关联规则允许您在大型数据库中的数据对象之间建立关联。这种无监督技术旨在发现大型数据库中变量之间的有趣关系。例如,购买新房的人最有可能购买新家具。

其他例子:

  • 根据基因表达测量结果对癌症患者进行分组
  • 根据浏览和购买历史对购物者进行分组
  • 根据电影观众的评分对电影进行分组

监督式机器学习与无监督式机器学习

以下是两者之间的主要区别 监督学习与无监督学习:

参数 监督机器学习技术 无监督机器学习技术
输入数据 Algorithms 使用标记数据进行训练。 Algorithms 用于未标记的数据
计算复杂度 监督学习是一种更简单的方法。 无监督学习在计算上很复杂
准确性 高度准确且值得信赖的方法。 Less 准确、值得信赖的方法。

无监督机器学习的应用

无监督学习技术的一些应用包括:

  • Cluster根据相似性自动将数据集分成几组
  • 异常检测可以发现数据集中的异常数据点。它对于发现欺诈交易很有用
  • 关联挖掘可识别数据集中经常一起出现的项目集
  • 隐变量模型广泛用于数据预处理。例如减少数据集中的特征数量或将数据集分解为多个组件

无监督学习的缺点

  • 你无法获得有关数据排序的精确信息,并且无监督学习中使用的数据的输出是经过标记的且未知的
  • Less 结果的准确性是因为输入的数据是未知的,并且没有被人们事先标记。这意味着机器需要自己做这件事。
  • 光谱类别并不总是与信息类别相对应。
  • 用户需要花时间解释和标记遵循该分类的类别。
  • 类别的光谱特性也会随着时间而改变,因此从一张图像移动到另一个图像时您不可能拥有相同的类别信息。

结语

  • 无监督学习是一种机器学习技术,你不需要监督模型。
  • 无监督机器学习可以帮助您在数据中发现各种未知模式。
  • Cluster和联想是无监督学习的两种类型。
  • 四种类型的聚类方法是 1)排他性 2)凝聚性 3)重叠 4)概率。
  • 重要的聚类类型有:1)层次聚类2)K均值聚类3)K-NN4)主成分分析5)奇异值分解6)独立成分分析。
  • 关联规则允许您在大型数据库内的数据对象之间建立关联。
  • 在监督学习中, Algorithms 使用标记数据进行训练,而在无监督学习中 Algorithms 用于处理未标记的数据。
  • 异常检测可以发现数据集中的重要数据点,这对于查找欺诈交易很有用。
  • 无监督学习的最大缺点是无法获得有关数据排序的精确信息。