机器学习初学者教程:什么是机器学习,机器学习基础知识

什么是机器学习?

机器学习 是一种计算机算法系统,可以通过自我改进从示例中学习,而无需程序员明确编码。机器学习是人工智能的一部分,它将数据与统计工具相结合,以预测可用于得出可行见解的输出。

这一突破源于这样一种理念:机器可以单独从数据(即示例)中学习,从而产生准确的结果。机器学习与数据挖掘和贝叶斯预测模型密切相关。机器接收数据作为输入,并使用算法来制定答案。

典型的机器学习任务是提供建议。对于那些 Netflix 账户,所有电影或电视剧的推荐都基于用户的历史数据。科技公司正在使用 无监督学习 通过个性化推荐来提高用户体验。

机器学习还用于各种任务,如欺诈检测、预测性维护、投资组合优化、自动化任务等。

机器学习与传统编程

传统编程与机器学习有很大不同。在传统编程中,程序员会与软件开发行业的专家协商编写所有规则。每条规则都基于逻辑基础;机器将按照逻辑语句执行输出。当系统变得复杂时,需要编写更多规则。它很快就会变得难以维持。

传统编程
传统编程

机器学习旨在克服这个问题。机器学习输入和输出数据是如何关联的,并编写规则。程序员不需要每次有新数据时都编写新规则。算法会根据新数据和经验进行调整,从而随着时间的推移提高效率。

机器学习

机器学习

机器学习如何工作?

现在,在本机器学习基础初学者教程中,我们将学习机器学习(ML)的工作原理:

机器学习是大脑,所有学习都发生在其中。机器学习的方式与人类相似。人类从经验中学习。我们知道的越多,我们就越容易预测。类似地,当我们面对未知情况时,成功的可能性低于已知情况。机器也接受同样的训练。为了做出准确的预测,机器会看到一个例子。当我们给机器一个类似的例子时,它可以算出结果。然而,就像人类一样,如果给它一个以前没见过的例子,机器就很难预测。

机器学习的核心目标是 学习推理首先,机器通过发现模式来学习。这一发现得益于 data数据科学家的一个关键部分是仔细选择要向机器提供哪些数据。用于解决问题的属性列表称为 特征向量。 您可以将特征向量视为用于解决问题的数据子集。

机器使用一些奇特的算法来简化现实,并将这一发现转化为 模型因此学习阶段就是用来描述数据,并总结成模型的。

机器学习工作

例如,机器试图理解个人的工资与去高档餐厅的可能性之间的关系。结果发现,机器发现工资与去高档餐厅之间存在正相关关系:这是模型

推断

当模型建立后,就可以测试它在从未见过的数据上有多强大。新数据被转换成特征向量,经过模型并给出预测。这都是机器学习的美妙之处。无需更新规则或再次训练模型。您可以使用之前训练过的模型对新数据进行推理。

从模型推断

机器学习程序的生命周期很简单,可以总结为以下几点:

  1. 定义问题
  2. 收集数据
  3. 可视化数据
  4. 训练算法
  5. 测试算法
  6. 收集反馈
  7. 完善算法
  8. 循环4-7直到结果令人满意
  9. 使用模型进行预测

一旦算法能够得出正确的结论,它就会将这些知识应用到新的数据集上。

机器学习 Algorithms 以及它们的用途是什么?

现在,在本针对初学者的机器学习教程中,我们将学习机器学习(ML)算法的使用场景:

机器学习 Algorithms

机器识别 Algorithms

机器学习可以分为两大类学习任务:监督学习和无监督学习。还有许多其他算法

监督学习

算法使用训练数据和人类反馈来学习给定输入与给定输出之间的关系。例如,从业者可以使用营销费用和天气预报作为输入数据来预测罐头的销量。

当输出数据已知时,你可以使用监督学习。算法将预测新数据。

有两类 监督学习:

  • 分类任务
  • 回归任务

分类

假设你想预测一个商业广告中顾客的性别。你将开始从客户数据库中收集身高、体重、工作、薪水、购物篮等数据。你知道每个顾客的性别,只能是男性或女性。分类器的目标是根据信息(即你收集的特征)分配男性或女性的概率(即标签)。当模型学会如何识别男性或女性时,你就可以使用新数据进行预测。例如,你刚刚从一位陌生客户那里得到新信息,你想知道他是男性还是女性。如果分类器预测男性 = 70%,这意味着算法有 70% 的把握认为该顾客是男性,有 30% 的把握认为他是女性。

标签可以属于两个或多个类别。上面的机器学习示例只有两个类别,但如果分类器需要预测对象,则它有数十个类别(例如,玻璃、桌子、鞋子等,每个对象代表一个类别)

数据复原测试

当输出是连续值时,任务就是回归。例如,金融分析师可能需要根据股权、先前股票表现、宏观经济指数等一系列特征来预测股票的价值。系统将接受训练,以尽可能低的误差估计股票价格。

算法 描述 类型
线性回归 找到一种方法将每个特征与输出关联起来,以帮助预测未来值。 数据复原测试
逻辑回归 用于分类任务的线性回归的扩展。输出变量 3 是二进制的(例如,只有黑色或白色),而不是连续的(例如,无限的潜在颜色列表) 分类
决策树 高度可解释的分类或回归模型,在决策节点将数据特征值拆分为分支(例如,如果特征是颜色,则每种可能的颜色都会变成一个新分支),直到做出最终的决策输出 数据复原测试
分类
朴素贝叶斯 贝叶斯方法是一种利用贝叶斯定理的分类方法。该定理利用每个特征对事件产生影响的独立概率来更新事件的先验知识。 数据复原测试
分类
支持向量机
支持向量机(SVM)通常用于分类任务。
SVM 算法寻找最佳划分类别的超平面。该算法最好与非线性求解器一起使用。
回归(不太常见)
分类
随机森林 该算法建立在决策树之上,可大幅提高准确率。随机森林会生成许多简单的决策树,并使用“多数投票”方法决定返回哪个标签。对于分类任务,最终预测将是获得最多投票的预测;而对于回归任务,所有树的平均预测就是最终预测。 数据复原测试
分类
阿达助推器 分类或回归技术使用多种模型来做出决策,但根据其预测结果的准确性对它们进行加权 数据复原测试
分类
梯度提升树 梯度提升树是一种最先进的分类/回归技术。它专注于先前的树所犯的错误并尝试纠正它。 数据复原测试
分类

无监督学习

在无监督学习中,算法会在没有给出明确输出变量的情况下探索输入数据(例如,探索客户人口统计数据以识别模式)

当你不知道如何对数据进行分类,而希望算法找到模式并为你对数据进行分类时,你可以使用它

算法名称 描述 类型
K均值聚类 将数据放入一些组(k),每个组包含具有相似特征的数据(由模型确定,而不是由人提前确定) Cluster博士开发的技术萃取的
高斯混合模型 K 均值聚类的泛化,为群组(聚类)的大小和形状提供了更大的灵活性 Cluster博士开发的技术萃取的
层次聚类 沿着层次树分割聚类以形成分类系统。

可用于 Cluster 会员卡客户

Cluster博士开发的技术萃取的
推荐系统 帮助定义提出建议的相关数据。 Cluster博士开发的技术萃取的
PCA/T-SNE 主要用于降低数据的维数。该算法将特征数量减少到方差最大的 3 或 4 个向量。 降维

如何选择机器学习算法

现在,在本机器学习基础教程中,我们将学习如何选择机器学习(ML)算法:

机器学习算法有很多种,算法的选择取决于目标。

在下面的机器学习示例中,任务是预测三种花中的哪一种。预测基于花瓣的长度和宽度。图片展示了十种不同算法的结果。左上角的图片是数据集。数据分为三类:红色、浅蓝色和深蓝色。有一些分组。例如,从第二张图像中,左上角的所有内容都属于红色类别,中间部分是不确定和浅蓝色的混合,而底部对应于深色类别。其他图像展示了不同的算法以及它们如何尝试对数据进行分类。

如何选择机器学习算法

机器学习的挑战和局限性

现在,在本机器学习教程中,我们将了解机器学习的局限性:

机器学习的主要挑战是缺乏数据或数据集的多样性。如果没有可用的数据,机器就无法学习。此外,缺乏多样性的数据集会给机器带来困难。机器需要具有异质性才能学习有意义的见解。当没有或很少有变化时,算法很少能提取信息。建议每组至少有 20 个观察结果来帮助机器学习。这种限制会导致评估和预测不佳。

机器学习的应用

现在,在本机器学习教程中,让我们学习机器学习的应用:

提高:

  • 机器学习可帮助人类完成日常任务,无论是个人任务还是商业任务,而无需完全控制输出。这种机器学习有多种用途,例如虚拟助手、数据分析、软件解决方案。主要用户是减少由于人为偏见而导致的错误。

自动化:

  • 机器学习,可在任何领域完全自主地工作,无需任何人工干预。例如,机器人在制造工厂中执行必要的工艺步骤。

金融业

  • 机器学习在金融行业越来越受欢迎。银行主要使用机器学习来寻找数据中的模式,同时也用于防止欺诈。

政府机构

  • 政府利用机器学习来管理公共安全和公用事业。以中国大规模使用人脸识别技术为例。政府利用 人工智能 以防止横穿马路。

医疗行业

  • 医疗保健是最早使用机器学习和图像检测的行业之一。

营销

  • 由于数据资源丰富,人工智能在营销领域得到广泛应用。在海量数据时代之前,研究人员开发了贝叶斯分析等高级数学工具来估算客户价值。随着数据的蓬勃发展,营销部门依靠人工智能来优化客户关系和营销活动。

机器学习在供应链中的应用示例

机器学习在视觉模式识别方面取得了出色的成果,为整个供应链网络的物理检查和维护开辟了许多潜在的应用。

无监督学习可以在多样化的数据集中快速搜索可比较的模式。反过来,机器可以在整个物流中心、有损坏和磨损的货物上进行质量检查。

例如, IBM的 Watson 平台可以确定集装箱损坏情况。Watson 结合视觉和基于系统的数据来实时跟踪、报告和提出建议。

在过去的一年中,库存经理广泛依赖主要方法来评估和预测库存。当结合大数据和机器学习时,已经实施了更好的预测技术(比传统预测工具提高了 20% 到 30%)。就销售额而言,这意味着由于库存成本的潜在降低,销售额将增加 2% 到 3%。

机器学习谷歌汽车示例

例如,每个人都知道谷歌汽车。这辆车的车顶上布满了激光,可以告诉它自己在周围地区的位置。它前面有雷达,可以告知汽车周围所有汽车的速度和运动情况。它使用所有这些数据不仅可以弄清楚如何驾驶汽车,还可以弄清楚和预测汽车周围潜在的驾驶员将要做什么。令人印象深刻的是,这辆车每秒处理的数据量几乎达到 1 GB。

机器学习的应用

为什么机器学习很重要?

机器学习是迄今为止分析、理解和识别数据模式的最佳工具。机器学习背后的主要思想之一是,可以训练计算机自动执行人类无法完成或无法完成的任务。与传统分析的明显不同之处在于,机器学习可以在最少的人为干预下做出决策。

以本 ML 教程中的以下示例为例;零售代理可以根据自己的经验和对市场的了解来估算房价。

可以训练机器将专家的知识转化为特征。这些特征是房屋、社区、经济环境等所有造成价格差异的特征。对于专家来说,他可能花了几年时间才掌握估算房屋价格的技巧。他的专业知识在每次销售后都会越来越好。

对于机器来说,掌握这门艺术需要数百万数据(即示例)。在学习的最初阶段,机器会犯错误,就像初级销售员一样。一旦机器看到所有示例,它就会获得足够的知识来进行估算。同时,准确度令人难以置信。机器还能够相应地调整其错误。

大多数大公司都了解机器学习和数据的价值。麦肯锡估计,分析的价值范围从 $9.5万亿至 $15.4万亿 $5至7万亿可归因于最先进的人工智能技术。

另请阅读什么是模糊逻辑? Archi结构、应用和示例: 了解更多