数据挖掘教程:什么是数据挖掘?技术、流程

什么是数据挖掘?

数据挖掘 是从庞大的数据集中寻找潜在有用模式的过程。这是一项跨学科的技能,它使用 机器学习、统计和人工智能来提取信息以评估未来事件的概率。数据挖掘得出的见解可用于营销、欺诈检测、科学发现等。

数据挖掘就是发现数据中隐藏的、未被怀疑的、以前未知但有效的关系。数据挖掘也称为数据知识发现 (KDD)、知识提取、数据/模式分析、信息收集等。

资料类型

可以对以下类型的数据进行数据挖掘

  • 关系数据库
  • 数据仓库
  • 高级数据库和信息存储库
  • 面向对象和对象关系数据库
  • 事务和空间数据库
  • 异构和遗留数据库
  • 多媒体和流媒体数据库
  • 文本数据库
  • 文本挖掘和 Web 挖掘

数据挖掘的实施过程

数据挖掘实施流程
数据挖掘实施流程

让我们详细研究数据挖掘的实现过程

业务了解

在此阶段,建立业务和数据挖掘目标。

  • 首先,你需要了解业务和客户目标。你需要明确客户想要什么(很多时候他们自己也不知道)
  • 评估当前的数据挖掘场景。将资源、假设、约束和其他重要因素纳入评估范围。
  • 使用业务目标和当前场景,定义您的数据挖掘目标。
  • 好的数据挖掘计划非常详细,应制定计划以实现业务和数据挖掘目标。

数据理解

在此阶段,将对数据进行健全性检查,以检查其是否适合数据挖掘目标。

  • 首先,从组织内可用的多个数据源收集数据。
  • 这些数据源可能包括多个数据库、平面文件或数据立方体。在数据集成过程中可能会出现对象匹配和模式集成等问题。这是一个相当复杂和棘手的过程,因为来自不同来源的数据不太可能轻易匹配。例如,表 A 包含一个名为 cust_no 的实体,而另一个表 B 包含一个名为 cust-id 的实体。
  • 因此,很难确保这两个给定的对象是否引用相同的值。这里应该使用元数据来减少数据集成过程中的错误。
  • 接下来,搜索已获取数据的属性。探索数据的一个好方法是使用查询、报告和可视化工具回答数据挖掘问题(在业务阶段决定)。
  • 根据查询结果,确定数据质量,如有缺失数据,应予以补全。

资料准备

在此阶段,数据已准备好投入生产。

数据准备过程大约占用了项目90%的时间。

应该选择、清理、转换、格式化、匿名化和构建(如果需要)来自不同来源的数据。

数据清理是通过平滑噪声数据和填充缺失值来“清洁”数据的过程。

例如,对于客户人口统计资料,缺少年龄数据。数据不完整,应予以补充。在某些情况下,可能存在数据异常值。例如,年龄值为 300。数据可能不一致。例如,不同表中的客户姓名不同。

数据转换操作会改变数据,使其在数据挖掘中有用。可以应用以下转换

数据转换

数据转换操作将有助于挖掘过程的成功。

平滑: 它有助于消除数据中的噪音。

聚合: 对数据进行汇总或聚合操作。例如,汇总每周销售数据以计算每月和每年的总数。

概括: 在此步骤中,借助概念层次结构,将低级数据替换为高级概念。例如,将城市替换为县。

正常化: 当属性数据按比例放大或缩小时执行规范化。示例:规范化后数据应处于 -2.0 到 2.0 的范围内。

属性构造:构建这些属性并包含有助于数据挖掘的给定属性集。

该过程的结果是可用于建模的最终数据集。

造型

在此阶段,使用数学模型来确定数据模式。

  • 根据业务目标,应为准备好的数据集选择合适的建模技术。
  • 创建一个场景来测试检查模型的质量和有效性。
  • 在准备好的数据集上运行模型。
  • 所有利益相关者都应评估结果,以确保模型能够满足数据挖掘目标。

评价

在此阶段,将根据业务目标对所识别的模式进行评估。

  • 应根据业务目标来评估数据挖掘模型生成的结果。
  • 获得业务理解是一个反复的过程。事实上,在理解的同时,可能会因为数据挖掘而产生新的业务需求。
  • 在部署阶段,需要做出是否移动模型的决定。

部署

在部署阶段,您将数据挖掘发现应用于日常业务运营。

  • 数据挖掘过程中发现的知识或信息应该让非技术利益相关者轻松理解。
  • 制定了数据挖掘发现的运输、维护和监控的详细部署计划。
  • 最终项目报告将总结项目过程中的经验教训和关键经验,有助于改善组织的业务政策。

数据挖掘技术

数据挖掘技术
数据挖掘技术

1。 分类

此分析用于检索有关数据和元数据的重要和相关信息。此数据挖掘方法有助于将数据分为不同的类别。

2. Cluster博士开发的技术萃取的

Cluster相似性分析是一种数据挖掘技术,用于识别彼此相似的数据。此过程有助于了解数据之间的差异和相似之处。

3。 回归

回归分析是识别和分析变量之间关系的数据挖掘方法。它用于在存在其他变量的情况下识别特定变量的可能性。

4. 关联规则

这种数据挖掘技术有助于找到两个或多个项目之间的关联。它发现数据集中隐藏的模式。

5. 外部检测

这种数据挖掘技术是指观察数据集中与预期模式或预期行为不匹配的数据项。该技术可用于各种领域,例如入侵、检测、欺诈或故障检测等。外部检测也称为离群值分析或离群值挖掘。

6. 序列模式

这种数据挖掘技术有助于发现或识别一定时期内交易数据中的相似模式或趋势。

7. 预言

预测结合了数据挖掘的其他技术,如趋势、序列模式、聚类、分类等。它按照正确的顺序分析过去的事件或实例,以预测未来事件。

数据挖掘实施的挑战

  • 需要熟练的专家来制定数据挖掘查询。
  • 过度拟合:由于训练数据库规模较小,模型可能不适合未来状态。
  • 数据挖掘需要大型数据库,有时很难管理
  • 可能需要修改商业实践来确定如何使用所发现的信息。
  • 如果数据集不够多样化,数据挖掘结果可能不准确。
  • 异构数据库和全球信息系统所需的集成信息可能很复杂

数据挖掘示例

现在,在本数据挖掘课程中,让我们通过示例了解数据挖掘:

例如1:

假设有一位电信服务提供商的营销主管想要增加长途服务的收入。为了提高销售和营销工作的投资回报率,客户分析非常重要。他拥有大量客户信息数据库,包括年龄、性别、收入、信用记录等。但通过人工分析无法确定喜欢长途电话的人的特征。使用数据挖掘技术,他可以发现长途电话高用户及其特征之间的模式。

例如,他可能会了解到,他的最佳客户是年龄在 45 至 54 岁之间、年收入超过 80,000 美元的已婚女性。营销工作可以针对此类人群进行。

例如2:

一家银行希望寻找新方法来增加其信用卡业务的收入。他们想看看如果费用减半,使用量是否会翻倍。

银行拥有多年平均信用卡余额、付款金额、信用额度使用情况和其他关键参数的记录。他们创建了一个模型来检查拟议的新业务政策的影响。数据结果表明,将目标客户群的费用减半可以增加 10 万美元的收入。

数据挖掘工具

以下是 2 个热门 数据挖掘工具 广泛应用于工业

R 语言:

R语言 是一款用于统计计算和图形的开源工具。R 具有多种统计、经典统计测试、时间序列分析、分类和图形技术。它提供有效的数据处理和存储功能。

点击此处了解详情

Oracle 数据挖掘:

Oracle 数据挖掘 俗称ODM是 Oracle 高级分析数据库。此数据挖掘工具允许数据分析师生成详细的见解并做出预测。它有助于预测客户行为、开发客户档案、识别交叉销售机会。

点击此处了解详情

数据挖掘的好处

  • 数据挖掘技术帮助企业获取基于知识的信息。
  • 数据挖掘帮助组织在运营和生产中做出有利可图的调整。
  • 与其他统计数据应用相比,数据挖掘是一种经济高效的解决方案。
  • 数据挖掘有助于决策过程。
  • 促进趋势和行为的自动预测以及隐藏模式的自动发现。
  • 它可以在新系统和现有平台中实现
  • 这是一个快速的过程,使用户能够在更短的时间内轻松分析大量数据。

数据挖掘的缺点

  • 有些公司可能会为了赚钱而将客户的有用信息出售给其他公司。例如,美国运通 (American Express) 就将其客户的信用卡购买记录出售给其他公司。
  • 许多数据挖掘分析软件操作困难,需要提前培训才能使用。
  • 由于设计时采用的算法不同,不同的数据挖掘工具的工作方式也不同。因此,选择正确的数据挖掘工具是一项非常困难的任务。
  • 数据挖掘技术并不准确,因此在某些情况下会导致严重后果。

数据挖掘应用

应用 用法
传播学 数据挖掘技术用于通信领域,以预测客户行为,以提供高度针对性和相关的活动。
保险 数据挖掘帮助保险公司确定其产品的盈利价格,并向新老客户推广新的优惠。
教学 数据挖掘有助于教育工作者获取学生数据、预测成绩水平并找到需要额外关注的学生或学生群体。例如,数学较弱的学生。
制造业生产环境 借助数据挖掘,制造商可以预测生产资产的磨损情况。他们可以预测维护情况,从而减少维护,最大程度地缩短停机时间。
银行业 数据挖掘帮助金融部门了解市场风险并管理监管合规性。它帮助银行识别可能的违约者,以决定是否发放信用卡、贷款等。
零售 数据挖掘技术可帮助零售商和杂货店识别最畅销的商品,并将其摆放在最显眼的位置。它可帮助店主提出鼓励顾客增加消费的优惠。
服务供应商 移动电话和公用事业等服务提供商使用数据挖掘来预测客户离开公司的原因。他们分析账单明细、客户服务互动、对公司的投诉,为每个客户分配一个概率分数并提供奖励。
电子商务管理 电子商务网站使用数据挖掘通过其网站提供交叉销售和追加销售。其中最著名的例子是 Amazon他们使用数据挖掘技术来吸引更多的客户进入他们的电子商务商店。
超级市场 数据挖掘使超市能够制定规则来预测购物者是否可能怀孕。通过评估购物者的购买模式,超市可以找到最有可能怀孕的女性顾客。超市可以开始针对婴儿爽身粉、婴儿用品、尿布等产品进行销售。
犯罪调查 数据挖掘帮助犯罪调查机构部署警力(犯罪最有可能发生在哪里以及什么时候发生?)、在边境口岸搜查谁等等。
生物信息学 数据挖掘有助于从生物学和医学领域收集的海量数据集中挖掘生物数据。

结语

  • 数据挖掘定义:数据挖掘就是通过以下方式解释过去并预测未来 数据分析.
  • 数据挖掘有助于从大量数据中提取信息。它是从数据中挖掘知识的过程。
  • 数据挖掘过程包括业务理解、数据理解、数据准备、建模、演变、部署。
  • 重要的数据挖掘技术包括分类、聚类、回归、关联规则、外部检测、序列模式和预测
  • R 语言 以及 Oracle 数据挖掘是突出的数据挖掘工具和技术。
  • 数据挖掘技术帮助企业获取基于知识的信息。
  • 数据挖掘的主要缺点是许多分析软件难以操作,需要提前培训才能使用。
  • 数据挖掘应用于通信、保险、教育、制造、银行、零售、服务提供商、电子商务、超市生物信息学等不同行业。

总结一下这篇文章: