什么是大数据?简介、类型、特征、示例

在介绍大数据之前,你首先需要知道

什么是数据?

由计算机进行运算,以电信号形式存储和传输,并记录在磁、光或机械记录介质上的量、字符或符号。

现在,让我们了解大数据的定义

什么是大数据?

大数据 是数量庞大且随时间呈指数级增长的数据集合。数据规模如此庞大且复杂,以至于任何传统数据管理工具都无法有效存储或处理它。大数据也是一种数据,但规模巨大。

大数据
什么是大数据?

什么是大数据的例子?

以下是一些大数据示例-

这个 纽约证券交易所 是大数据的一个例子,它生成 XNUMXTB 每天有 3000 个新的贸易数据。

大数据示例

社交媒体

统计数据显示 500+TB 的新数据被输入社交媒体网站的数据库 Facebook,每天。这些数据主要来自照片和视频上传、消息交流、发表评论等。

大数据示例

一个单一的 喷气发动机 可以生成 10+TB 中的数据 30分钟 飞行时间。每天有数千架飞机,产生的数据量高达 PB。

大数据示例

大数据的类型

大数据的类型如下:

  1. 结构化
  2. 非结构化
  3. 半结构化

结构化

任何可以以固定格式存储、访问和处理的数据都称为“结构化”数据。随着时间的推移,计算机科学领域的人才在开发处理此类数据(格式是预先知道的)的技术以及从中获取价值方面取得了更大的成功。然而,如今,我们预见到,当此类数据的大小增长到巨大的程度时,就会出现问题,典型的大小在数泽字节的范围内。

你知道吗? 1021 字节 等于 1 泽字节 or 十亿兆字节 形式 一泽字节.

通过查看这些数字,我们可以很容易地理解为什么称之为大数据,并想象出在存储和处理大数据过程中所面临的挑战。

你知道吗? 关系数据库管理系统中存储的数据就是 '结构化的' 数据。

结构化数据示例

数据库中的“员工”表是结构化数据的一个例子

员工ID 员工姓名 性别 问题类型 工资
2365 拉杰什·库尔卡尼 (男) 金融 650000
3398 普拉提巴·乔希(Pratibha Joshi) (女) 管理員 650000
7465 舒希尔·罗伊 (男) 管理員 500000
7500 舒布吉特·达斯 (男) 金融 500000
7699 普丽雅·萨内 (女) 金融 550000

非结构化

任何形式或结构未知的数据都属于非结构化数据。除了规模巨大之外,非结构化数据在处理过程中也面临诸多挑战,难以从中获取价值。非结构化数据的典型示例是包含简单文本文件、图像、视频等组合的异构数据源。如今,组织拥有大量可用数据,但不幸的是,他们不知道如何从中获取价值,因为这些数据是原始形式或非结构化格式。

非结构化数据的示例

“Google 搜索”返回的输出

非结构化数据示例
非结构化数据示例

半结构化

半结构化数据可以包含这两种形式的数据。我们可以将半结构化数据视为结构化形式,但实际上它并没有定义,例如关系型数据库中的表定义 DBMS. 半结构化数据的示例是以 XML 文件形式表示的数据。

半结构化数据的示例

存储在 XML 文件中的个人数据

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

多年来数据增长

多年来数据增长
多年来数据增长

请注意: Web应用程序 非结构化的数据包括日志文件、交易历史文件等。OLTP 系统用于处理结构化数据,其中数据存储在关系(表)中。

大数据的特征

大数据可以用以下特点来描述:

  • 音量
  • 品种
  • 速度
  • 变化性

(一)数量—— 大数据这个名字本身就与巨大的规模有关。数据的大小在确定数据的价值方面起着非常关键的作用。此外,特定数据是否真的可以被视为大数据,取决于数据量。因此, '卷' 是处理大数据解决方案时需要考虑的一个特征。

(二)多样性—— 大数据的下一个方面是 各种.

多样性是指异构源和数据的性质,包括结构化和非结构化数据。以前,电子表格和数据库是大多数应用程序考虑的唯一数据来源。如今,分析应用程序也在考虑电子邮件、照片、视频、监控设备、PDF、音频等形式的数据。这种非结构化数据的多样性给数据存储、挖掘和分析带来了一些问题。

(三)速度 期限 '速度' 指数据生成的速度。数据生成和处理的速度是否能满足需求,决定了数据中真正的潜力。

大数据速度涉及数据从业务流程、应用程序日志、网络、社交媒体网站、传感器等来源流入的速度, 联络号码 设备等。数据流是巨大的、连续的。

(四)多变性—— 这是指数据有时会表现出不一致性,从而妨碍有效处理和管理数据的过程。

大数据处理的优势

在 DBMS 中处理大数据的能力带来了多种好处,例如:

  • 企业在做出决策时可以利用外部情报

访问社交数据 搜索引擎 Facebook、Twitter 等网站使组织能够微调其商业策略。

  • 改善客户服务

传统的客户反馈系统正在被采用大数据技术设计的新系统所取代。在这些新系统中,大数据和自然语言处理技术被用于阅读和评估消费者的反应。

  • 尽早识别产品/服务的风险(如果有)
  • 更好的运营效率

大数据技术可用于在确定哪些数据应移至 数据仓库。此外,大数据技术与数据仓库的这种整合有助于组织卸载不经常访问的数据。

结语

  • 大数据定义:大数据是指规模巨大的数据。大数据是一个术语,用于描述规模巨大且随时间呈指数增长的数据集合。
  • 大数据分析示例包括股票交易所、社交媒体网站、喷气发动机等。
  • 大数据可以是 1) 结构化的,2) 非结构化的,3) 半结构化的
  • 大数据的特点包括:数量大、种类多、速度快、变化多端
  • 改善客户服务、提高运营效率、改善决策是大数据的几个优势