Что такое большие данные? Введение, типы, характеристики, примеры

Прежде чем мы перейдем к введению в большие данные, вам сначала нужно знать

Что такое данные?

Величины, знаки или символы, над которыми выполняются операции с помощью компьютера, которые могут храниться и передаваться в форме электрических сигналов и записываться на магнитных, оптических или механических носителях записи.

Теперь давайте изучим определение больших данных.

Что такое большие данные?

Big Data представляет собой коллекцию данных, которая имеет огромный объем, но со временем растет в геометрической прогрессии. Это данные настолько большого размера и сложности, что ни один из традиционных инструментов управления данными не может их эффективно хранить или обрабатывать. Большие данные — это тоже данные, но огромного размера.

Big Data
Что такое большие данные?

Что является примером больших данных?

Ниже приведены некоторые примеры больших данных.

Территория Нью-Йоркская фондовая биржа является примером больших данных, которые генерируют около один терабайт новых торговых данных в день.

Пример больших данных

Соцсети

Статистика показывает, что 500+терабайт новых данных попадает в базы данных социальных сетей Facebook, каждый день. Эти данные в основном генерируются посредством загрузки фотографий и видео, обмена сообщениями, размещения комментариев и т. д.

Пример больших данных

Один Реактивный двигатель может генерировать 10+терабайт данных в 30 минут времени полета. При многих тысячах рейсов в день объем данных достигает многих Петабайты.

Пример больших данных

Типы больших данных

Ниже приведены типы больших данных:

  1. Структурированный
  2. Неструктурированные
  3. Полуструктурированный

Структурированный

Любые данные, которые можно хранить, получать к ним доступ и обрабатывать в форме фиксированного формата, называются «структурированными» данными. За прошедший период специалисты в области компьютерных наук добились больших успехов в разработке методов работы с такими данными (формат которых известен заранее), а также извлечении из них пользы. Однако в настоящее время мы предвидим проблемы, когда размер таких данных сильно вырастет, типичные размеры достигают нескольких зеттабайт.

Знаете ли вы? 1021 байт равно 1 зеттабайт or один миллиард терабайт формы зеттабайт.

Глядя на эти цифры, можно легко понять, почему дано название «большие данные», и представить себе проблемы, связанные с их хранением и обработкой.

Знаете ли вы? Данные, хранящиеся в системе управления реляционными базами данных, являются одним из примеров 'структурированный' поле.

Примеры структурированных данных

Таблица «Сотрудник» в базе данных является примером структурированных данных.

ID_сотрудника Имя сотрудника пол Кафедра Зарплата_In_lacs
2365 Раджеш Кулкарни M Финансовые 650000
3398 Пратибха Джоши F Админ 650000
7465 Шушил Рой M Админ 500000
7500 Шубходжит Дас M Финансовые 500000
7699 Прия Сане F Финансовые 550000

Неструктурированные

Любые данные с неизвестной формой или структурой классифицируются как неструктурированные данные. Помимо огромного размера, неструктурированные данные создают множество проблем с точки зрения их обработки для извлечения из них пользы. Типичным примером неструктурированных данных является гетерогенный источник данных, содержащий комбинацию простых текстовых файлов, изображений, видео и т. д. Сегодня организации располагают огромным количеством доступных данных, но, к сожалению, они не знают, как извлечь из них пользу, поскольку эти данные находятся в необработанном или неструктурированном формате.

Примеры неструктурированных данных

Результат, возвращаемый поиском Google.

Пример неструктурированных данных
Пример неструктурированных данных

Полуструктурированный

Полуструктурированные данные могут содержать обе формы данных. Мы можем рассматривать полуструктурированные данные как структурированные по форме, но на самом деле они не определены, например, определением таблицы в реляционной форме. СУБД. Примером полуструктурированных данных являются данные, представленные в файле XML.

Примеры полуструктурированных данных

Персональные данные, хранящиеся в файле XML-

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

Рост данных с годами

Рост данных с годами
Рост данных с годами

Обратите внимание, что веб-приложение неструктурированные данные состоят из файлов журналов, файлов истории транзакций и т. д. OLTP-системы созданы для работы со структурированными данными, где данные хранятся в отношениях (таблицах).

Характеристики больших данных

Большие данные можно описать следующими характеристиками:

  • Объём
  • разнообразие
  • Скорость
  • Вариативность

(i) Объем – Само название «большие данные» связано с огромным размером. Размер данных играет очень важную роль в определении ценности данных. Кроме того, могут ли конкретные данные фактически рассматриваться как большие данные или нет, зависит от объема данных. Следовательно, 'Объем' — это одна из характеристик, которую необходимо учитывать при работе с решениями для больших данных.

(ii) Разнообразие – Следующий аспект больших данных – это их разнообразие.

Разнообразие относится к разнородным источникам и характеру данных, как структурированных, так и неструктурированных. Раньше электронные таблицы и базы данных были единственными источниками данных, учитываемыми большинством приложений. В настоящее время в приложениях анализа также учитываются данные в виде электронных писем, фотографий, видео, устройств мониторинга, PDF-файлов, аудио и т. д. Такое разнообразие неструктурированных данных создает определенные проблемы для хранения, анализа и анализа данных.

(iii) Скорость – Термин 'скорость' относится к скорости генерации данных. То, насколько быстро данные генерируются и обрабатываются для удовлетворения потребностей, определяет реальный потенциал данных.

Скорость больших данных связана со скоростью, с которой данные поступают из таких источников, как бизнес-процессы, журналы приложений, сети и сайты социальных сетей, датчики, Mobile устройства и т. д. Поток данных огромен и непрерывен.

(iv) Вариативность – Это относится к несогласованности, которая может время от времени проявляться в данных, что затрудняет процесс эффективной обработки и управления данными.

Преимущества обработки больших данных

Способность обрабатывать большие данные в СУБД дает множество преимуществ, таких как:

  • Предприятия могут использовать внешнюю информацию при принятии решений

Доступ к социальным данным из поисковые системы а такие сайты, как Facebook и Twitter, позволяют организациям точно настраивать свои бизнес-стратегии.

  • Улучшенное обслуживание клиентов

Традиционные системы обратной связи с клиентами заменяются новыми системами, разработанными с использованием технологий больших данных. В этих новых системах для чтения и оценки реакций потребителей используются технологии обработки больших данных и естественного языка.

  • Раннее выявление риска для продукта/услуги, если таковой имеется.
  • Лучшая операционная эффективность

Технологии больших данных можно использовать для создания промежуточной или посадочной зоны для новых данных, прежде чем определить, какие данные следует переместить в информационное хранилище. Кроме того, такая интеграция технологий больших данных и хранилища данных помогает организации разгрузить данные, к которым редко обращаются.

Резюме

  • Определение больших данных: Большие данные означают данные огромного размера. «Большие данные» — это термин, используемый для описания огромной по размеру коллекции данных, которая со временем растет в геометрической прогрессии.
  • Примеры анализа больших данных включают фондовые биржи, сайты социальных сетей, реактивные двигатели и т. д.
  • Большие данные могут быть 1) структурированными, 2) неструктурированными, 3) полуструктурированными.
  • Объем, разнообразие, скорость и изменчивость — вот лишь несколько характеристик больших данных.
  • Улучшение обслуживания клиентов, повышение операционной эффективности, улучшение процесса принятия решений — вот лишь некоторые преимущества больших данных.