Что такое большие данные? Введение, типы, характеристики, примеры

Прежде чем мы перейдем к введению в большие данные, вам сначала нужно знать

Что такое данные?

Величины, знаки или символы, над которыми выполняются операции с помощью компьютера, которые могут храниться и передаваться в форме электрических сигналов и записываться на магнитных, оптических или механических носителях записи.

Теперь давайте изучим определение больших данных.

Что такое большие данные?

Big Data представляет собой набор данных, который огромен по объему, ноwing экспоненциально со временем. Это данные такого большого размера иplexОчевидно, что ни один из традиционных инструментов управления данными не может эффективно хранить или обрабатывать их. Большие данные — это тоже данные, но огромного размера.

Big Data
Что такое большие данные?

Что является примером больших данных?

Фоллоwing Вот некоторые примеры больших данных:

Нью-Йоркская фондовая биржа является примером больших данных, которые генерируют около один терабайт новых торговых данных в день.

Пример больших данных

Соцсети

Статистика показывает, что 500+терабайт новых данных попадает в базы данных социальных сетей Facebook, каждый день. Эти данные в основном генерируются посредством загрузки фотографий и видео, обмена сообщениями, размещения комментариев и т. д.

Пример больших данных

Один Реактивный двигатель может генерировать 10+терабайт данных в 30 минут времени полета. При многих тысячах рейсов в день объем данных достигает многих Петабайты.

Пример больших данных

Типы больших данных

Фоллоwing Какие типы больших данных:

  1. Структурированный
  2. Неструктурированные
  3. Полуструктурированный

Структурированный

Любые данные, которые можно хранить, получать к ним доступ и обрабатывать в форме фиксированного формата, называются «структурированными» данными. За прошедший период специалисты в области компьютерных наук добились больших успехов в разработке методов работы с такими данными (формат которых известен заранее), а также извлечении из них пользы. Однако в настоящее время мы предвидим проблемы, когда размер таких данных сильно вырастет, типичные размеры достигают нескольких зеттабайт.

Знаете ли вы? 1021 байт равно 1 зеттабайт or one billионные терабайты формы зеттабайт.

Глядя на эти цифры, можно легко понять, почему дано название «большие данные», и представить себе проблемы, связанные с их хранением и обработкой.

Знаете ли вы? Данные, хранящиеся в системе управления реляционными базами данных, являются одним из примеров 'структурированный' поле.

Примеры структурированных данных

Таблица «Сотрудник» в базе данных является примером структурированных данных.

ID_сотрудника Имя сотрудника Пол Кафедра Зарплата_In_lacs
2365 Раджеш Кулкарни M Финансы 650000
3398 Пратибха Джоши F Администратор 650000
7465 Шушил Рой M Администратор 500000
7500 Шубходжит Дас M Финансы 500000
7699 Прия Сане F Финансы 550000

Неструктурированные

Любые данные с неизвестной формой или структурой классифицируются как неструктурированные данные. Помимо огромного размера, неструктурированные данные создают множество проблем с точки зрения их обработки для извлечения из них пользы. Типичным примером неструктурированных данных является гетерогеннаяneoисточник данных США, содержащий комбинацию простых текстовых файлов, изображений, видео и т. д. Сегодня у организаций есть множество доступных данных, но, к сожалению, они не знают, как извлечь из них пользу, поскольку эти данные находятся в необработанном виде или неструктурированный формат.

Примеры неструктурированных данных

Результат, возвращаемый поиском Google.

Пример неструктурированных данных
Пример неструктурированных данных

Полуструктурированный

Полуструктурированные данные могут содержать обе формы данных. Мы можем рассматривать полуструктурированные данные как структурированные по форме, но на самом деле они не определены, например, определением таблицы в реляционной форме. СУБД. Примером полуструктурированных данных являются данные, представленные в файле XML.

Примеры полуструктурированных данных

Персональные данные, хранящиеся в файле XML-

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

Рост данных с годами

Рост данных с годами
Рост данных с годами

Обратите внимание, что веб-приложение неструктурированные данные состоят из файлов журналов, файлов истории транзакций и т. д. OLTP-системы созданы для работы со структурированными данными, где данные хранятся в отношениях (таблицах).

Характеристики больших данных

Большие данные можно описать следующим образом:wing характеристики:

  • Объём
  • разнообразие
  • Скорость
  • Вариативность

(i) Объем – Само название «большие данные» связано с огромным размером. Размер данных играет очень важную роль в определении ценности данных. Кроме того, могут ли конкретные данные фактически рассматриваться как большие данные или нет, зависит от объема данных. Следовательно, 'Объем' — это одна из характеристик, которую необходимо учитывать при работе с решениями для больших данных.

(ii) Разнообразие – Следующий аспект больших данных – это их разнообразие.

Разнообразие относится к гетерогеннымneoнам источники и характер данных, как структурированных, так и неструктурированных. Раньше электронные таблицы и базы данных были единственными источниками данных, учитываемыми большинством приложений. В настоящее время данные в виде электроннойmailФотографии, видео, устройства мониторинга, PDF-файлы, аудио и т. д. также учитываются в приложениях для анализа. Такое разнообразие неструктурированных данных создает определенные проблемы для хранения, анализа и анализа данных.

(iii) Скорость – Термин 'скорость' относится к скорости генерации данных. То, насколько быстро данные генерируются и обрабатываются для удовлетворения потребностей, определяет реальный потенциал данных.

Скорость больших данных связана со скоростью, с которой данные поступают из таких источников, как бизнес-процессы, журналы приложений, сети и сайты социальных сетей, датчики, Мобильный телефон устройства и т. д. Поток данных огромен и непрерывен.

(iv) Вариативность – Это относится к несогласованности, которая может время от времени проявляться в данных, что затрудняет процесс эффективной обработки и управления данными.

Преимущества обработки больших данных

Способность обрабатывать большие данные в СУБД дает множество преимуществ, таких как:

  • Предприятия могут использовать внешнюю информацию при принятии решений

Доступ к социальным данным из поисковые системы а такие сайты, как Facebook и Twitter, позволяют организациям точно настраивать свои бизнес-стратегии.

  • Улучшенное обслуживание клиентов

Традиционные системы обратной связи с клиентами заменяются новыми системами, разработанными с использованием технологий больших данных. В этих новых системах для чтения и оценки реакций потребителей используются технологии обработки больших данных и естественного языка.

  • Раннее выявление риска для продукта/услуги, если таковой имеется.
  • Лучшая операционная эффективность

Технологии больших данных можно использовать для создания промежуточной или посадочной зоны для новых данных, прежде чем определить, какие данные следует переместить в информационное хранилище. Кроме того, такая интеграция технологий больших данных и хранилища данных помогает организации разгрузить данные, к которым редко обращаются.

Итоги

  • Определение больших данных: Большие данные означают данные огромного размера. «Большие данные» — это термин, используемый для описания коллекции данных, которая огромна по размеру и, тем не менее, растет.wing экспоненциально со временем.
  • Примеры анализа больших данных включают фондовые биржи, сайты социальных сетей, реактивные двигатели и т. д.
  • Большие данные могут быть 1) структурированными, 2) неструктурированными, 3) полуструктурированными.
  • Объем, разнообразие, скорость и изменчивость — вот лишь несколько характеристик больших данных.
  • Улучшение обслуживания клиентов, повышение операционной эффективности, улучшение процесса принятия решений — вот лишь некоторые преимущества больших данных.