Що таке великі дані? Вступ, види, характеристика, приклади
Що таке дані?
Величини, символи або символи, над якими операції виконуються комп’ютером, які можуть зберігатися та передаватись у формі електричних сигналів і записуватися на магнітні, оптичні чи механічні носії запису.
Тепер давайте вивчимо визначення Big Data
Що таке великі дані?
Великий даних це набір даних величезного обсягу, який з часом зростає експоненціально. Це дані такого великого розміру та складності, що жоден із традиційних інструментів керування даними не може їх зберігати чи ефективно обробляти. Великі дані – це також дані, але величезного розміру.
Що таке приклад великих даних?
Нижче наведено деякі приклади великих даних.
Команда New York Stock Exchange є прикладом великих даних, які генерують приблизно один терабайт нових торгових даних на день.
Соціальні мережі
Про це свідчить статистика 500 + терабайт нових даних потрапляє в бази даних сайту соціальних мереж Facebook, кожен день. Ці дані в основному генеруються під час завантаження фотографій і відео, обміну повідомленнями, розміщення коментарів тощо.
Одинокий Реактивний двигун може генерувати 10 + терабайт даних в 30 хвилин часу польоту. З багатьма тисячами рейсів на день генерація даних досягає багатьох Петабайти.
Типи великих даних
Нижче наведено типи великих даних:
- Структурований
- Неструктурований
- Напівструктурований
Структурований
Будь-які дані, які можна зберігати, отримувати доступ і обробляти у формі фіксованого формату, називають «структурованими» даними. З часом таланти в галузі інформатики досягли більшого успіху в розробці методів роботи з такими даними (де формат добре відомий заздалегідь), а також у отриманні з них цінності. Однак у наш час ми передбачаємо проблеми, коли розмір таких даних значно зростає, типові розміри досягають кількох зетабайтів.
Чи знаєте ви? 1021 bytes дорівнює 1 зетабайт or один мільярд терабайт форми зеттабайт.
Дивлячись на ці цифри, можна легко зрозуміти, чому дано назву Big Data, і уявити собі проблеми, пов’язані з їх зберіганням і обробкою.
Чи знаєте ви? Дані, що зберігаються в системі керування реляційною базою даних, є одним із прикладів a "структурований" дані.
Приклади структурованих даних
Таблиця «Співробітник» у базі даних є прикладом структурованих даних
Employee_ID | Ім'я працівника | Стать | відділ | Зарплата_в_лаках |
---|---|---|---|---|
2365 | Раджеш Кулкарні | чоловік | Фінансові установи | 650000 |
3398 | Пратібха Джоші | жінка | Адміністратор | 650000 |
7465 | Шушіл Рой | чоловік | Адміністратор | 500000 |
7500 | Шубходжит Дас | чоловік | Фінансові установи | 500000 |
7699 | Прія Сане | жінка | Фінансові установи | 550000 |
Неструктурований
Будь-які дані з невідомою формою або структурою класифікуються як неструктуровані дані. Крім величезного розміру, неструктуровані дані створюють численні проблеми з точки зору їх обробки для отримання з них цінності. Типовим прикладом неструктурованих даних є різнорідне джерело даних, що містить комбінацію простих текстових файлів, зображень, відео тощо. Сьогодні організації мають велику кількість даних, але, на жаль, вони не знають, як отримати з них цінність, оскільки ці дані знаходяться в необробленому або неструктурованому форматі.
Приклади неструктурованих даних
Висновок, який повертає "Пошук Google"
Напівструктурований
Напівструктуровані дані можуть містити обидві форми даних. Ми можемо розглядати напівструктуровані дані як структуровані за формою, але насправді вони не визначені, наприклад, визначенням таблиці в реляційному СУБД. Прикладом напівструктурованих даних є дані, представлені у файлі XML.
Приклади напівструктурованих даних
Особисті дані, що зберігаються у файлі XML-
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
Зростання даних протягом багатьох років
Зверніть увагу, що веб-застосунком дані, які є неструктурованими, складаються з файлів журналу, файлів історії транзакцій тощо. Системи OLTP створені для роботи зі структурованими даними, у яких дані зберігаються у зв’язках (таблицях).
Характеристики великих даних
Великі дані можна описати такими характеристиками:
- Об'єм
- Різноманітність
- Швидкість
- Змінність
(i) Обсяг – Сама назва Big Data пов’язана з величезним розміром. Розмір даних відіграє дуже важливу роль у визначенні цінності даних. Також від обсягу даних залежить те, чи дійсно певні дані можна вважати великими даними чи ні. Отже, 'Об'єм' це одна з характеристик, яку необхідно враховувати під час роботи з рішеннями для великих даних.
(ii) Різноманітність – Наступним аспектом Big Data є його різноманітність.
Різноманітність стосується неоднорідних джерел і характеру даних, як структурованих, так і неструктурованих. Раніше електронні таблиці та бази даних були єдиними джерелами даних для більшості програм. Зараз дані у вигляді електронних листів, фотографій, відео, пристроїв моніторингу, PDF-файлів, аудіо тощо також розглядаються в програмах аналізу. Ця різноманітність неструктурованих даних створює певні проблеми для зберігання, видобутку та аналізу даних.
(iii) Швидкість – Термін "швидкість" означає швидкість генерації даних. Те, наскільки швидко дані генеруються та обробляються відповідно до вимог, визначає реальний потенціал даних.
Швидкість великих даних стосується швидкості, з якою надходять дані з таких джерел, як бізнес-процеси, журнали програм, мережі та сайти соціальних мереж, датчики, Mobile пристрої тощо. Потік даних є масивним і безперервним.
(iv) Мінливість – Це стосується неузгодженості, яку іноді можуть демонструвати дані, що перешкоджає процесу ефективної обробки та керування даними.
Переваги обробки великих даних
Можливість обробляти великі дані в СУБД приносить багато переваг, таких як-
- Компанії можуть використовувати зовнішні дані під час прийняття рішень
Доступ до соціальних даних від пошукові системи а такі сайти, як Facebook, Twitter, дають змогу організаціям точно налаштувати свої бізнес-стратегії.
- Покращене обслуговування клієнтів
На зміну традиційним системам зворотного зв’язку з клієнтами приходять нові системи, розроблені з використанням технологій Big Data. У цих нових системах великі дані та технології обробки природної мови використовуються для читання та оцінки відгуків споживачів.
- Раннє виявлення ризику для продукту/послуг, якщо такий є
- Краща ефективність роботи
Технології великих даних можна використовувати для створення зони розміщення або посадкової зони для нових даних, перш ніж визначити, які дані слід перемістити до сховище даних. Крім того, така інтеграція технологій великих даних і сховища даних допомагає організації розвантажувати дані, до яких рідко звертаються.
Підсумки
- Визначення великих даних: Великі дані означають дані величезного розміру. Великі дані — це термін, який використовується для опису колекції даних величезного розміру, яка з часом зростає експоненціально.
- Приклади аналітики великих даних включають фондові біржі, сайти соціальних мереж, реактивні двигуни тощо.
- Великі дані можуть бути 1) структурованими, 2) неструктурованими, 3) напівструктурованими
- Обсяг, різноманітність, швидкість і мінливість – лише кілька характеристик великих даних
- Покращене обслуговування клієнтів, краща операційна ефективність, краще прийняття рішень – ось деякі переваги Bigdata