Какво е Big Data? Въведение, видове, характеристики, примери
Какво е данни?
Количествата, знаците или символите, върху които се извършват операции от компютър, които могат да се съхраняват и предават под формата на електрически сигнали и да се записват на магнитни, оптични или механични носители за запис.
Сега нека научим дефиницията на Big Data
Какво е Big Data?
Голямо количество от данни е колекция от данни с огромен обем, но нарастваща експоненциално с времето. Това са данни с толкова голям размер и сложност, че никой от традиционните инструменти за управление на данни не може да ги съхранява или обработва ефективно. Големите данни също са данни, но с огромен размер.

Какво е пример за големи данни?
Следват някои от примерите за големи данни -
- New York Stock Exchange е пример за големи данни, които генерират около един терабайт нови търговски данни на ден.
Социална медия
Това показва статистиката 500+терабайта нови данни се поглъщат в базите данни на сайта на социалните медии Facebook, всеки ден. Тези данни се генерират главно по отношение на качване на снимки и видеоклипове, обмен на съобщения, поставяне на коментари и др.
Сингъл Реактивен двигател може да генерира 10+терабайта на данни в 30 минути на времето за полет. С много хиляди полети на ден генерирането на данни достига до много петабайти.
Видове големи данни
Следват видовете Big Data:
- Структуриран
- Неструктуриран
- Полуструктуриран
Структуриран
Всички данни, които могат да бъдат съхранявани, достъпни и обработвани под формата на фиксиран формат, се наричат „структурирани“ данни. С течение на времето талантите в областта на компютърните науки са постигнали по-голям успех в разработването на техники за работа с такъв вид данни (където форматът е добре известен предварително), както и в извличането на стойност от тях. В днешно време обаче предвиждаме проблеми, когато размерът на такива данни нарасне до огромна степен, типичните размери са в яростта на няколко зетабайта.
Знаеш ли? 1021 байта равна на 1 зетабайт or един милиард терабайта форми зетабайт.
Разглеждайки тези цифри, човек лесно може да разбере защо е дадено името Big Data и да си представи предизвикателствата, свързани с тяхното съхранение и обработка.
Знаеш ли? Данните, съхранявани в система за управление на релационна база данни, са един пример за a "структуриран" данни.
Примери за структурирани данни
Таблица „Служител“ в база данни е пример за структурирани данни
Employee_ID | Employee_Name | Пол | отдел | Заплата_в_лак |
---|---|---|---|---|
2365 | Раджеш Кулкарни | Мъжки | финанси | 650000 |
3398 | Пратиба Джоши | Женски | Admin | 650000 |
7465 | Шушил Рой | Мъжки | Admin | 500000 |
7500 | Шубходжит Дас | Мъжки | финанси | 500000 |
7699 | Прия Сане | Женски | финанси | 550000 |
Неструктуриран
Всички данни с неизвестна форма или структура се класифицират като неструктурирани данни. В допълнение към огромния размер, неструктурираните данни поставят множество предизвикателства по отношение на тяхната обработка за извличане на стойност от тях. Типичен пример за неструктурирани данни е разнороден източник на данни, съдържащ комбинация от прости текстови файлове, изображения, видеоклипове и т.н. Днес организациите разполагат с богатство от данни, но за съжаление не знаят как да извлекат стойност от тях, тъй като тези данни са в необработен вид или неструктуриран формат.
Примери за неструктурирани данни
Резултатът, върнат от „Google Търсене“
Полуструктуриран
Полуструктурираните данни могат да съдържат и двете форми на данни. Можем да видим полуструктурираните данни като структурирани във форма, но те всъщност не са дефинирани с например дефиниция на таблица в релационни СУБД. Пример за полуструктурирани данни са данни, представени в XML файл.
Примери за полуструктурирани данни
Лични данни, съхранявани в XML файл-
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
Растеж на данните през годините
Имайте предвид, че уеб приложение данните, които са неструктурирани, се състоят от лог файлове, файлове с история на транзакциите и т.н. OLTP системите са изградени да работят със структурирани данни, където данните се съхраняват в релации (таблици).
Характеристики на Big Data
Големите данни могат да бъдат описани със следните характеристики:
- Размер
- разнообразие
- Скорост
- променливост
(i) Обем – Самото име Big Data е свързано с размер, който е огромен. Размерът на данните играе много важна роля при определянето на стойността на данните. Също така, дали определени данни действително могат да се считат за големи данни или не, зависи от обема на данните. следователно 'Сила на звука' е една характеристика, която трябва да се вземе предвид при работа с решения за големи данни.
(ii) Разнообразие – Следващият аспект на Big Data е неговият разнообразие.
Разнообразието се отнася до разнородни източници и естеството на данните, както структурирани, така и неструктурирани. През по-ранните дни електронните таблици и базите данни бяха единствените източници на данни, разглеждани от повечето приложения. В днешно време данните под формата на имейли, снимки, видеоклипове, устройства за наблюдение, PDF файлове, аудио и др. също се разглеждат в приложенията за анализ. Това разнообразие от неструктурирани данни създава определени проблеми за съхранението, извличането и анализирането на данни.
(iii) Скорост – Терминът "скорост" се отнася до скоростта на генериране на данни. Колко бързо данните се генерират и обработват, за да отговорят на изискванията, определя реалния потенциал в данните.
Big Data Velocity се занимава със скоростта, с която данните постъпват от източници като бизнес процеси, регистрационни файлове на приложения, мрежи и сайтове за социални медии, сензори, подвижен устройства и т.н. Потокът от данни е масивен и непрекъснат.
(iv) Променливост – Това се отнася до несъответствието, което понякога може да бъде показано от данните, като по този начин възпрепятства процеса на ефективно обработване и управление на данните.
Предимства на обработката на големи данни
Възможността за обработка на големи данни в СУБД носи множество предимства, като например-
- Бизнесът може да използва външно разузнаване, докато взема решения
Достъп до социални данни от търсачки и сайтове като Facebook, Twitter дават възможност на организациите да прецизират своите бизнес стратегии.
- Подобрено обслужване на клиентите
Традиционните системи за обратна връзка с клиентите се заменят от нови системи, проектирани с технологии за големи данни. В тези нови системи технологиите за обработка на големи данни и естествен език се използват за четене и оценка на отговорите на потребителите.
- Ранно идентифициране на риска за продукта/услугата, ако има такъв
- По-добра оперативна ефективност
Технологиите за големи данни могат да се използват за създаване на зона за изтегляне или зона за кацане за нови данни, преди да се определи какви данни трябва да бъдат преместени в склад за данни. В допълнение, такава интеграция на технологии за големи данни и хранилище на данни помага на организацията да разтовари рядко достъпни данни.
Oбобщение
- Определение за големи данни: Големи данни, което означава данни, които са с огромен размер. Bigdata е термин, използван за описване на колекция от данни, която е огромна по размер и все пак нараства експоненциално с времето.
- Примерите за анализ на големи данни включват фондови борси, сайтове за социални медии, реактивни двигатели и др.
- Големите данни могат да бъдат 1) структурирани, 2) неструктурирани, 3) полуструктурирани
- Обем, разнообразие, скорост и променливост са няколко характеристики на Big Data
- Подобрено обслужване на клиенти, по-добра оперативна ефективност, по-добро вземане на решения са няколко предимства на Bigdata