Czym są duże dane? Wprowadzenie, rodzaje, charakterystyka, przykłady
Co to są dane?
Ilości, znaki lub symbole, na których komputer wykonuje operacje, które mogą być przechowywane i przesyłane w formie sygnałów elektrycznych oraz rejestrowane na nośnikach magnetycznych, optycznych lub mechanicznych.
Teraz nauczmy się definicji Big Data
Co to jest Big Data?
Big Data to zbiór danych, który jest ogromny pod względem objętości, ale rośnie wykładniczo z czasem. Są to dane o tak dużym rozmiarze i złożoności, że żadne z tradycyjnych narzędzi do zarządzania danymi nie może ich przechowywać ani przetwarzać wydajnie. Big data to również dane, ale o ogromnym rozmiarze.

Jaki jest przykład Big Data?
Oto kilka przykładów Big Data:
New York Stock Exchange to przykład Big Data, który generuje ok jeden terabajt nowych danych handlowych dziennie.
Media społecznościowe
Statystyka to pokazuje 500+ terabajtów nowych danych trafia do baz danych serwisów społecznościowych Facebook, codziennie. Dane te są generowane głównie w związku z przesyłaniem zdjęć i filmów, wymianą wiadomości, umieszczaniem komentarzy itp.
Pojedynczy Silnik odrzutowy może generować 10+ terabajtów danych w 30 minut czasu lotu. Przy wielu tysiącach lotów dziennie liczba generowanych danych sięga wielu Petabajty.
Rodzaje dużych danych
Oto rodzaje Big Data:
- Zbudowany
- Brak struktury
- Częściowo ustrukturyzowane
Zbudowany
Wszelkie dane, które można przechowywać, uzyskiwać do nich dostęp i przetwarzać w formie ustalonego formatu, określa się mianem danych „ustrukturyzowanych”. Z biegiem czasu talenty informatyczne osiągnęły większy sukces w opracowywaniu technik pracy z tego typu danymi (jeżeli format jest z góry dobrze znany) i czerpania z nich wartości. Jednak obecnie przewidujemy problemy, gdy rozmiar takich danych rośnie w ogromnym stopniu, a typowe rozmiary sięgają wielu zettabajtów.
Czy wiesz? 1021 bajtów równy 1 zettabajt or jeden miliard terabajtów formularze zettabajt.
Patrząc na te liczby, można łatwo zrozumieć, dlaczego nadano nazwę Big Data i wyobrazić sobie wyzwania związane z jej przechowywaniem i przetwarzaniem.
Czy wiesz? Dane przechowywane w systemie zarządzania relacyjną bazą danych są jednym z przykładów: 'zbudowany' danych.
Przykłady danych strukturalnych
Przykładem danych strukturalnych jest tabela „Pracownik” w bazie danych
Dowód pracownika | Imię i nazwisko pracownika | Płeć | Departament | Wynagrodzenie_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Mężczyzna | Finanse | 650000 |
3398 | Pratibha Joshi | Kobieta | Admin | 650000 |
7465 | Shushil Roy | Mężczyzna | Admin | 500000 |
7500 | Shubhojit Das | Mężczyzna | Finanse | 500000 |
7699 | Priya Sane | Kobieta | Finanse | 550000 |
Brak struktury
Wszelkie dane o nieznanej formie lub strukturze są klasyfikowane jako dane niestrukturalne. Oprócz ogromnego rozmiaru, dane niestrukturalne stwarzają wiele wyzwań pod względem przetwarzania w celu wydobycia z nich wartości. Typowym przykładem danych niestrukturalnych jest heterogeniczne źródło danych zawierające kombinację prostych plików tekstowych, obrazów, filmów itp. Obecnie organizacje mają dostęp do bogactwa danych, ale niestety nie wiedzą, jak wydobyć z nich wartość, ponieważ dane te są w surowej formie lub w formacie niestrukturalnym.
Przykłady danych nieustrukturyzowanych
Dane wyjściowe zwrócone przez „wyszukiwarkę Google”
Częściowo ustrukturyzowane
Dane częściowo ustrukturyzowane mogą zawierać obie formy danych. Możemy postrzegać dane częściowo ustrukturyzowane jako ustrukturyzowane w formie, ale w rzeczywistości nie są one zdefiniowane np. za pomocą definicji tabeli w relacji DBMS. Przykładem danych częściowo ustrukturyzowanych są dane reprezentowane w pliku XML.
Przykłady danych częściowo ustrukturyzowanych
Dane osobowe zapisane w pliku XML-
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
Wzrost danych na przestrzeni lat
Należy pamiętać, że Aplikacja internetowa dane nieustrukturyzowane, składają się z plików dziennika, plików historii transakcji itp. Systemy OLTP są zbudowane do pracy z danymi ustrukturyzowanymi, w których dane są przechowywane w relacjach (tabelach).
Charakterystyka Big Data
Big data można opisać za pomocą następujących cech:
- objętość
- Odmiana
- Szybkość
- Zmienność
(i) Objętość – Sama nazwa Big Data wiąże się z ogromnym rozmiarem. Rozmiar danych odgrywa bardzo kluczową rolę w określaniu wartości danych. Ponadto to, czy określone dane można faktycznie uznać za duże zbiory danych, zależy od ich objętości. Stąd, 'Tom' to jedna cecha, którą należy wziąć pod uwagę podczas pracy z rozwiązaniami Big Data.
(ii) Różnorodność – Kolejnym aspektem Big Data jest jego różnorodność.
Różnorodność odnosi się do heterogenicznych źródeł i charakteru danych, zarówno ustrukturyzowanych, jak i nieustrukturyzowanych. Wcześniej arkusze kalkulacyjne i bazy danych były jedynymi źródłami danych branymi pod uwagę przez większość aplikacji. Obecnie dane w formie wiadomości e-mail, zdjęć, filmów, urządzeń monitorujących, plików PDF, audio itp. są również brane pod uwagę w aplikacjach analitycznych. Ta różnorodność nieustrukturyzowanych danych stwarza pewne problemy w zakresie przechowywania, wydobywania i analizowania danych.
(iii) Prędkość – Termin 'prędkość' odnosi się do szybkości generowania danych. To, jak szybko dane są generowane i przetwarzane w celu spełnienia wymagań, określa rzeczywisty potencjał danych.
Big Data Velocity dotyczy szybkości, z jaką dane napływają ze źródeł takich jak procesy biznesowe, dzienniki aplikacji, sieci i serwisy społecznościowe, czujniki, Mobile urządzeń itp. Przepływ danych jest masowy i ciągły.
(iv) Zmienność – Odnosi się to do niespójności, którą czasami mogą wykazywać dane, utrudniając w ten sposób proces skutecznego przetwarzania danych i zarządzania nimi.
Zalety przetwarzania dużych zbiorów danych
Możliwość przetwarzania Big Data w systemie DBMS przynosi wiele korzyści, takich jak:
- Podejmując decyzje, firmy mogą korzystać z informacji zewnętrznych
Dostęp do danych społecznościowych z Wyszukiwarki a witryny takie jak Facebook i Twitter umożliwiają organizacjom dopracowanie strategii biznesowych.
- Lepsza obsługa klienta
Tradycyjne systemy zbierania opinii klientów są zastępowane nowymi systemami zaprojektowanymi w oparciu o technologie Big Data. W tych nowych systemach do odczytywania i oceny odpowiedzi konsumentów wykorzystywane są technologie Big Data i przetwarzania języka naturalnego.
- Wczesna identyfikacja ryzyka dla produktu/usługi, jeśli występuje
- Lepsza wydajność operacyjna
Technologie Big Data można wykorzystać do utworzenia obszaru tymczasowego lub strefy docelowej dla nowych danych przed określeniem, do których danych należy je przenieść hurtownia danych. Ponadto taka integracja technologii Big Data i hurtowni danych pomaga organizacji odciążyć rzadko używane dane.
Podsumowanie
- Definicja Big Data: Big Data oznacza dane o ogromnych rozmiarach. Bigdata to termin używany do opisania zbioru danych o ogromnych rozmiarach, który jednak rośnie wykładniczo z czasem.
- Przykłady analiz Big Data obejmują giełdy, serwisy społecznościowe, silniki odrzutowe itp.
- Big Data może być 1) ustrukturyzowane, 2) nieustrukturyzowane, 3) częściowo ustrukturyzowane
- Ilość, różnorodność, prędkość i zmienność to tylko niektóre cechy Big Data
- Lepsza obsługa klienta, lepsza wydajność operacyjna, lepsze podejmowanie decyzji to tylko niektóre z zalet technologii Bigdata