Co jsou velká data? Úvod, typy, vlastnosti, příklady

Než přejdeme k úvodu do Big Data, musíte nejprve vědět

Co je to Data?

Veličiny, znaky nebo symboly, na kterých počítač provádí operace, které mohou být ukládány a přenášeny ve formě elektrických signálů a zaznamenávány na magnetická, optická nebo mechanická záznamová média.

Nyní se naučíme definici velkých dat

Co je Big Data?

Big dat je sbírka dat, která má obrovský objem, ale s časem exponenciálně roste. Jde o data s tak velkou velikostí a složitostí, že je žádný z tradičních nástrojů pro správu dat nedokáže uložit ani efektivně zpracovat. Velká data jsou také data, ale s obrovskou velikostí.

Big dat
Co je Big Data?

Co je příkladem velkých dat?

Níže jsou uvedeny některé příklady velkých dat –

Jedno New York Stock Exchange je příkladem Big Data, která generuje o jeden terabajt nových obchodních údajů za den.

Příklad velkých dat

Sociální média

Statistika to ukazuje 500+ terabajtů nová data se zpracovávají do databází webu sociálních médií facebook, každý den. Tato data se generují hlavně z hlediska nahrávání fotografií a videí, výměny zpráv, vkládání komentářů atd.

Příklad velkých dat

Single Tryskový motor může generovat 10+ terabajtů dat v 30 minut letového času. S mnoha tisíci lety za den dosáhne generování dat až mnoha Petabajty.

Příklad velkých dat

Typy velkých dat

Níže jsou uvedeny typy velkých dat:

  1. Strukturované
  2. Nestrukturované
  3. Polostrukturované

Strukturované

Jakákoli data, která mohou být uložena, zpřístupněna a zpracována ve formě pevného formátu, se nazývají „strukturovaná“ data. Talent v informatice v průběhu času dosáhl většího úspěchu ve vývoji technik pro práci s takovým druhem dat (kde je formát předem dobře znám) a také z nich odvodit hodnotu. V dnešní době však předvídáme problémy, když velikost takových dat naroste do obrovského rozsahu, typické velikosti jsou v řádu několika zettabajtů.

Víte, že? 1021 bajtů rovná 1 zettabyte or jednu miliardu terabajtů formy zettabyte.

Při pohledu na tato čísla lze snadno pochopit, proč se nazývá Big Data, a představit si výzvy spojené s jejich ukládáním a zpracováním.

Víte, že? Data uložená v systému správy relačních databází jsou jedním příkladem a 'strukturovaný' data.

Příklady strukturovaných dat

Tabulka 'Zaměstnanec' v databázi je příkladem strukturovaných dat

Employee_ID Jméno zaměstnance Rod oddělení Plat_v_lacích
2365 Rajesh Kulkarni Muž Finance 650000
3398 Pratibha Joshi Žena administrátor 650000
7465 Shushil Roy Muž administrátor 500000
7500 Shubhojit Das Muž Finance 500000
7699 Priya Sane Žena Finance 550000

Nestrukturované

Jakákoli data s neznámou formou nebo strukturou jsou klasifikována jako nestrukturovaná data. Kromě toho, že velikost je obrovská, nestrukturovaná data představují řadu problémů, pokud jde o jejich zpracování pro odvození hodnoty z nich. Typickým příkladem nestrukturovaných dat je heterogenní zdroj dat obsahující kombinaci jednoduchých textových souborů, obrázků, videí atd. V dnešní době mají organizace k dispozici velké množství dat, ale bohužel nevědí, jak z nich odvodit hodnotu. tato data jsou v nezpracované formě nebo v nestrukturovaném formátu.

Příklady nestrukturovaných dat

Výstup vrácený „Vyhledáváním Google“

Příklad nestrukturovaných dat
Příklad nestrukturovaných dat

Polostrukturované

Polostrukturovaná data mohou obsahovat obě formy dat. Polostrukturovaná data můžeme vidět jako strukturovanou formu, ale ve skutečnosti nejsou definována např. definicí tabulky v relaci DBMS. Příkladem polostrukturovaných dat jsou data reprezentovaná v souboru XML.

Příklady polostrukturovaných dat

Osobní údaje uložené v souboru XML -

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

Růst dat v průběhu let

Růst dat v průběhu let
Růst dat v průběhu let

Vezměte prosím na vědomí, že webové aplikace data, která jsou nestrukturovaná, se skládají ze souborů protokolů, souborů historie transakcí atd. Systémy OLTP jsou postaveny pro práci se strukturovanými daty, přičemž data jsou uložena v relacích (tabulkách).

Charakteristika Big Data

Velká data lze popsat následujícími charakteristikami:

  • Objem nádrží
  • Různorodost
  • Rychlost
  • Variabilita

(i) Objem – Samotný název Big Data souvisí s velikostí, která je obrovská. Velikost dat hraje velmi zásadní roli při určování hodnoty dat. Také to, zda lze konkrétní data skutečně považovat za velká data, nebo ne, závisí na objemu dat. Proto, 'Objem' je jedna charakteristika, kterou je třeba vzít v úvahu při řešení Big Data.

(ii) Rozmanitost – Dalším aspektem Big Data je jeho odrůda.

Rozmanitost se týká heterogenních zdrojů a povahy dat, strukturovaných i nestrukturovaných. V dřívějších dobách byly tabulkové procesory a databáze jedinými zdroji dat, které většina aplikací zvažovala. V analytických aplikacích se dnes uvažuje i s daty ve formě e-mailů, fotografií, videí, monitorovacích zařízení, PDF, zvuku atd. Tato rozmanitost nestrukturovaných dat představuje určité problémy pro ukládání, těžbu a analýzu dat.

(iii) Rychlost – termín 'rychlost' označuje rychlost generování dat. Jak rychle jsou data generována a zpracovávána tak, aby vyhovovala požadavkům, určuje skutečný potenciál dat.

Big Data Velocity se zabývá rychlostí, s jakou data proudí ze zdrojů, jako jsou obchodní procesy, protokoly aplikací, sítě a weby sociálních médií, senzory, Mobilní aplikace zařízení atd. Tok dat je masivní a nepřetržitý.

(iv) Variabilita – Týká se to nekonzistence, kterou mohou data občas vykazovat, a tak brzdí proces schopnosti efektivně nakládat a spravovat data.

Výhody zpracování velkých dat

Schopnost zpracovávat velká data v DBMS přináší řadu výhod, např.

  • Podniky mohou při rozhodování využívat externí zpravodajství

Přístup k sociálním datům z vyhledávače a stránky jako Facebook, Twitter umožňují organizacím vyladit jejich obchodní strategie.

  • Vylepšený zákaznický servis

Tradiční systémy zpětné vazby od zákazníků jsou nahrazovány novými systémy navrženými s technologiemi Big Data. V těchto nových systémech se ke čtení a vyhodnocování reakcí spotřebitelů používají velká data a technologie zpracování přirozeného jazyka.

  • Včasná identifikace rizika pro produkt/službu, pokud existuje
  • Lepší provozní efektivita

Technologie velkých dat lze použít k vytvoření předváděcí oblasti nebo přistávací zóny pro nová data, než se určí, která data by měla být přesunuta do datový sklad. Kromě toho taková integrace technologií Big Data a datového skladu pomáhá organizaci zbavit se dat, ke kterým se zřídka přistupuje.

Shrnutí

  • Definice velkých dat: Velká data znamenají data, která mají obrovskou velikost. Bigdata je termín používaný k popisu kolekce dat, která je obrovská, a přesto s časem exponenciálně roste.
  • Příklady analýzy velkých dat zahrnují burzy, stránky sociálních médií, tryskové motory atd.
  • Velká data mohou být 1) strukturovaná, 2) nestrukturovaná, 3) polostrukturovaná
  • Objem, rozmanitost, rychlost a variabilita je několik charakteristik velkých dat
  • Lepší zákaznický servis, lepší provozní efektivita, lepší rozhodování – to je několik výhod Bigdata