Co jsou velká data? Úvod, typy, vlastnosti, příklady
Co je to Data?
Veličiny, znaky nebo symboly, na kterých počítač provádí operace, které mohou být ukládány a přenášeny ve formě elektrických signálů a zaznamenávány na magnetická, optická nebo mechanická záznamová média.
Nyní se naučíme definici velkých dat
Co je Big Data?
Big dat je sbírka dat, která má obrovský objem, ale s časem exponenciálně roste. Jde o data s tak velkou velikostí a složitostí, že je žádný z tradičních nástrojů pro správu dat nedokáže uložit ani efektivně zpracovat. Velká data jsou také data, ale s obrovskou velikostí.

Co je příkladem velkých dat?
Níže jsou uvedeny některé příklady velkých dat –
Jedno New York Stock Exchange je příkladem Big Data, která generuje o jeden terabajt nových obchodních údajů za den.
Sociální média
Statistika to ukazuje 500+ terabajtů nová data se zpracovávají do databází webu sociálních médií facebook, každý den. Tato data se generují hlavně z hlediska nahrávání fotografií a videí, výměny zpráv, vkládání komentářů atd.
Single Tryskový motor může generovat 10+ terabajtů dat v 30 minut letového času. S mnoha tisíci lety za den dosáhne generování dat až mnoha Petabajty.
Typy velkých dat
Níže jsou uvedeny typy velkých dat:
- Strukturované
- Nestrukturované
- Polostrukturované
Strukturované
Jakákoli data, která mohou být uložena, zpřístupněna a zpracována ve formě pevného formátu, se nazývají „strukturovaná“ data. Talent v informatice v průběhu času dosáhl většího úspěchu ve vývoji technik pro práci s takovým druhem dat (kde je formát předem dobře znám) a také z nich odvodit hodnotu. V dnešní době však předvídáme problémy, když velikost takových dat naroste do obrovského rozsahu, typické velikosti jsou v řádu několika zettabajtů.
Víte, že? 1021 bajtů rovná 1 zettabyte or jednu miliardu terabajtů formy zettabyte.
Při pohledu na tato čísla lze snadno pochopit, proč se nazývá Big Data, a představit si výzvy spojené s jejich ukládáním a zpracováním.
Víte, že? Data uložená v systému správy relačních databází jsou jedním příkladem a 'strukturovaný' data.
Příklady strukturovaných dat
Tabulka 'Zaměstnanec' v databázi je příkladem strukturovaných dat
Employee_ID | Jméno zaměstnance | Rod | oddělení | Plat_v_lacích |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Muž | Finance | 650000 |
3398 | Pratibha Joshi | Žena | administrátor | 650000 |
7465 | Shushil Roy | Muž | administrátor | 500000 |
7500 | Shubhojit Das | Muž | Finance | 500000 |
7699 | Priya Sane | Žena | Finance | 550000 |
Nestrukturované
Jakákoli data s neznámou formou nebo strukturou jsou klasifikována jako nestrukturovaná data. Kromě toho, že velikost je obrovská, nestrukturovaná data představují řadu problémů, pokud jde o jejich zpracování pro odvození hodnoty z nich. Typickým příkladem nestrukturovaných dat je heterogenní zdroj dat obsahující kombinaci jednoduchých textových souborů, obrázků, videí atd. V dnešní době mají organizace k dispozici velké množství dat, ale bohužel nevědí, jak z nich odvodit hodnotu. tato data jsou v nezpracované formě nebo v nestrukturovaném formátu.
Příklady nestrukturovaných dat
Výstup vrácený „Vyhledáváním Google“
Polostrukturované
Polostrukturovaná data mohou obsahovat obě formy dat. Polostrukturovaná data můžeme vidět jako strukturovanou formu, ale ve skutečnosti nejsou definována např. definicí tabulky v relaci DBMS. Příkladem polostrukturovaných dat jsou data reprezentovaná v souboru XML.
Příklady polostrukturovaných dat
Osobní údaje uložené v souboru XML -
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
Růst dat v průběhu let
Vezměte prosím na vědomí, že webové aplikace data, která jsou nestrukturovaná, se skládají ze souborů protokolů, souborů historie transakcí atd. Systémy OLTP jsou postaveny pro práci se strukturovanými daty, přičemž data jsou uložena v relacích (tabulkách).
Charakteristika Big Data
Velká data lze popsat následujícími charakteristikami:
- Objem nádrží
- Různorodost
- Rychlost
- Variabilita
(i) Objem – Samotný název Big Data souvisí s velikostí, která je obrovská. Velikost dat hraje velmi zásadní roli při určování hodnoty dat. Také to, zda lze konkrétní data skutečně považovat za velká data, nebo ne, závisí na objemu dat. Proto, 'Objem' je jedna charakteristika, kterou je třeba vzít v úvahu při řešení Big Data.
(ii) Rozmanitost – Dalším aspektem Big Data je jeho odrůda.
Rozmanitost se týká heterogenních zdrojů a povahy dat, strukturovaných i nestrukturovaných. V dřívějších dobách byly tabulkové procesory a databáze jedinými zdroji dat, které většina aplikací zvažovala. V analytických aplikacích se dnes uvažuje i s daty ve formě e-mailů, fotografií, videí, monitorovacích zařízení, PDF, zvuku atd. Tato rozmanitost nestrukturovaných dat představuje určité problémy pro ukládání, těžbu a analýzu dat.
(iii) Rychlost – termín 'rychlost' označuje rychlost generování dat. Jak rychle jsou data generována a zpracovávána tak, aby vyhovovala požadavkům, určuje skutečný potenciál dat.
Big Data Velocity se zabývá rychlostí, s jakou data proudí ze zdrojů, jako jsou obchodní procesy, protokoly aplikací, sítě a weby sociálních médií, senzory, Mobilní aplikace zařízení atd. Tok dat je masivní a nepřetržitý.
(iv) Variabilita – Týká se to nekonzistence, kterou mohou data občas vykazovat, a tak brzdí proces schopnosti efektivně nakládat a spravovat data.
Výhody zpracování velkých dat
Schopnost zpracovávat velká data v DBMS přináší řadu výhod, např.
- Podniky mohou při rozhodování využívat externí zpravodajství
Přístup k sociálním datům z vyhledávače a stránky jako Facebook, Twitter umožňují organizacím vyladit jejich obchodní strategie.
- Vylepšený zákaznický servis
Tradiční systémy zpětné vazby od zákazníků jsou nahrazovány novými systémy navrženými s technologiemi Big Data. V těchto nových systémech se ke čtení a vyhodnocování reakcí spotřebitelů používají velká data a technologie zpracování přirozeného jazyka.
- Včasná identifikace rizika pro produkt/službu, pokud existuje
- Lepší provozní efektivita
Technologie velkých dat lze použít k vytvoření předváděcí oblasti nebo přistávací zóny pro nová data, než se určí, která data by měla být přesunuta do datový sklad. Kromě toho taková integrace technologií Big Data a datového skladu pomáhá organizaci zbavit se dat, ke kterým se zřídka přistupuje.
Shrnutí
- Definice velkých dat: Velká data znamenají data, která mají obrovskou velikost. Bigdata je termín používaný k popisu kolekce dat, která je obrovská, a přesto s časem exponenciálně roste.
- Příklady analýzy velkých dat zahrnují burzy, stránky sociálních médií, tryskové motory atd.
- Velká data mohou být 1) strukturovaná, 2) nestrukturovaná, 3) polostrukturovaná
- Objem, rozmanitost, rychlost a variabilita je několik charakteristik velkých dat
- Lepší zákaznický servis, lepší provozní efektivita, lepší rozhodování – to je několik výhod Bigdata