Hvad er Big Data? Introduktion, Typer, Karakteristika, Eksempler
Hvad er data?
De mængder, tegn eller symboler, på hvilke operationer udføres af en computer, som kan lagres og transmitteres i form af elektriske signaler og optages på magnetiske, optiske eller mekaniske optagemedier.
Lad os nu lære Big Data definition
Hvad er Big Data?
Big data er en samling af data, der er enorm i volumen, men alligevel vokser eksponentielt med tiden. Det er en data med så stor størrelse og kompleksitet, at ingen af de traditionelle datahåndteringsværktøjer kan gemme dem eller behandle dem effektivt. Big data er også en data, men med enorm størrelse.
Hvad er et eksempel på Big Data?
Følgende er nogle af Big Data-eksemplerne-
New York Stock Exchange er et eksempel på Big Data, der genererer ca en terabyte af nye handelsdata pr. dag.
Sociale medier
Det viser statistikken 500+terabyte af nye data bliver optaget i databaserne på sociale medier Facebook, hver dag. Disse data genereres hovedsageligt i form af foto- og videouploads, beskedudvekslinger, kommentarer osv.
En enkelt Flymotor kan generere 10+terabyte af data i 30 minutter af flyvetid. Med mange tusinde flyvninger om dagen når genereringen af data op til mange Petabytes.
Typer af big data
Følgende er typerne af Big Data:
- Struktureret
- Ustruktureret
- Halvstruktureret
Struktureret
Enhver data, der kan lagres, tilgås og behandles i form af fast format, betegnes som en 'struktureret' data. I tidens løb har talent inden for datalogi opnået større succes med at udvikle teknikker til at arbejde med den slags data (hvor formatet er velkendt i forvejen) og også få værdi ud af det. Men i dag forudser vi problemer, når en størrelse af sådanne data vokser i enormt omfang, typiske størrelser er i raseriet af flere zettabyte.
Kender du? 1021 bytes svarende til 1 zettabyte or en milliard terabyte formularer en zettabyte.
Når man ser på disse tal, kan man let forstå, hvorfor navnet Big Data er givet, og forestille sig de udfordringer, der er forbundet med lagring og behandling.
Kender du? Data, der er gemt i et relationelt databasestyringssystem, er et eksempel på en 'struktureret' data.
Eksempler på strukturerede data
En 'Medarbejder'-tabel i en database er et eksempel på strukturerede data
Medarbejder-ID | Ansattes navn | Køn | Afdeling | Løn_I_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Mand | Finansiering | 650000 |
3398 | Pratibha Joshi | Kvinde | Admin | 650000 |
7465 | Shushil Roy | Mand | Admin | 500000 |
7500 | Shubhojit Das | Mand | Finansiering | 500000 |
7699 | Priya Sane | Kvinde | Finansiering | 550000 |
Ustruktureret
Alle data med ukendt form eller struktur klassificeres som ustrukturerede data. Ud over at størrelsen er enorm, udgør ustrukturerede data adskillige udfordringer i forhold til dens behandling for at få værdi ud af dem. Et typisk eksempel på ustrukturerede data er en heterogen datakilde, der indeholder en kombination af simple tekstfiler, billeder, videoer osv. I dag har organisationer et væld af data til rådighed med sig, men desværre ved de ikke, hvordan de skal hente værdi ud af det, siden disse data er i deres rå form eller ustrukturerede format.
Eksempler på ustrukturerede data
Output returneret af 'Google Søgning'
Halvstruktureret
Semistrukturerede data kan indeholde begge former for data. Vi kan se semi-strukturerede data som en struktureret i form, men det er faktisk ikke defineret med fx en tabeldefinition i relationel DBMS. Eksempel på semistrukturerede data er data repræsenteret i en XML-fil.
Eksempler på semistrukturerede data
Personlige data gemt i en XML-fil-
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
Datavækst gennem årene
Bemærk, at webapplikation data, som er ustruktureret, består af logfiler, transaktionshistorikfiler osv. OLTP-systemer er bygget til at arbejde med strukturerede data, hvor data er lagret i relationer (tabeller).
Karakteristika af Big Data
Big data kan beskrives ved følgende karakteristika:
- Bind
- Variation
- Velocity
- variabilitet
(i) Volumen – Selve navnet Big Data hænger sammen med en størrelse, som er enorm. Størrelsen af data spiller en meget afgørende rolle i at bestemme værdien ud af data. Om en bestemt data faktisk kan betragtes som en Big Data eller ej, afhænger også af mængden af data. Derfor, 'Bind' er en egenskab, som skal overvejes, når man håndterer Big Data-løsninger.
(ii) Sort – Det næste aspekt af Big Data er dens række.
Variation refererer til heterogene kilder og arten af data, både strukturerede og ustrukturerede. I tidligere dage var regneark og databaser de eneste datakilder, der blev taget i betragtning af de fleste applikationer. I dag overvejes data i form af e-mails, fotos, videoer, overvågningsenheder, PDF'er, lyd osv. også i analyseapplikationerne. Denne række af ustrukturerede data giver visse problemer for lagring, minedrift og analyse af data.
(iii) Hastighed – Udtrykket 'hastighed' refererer til hastigheden af generering af data. Hvor hurtigt dataene genereres og behandles for at opfylde kravene, bestemmer det reelle potentiale i dataene.
Big Data Velocity omhandler den hastighed, hvormed data strømmer ind fra kilder som forretningsprocesser, applikationslogfiler, netværk og sociale medier, sensorer, Mobil enheder osv. Datastrømmen er massiv og kontinuerlig.
(iv) Variabilitet – Dette refererer til den inkonsistens, som data til tider kan vise, og dermed hæmmer processen med at kunne håndtere og administrere dataene effektivt.
Fordele ved Big Data Processing
Evnen til at behandle Big Data i DBMS giver flere fordele, som f.eks.
- Virksomheder kan bruge ekstern intelligens, mens de træffer beslutninger
Adgang til sociale data fra søgemaskiner og websteder som Facebook, Twitter gør det muligt for organisationer at finjustere deres forretningsstrategier.
- Forbedret kundeservice
Traditionelle kundefeedback-systemer bliver erstattet af nye systemer designet med Big Data-teknologier. I disse nye systemer bliver Big Data og naturlige sprogbehandlingsteknologier brugt til at læse og evaluere forbrugernes svar.
- Tidlig identifikation af risiko for produktet/tjenesterne, hvis nogen
- Bedre driftseffektivitet
Big Data-teknologier kan bruges til at skabe et iscenesættelsesområde eller landingszone for nye data, før det identificeres, hvilke data der skal flyttes til datalager. Derudover hjælper en sådan integration af Big Data-teknologier og datavarehus en organisation med at aflaste sjældent tilgåede data.
Resumé
- Big Data definition: Big Data betyder en data, der er enorm i størrelse. Bigdata er et udtryk, der bruges til at beskrive en samling af data, der er enorm i størrelse og alligevel vokser eksponentielt med tiden.
- Eksempler på Big Data-analyse omfatter børser, sociale medier, jetmotorer osv.
- Big Data kunne være 1) struktureret, 2) ustruktureret, 3) semi-struktureret
- Volumen, variation, hastighed og variation er få Big Data-karakteristika
- Forbedret kundeservice, bedre driftseffektivitet, bedre beslutningstagning er få fordele ved Bigdata