Wat zijn bigdata? Inleiding, typen, kenmerken, voorbeelden

Voordat we naar de introductie over Big Data gaan, moet je dit eerst weten

Wat zijn gegevens?

De hoeveelheden, tekens of symbolen waarop operaDe opnames worden uitgevoerd door een computer, die kan worden opgeslagen en verzonden in de vorm van elektrische signalen en kan worden opgenomen op magnetische, optische of mechanische opnamemedia.

Laten we nu de definitie van Big Data leren

Wat zijn Big Data?

Big data is een verzameling gegevens met een enorm volume, maar toch growing exponentieel met de tijd. Het zijn gegevens met een zo groot formaat en complexHet is duidelijk dat geen van de traditionele tools voor gegevensbeheer deze gegevens efficiënt kan opslaan of verwerken. Big data is ook een data, maar dan met een enorme omvang.

Big data
Wat zijn Big Data?

Wat is een voorbeeld van Big Data?

Following zijn enkele van de Big Data-voorbeelden-

De New York Stock Exchange is een voorbeeld van Big Data die ongeveer genereert één terabyte van nieuwe handelsgegevens per dag.

Voorbeeld van Big Data

Social Media

De statistiek laat dat zien 500+terabytes van nieuwe gegevens worden opgenomen in de databases van sociale-mediasites Facebook, elke dag. Deze gegevens worden voornamelijk gegenereerd in termen van foto- en video-uploads, berichtenuitwisseling, commentaar plaatsen enz.

Voorbeeld van Big Data

Een Straalmotor kan genereren 10+terabytes van gegevens binnen 30 minuten van vliegtijd. Met vele duizenden vluchten per dag bereikt het genereren van gegevens een groot aantal Petabytes.

Voorbeeld van Big Data

Soorten Big Data

Following zijn de soorten Big Data:

  1. Gestructureerde
  2. Ongestructureerd
  3. Semi-gestructureerd

Gestructureerde

Alle gegevens die kunnen worden opgeslagen, toegankelijk en verwerkt in de vorm van een vast formaat, worden 'gestructureerde' gegevens genoemd. In de loop van de tijd heeft talent in de computerwetenschappen meer succes geboekt bij het ontwikkelen van technieken om met dit soort gegevens te werken (waarbij het formaat van tevoren goed bekend is) en er ook waarde uit te halen. Tegenwoordig voorzien we echter problemen wanneer de omvang van dergelijke gegevens enorm groeit; typische omvangen zijn in de woede van meerdere zettabytes.

Weet jij het? 1021 bytes gelijk aan 1 zettabyte or een billion terabytes formulieren een zettabyte.

Als je naar deze cijfers kijkt, kun je gemakkelijk begrijpen waarom de naam Big Data wordt gegeven en kun je je de uitdagingen voorstellen die gepaard gaan met de opslag en verwerking ervan.

Weet jij het? Gegevens die zijn opgeslagen in een relationeel databasebeheersysteem zijn een voorbeeld van 'gestructureerd' data.

Voorbeelden van gestructureerde gegevens

Een 'Employee'-tabel in een database is een voorbeeld van gestructureerde gegevens

Medewerker_ID Naam werknemer Geslacht afdeling Salaris_In_lacs
2365 Rajesh Kulkarni Mannelijk frezen Financiering 650000
3398 Pratibha Joshi Female beheerder 650000
7465 Shushil Roy Mannelijk frezen beheerder 500000
7500 Shubhojit Das Mannelijk frezen Financiering 500000
7699 Priya Sane Female Financiering 550000

Ongestructureerd

Alle gegevens met een onbekende vorm of structuur worden geclassificeerd als ongestructureerde gegevens. Naast dat de omvang enorm is, brengen ongestructureerde gegevens meerdere uitdagingen met zich mee wat betreft de verwerking ervan om er waarde uit te halen. Een typisch voorbeeld van ongestructureerde data is heterogeneoAmerikaanse gegevensbron die een combinatie bevat van eenvoudige tekstbestanden, afbeeldingen, video's enz. Tegenwoordig hebben organisaties een schat aan gegevens tot hun beschikking, maar helaas weten ze niet hoe ze er waarde uit kunnen halen, omdat deze gegevens in ruwe vorm zijn of ongestructureerd formaat.

Voorbeelden van ongestructureerde gegevens

De uitvoer geretourneerd door 'Google Zoeken'

Voorbeeld van ongestructureerde gegevens
Voorbeeld van ongestructureerde gegevens

Semi-gestructureerd

Semi-gestructureerde gegevens kunnen beide vormen van gegevens bevatten. We kunnen semi-gestructureerde gegevens zien als een gestructureerde vorm, maar deze zijn feitelijk niet gedefinieerd met bijvoorbeeld een tabeldefinitie in relationele gegevens. dbms. Een voorbeeld van semi-gestructureerde gegevens zijn gegevens die zijn weergegeven in een XML-bestand.

Voorbeelden van semi-gestructureerde gegevens

Persoonlijke gegevens opgeslagen in een XML-bestand

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

Datagroei door de jaren heen

Datagroei door de jaren heen
Datagroei door de jaren heen

Let op: webapplicatie gegevens, die ongestructureerd zijn, bestaan ​​uit logbestanden, transactiegeschiedenisbestanden etc. OLTP-systemen zijn gebouwd om te werken met gestructureerde gegevens waarbij gegevens worden opgeslagen in relaties (tabellen).

Kenmerken van Big Data

Big data kunnen worden beschreven aan de hand van het volgendewing kenmerken:

  • Volume
  • Verscheidenheid
  • Snelheid
  • Flexibiliteit

(i) Volume – De naam Big Data zelf heeft betrekking op een omvang die enorm is. De omvang van gegevens speelt een zeer cruciale rol bij het bepalen van de waarde van gegevens. Ook is het afhankelijk van de hoeveelheid data of een bepaalde data daadwerkelijk als Big Data kan worden beschouwd. Vandaar, 'Volume' is een kenmerk waarmee rekening moet worden gehouden bij het omgaan met Big Data-oplossingen.

(ii) Variëteit – Het volgende aspect van Big Data is het variëteit.

Variatie verwijst naar heterogeniteitneoAmerikaanse bronnen en de aard van gegevens, zowel gestructureerd als ongestructureerd. Vroeger waren spreadsheets en databases de enige gegevensbronnen waarmee de meeste applicaties rekening hielden. Tegenwoordig worden gegevens in de vorm van emailIn de analysetoepassingen wordt ook rekening gehouden met s, foto's, video's, monitoringapparatuur, PDF's, audio, enz. Deze verscheidenheid aan ongestructureerde gegevens brengt bepaalde problemen met zich mee bij het opslaan, ontginnen en analyseren van gegevens.

(iii) Snelheid – De term 'snelheid' verwijst naar de snelheid waarmee gegevens worden gegenereerd. Hoe snel de data worden gegenereerd en verwerkt om aan de eisen te voldoen, bepaalt het werkelijke potentieel in de data.

Big Data Velocity houdt zich bezig met de snelheid waarmee gegevens binnenstromen vanuit bronnen zoals bedrijfsprocessen, applicatielogboeken, netwerken en sociale-mediasites, sensoren, Mobile apparaten, enz. De gegevensstroom is enorm en continu.

(iv) Variabiliteit – Dit verwijst naar de inconsistentie die soms uit de gegevens kan blijken, waardoor het proces van het effectief kunnen verwerken en beheren van de gegevens wordt belemmerd.

Voordelen van big data-verwerking

De mogelijkheid om Big Data in DBMS te verwerken brengt meerdere voordelen met zich mee, zoals:

  • Bedrijven kunnen bij het nemen van beslissingen gebruik maken van informatie van buitenaf

Toegang tot sociale gegevens van zoekmachines en sites als Facebook en Twitter stellen organisaties in staat hun bedrijfsstrategieën te verfijnen.

  • Verbeterde klantenservice

Traditionele klantfeedbacksystemen worden vervangen door nieuwe systemen die zijn ontworpen met Big Data-technologieën. In deze nieuwe systemen worden Big Data en natuurlijke taalverwerkingstechnologieën gebruikt om de reacties van consumenten te lezen en te evalueren.

  • Vroegtijdige identificatie van eventuele risico's voor het product/de dienst
  • Betere operaationele efficiëntie

Big Data-technologieën kunnen worden gebruikt voor het creëren van een verzamelplaats of landingszone voor nieuwe gegevens voordat wordt vastgesteld welke gegevens naar de juiste locatie moeten worden verplaatst. datawarehouse. Bovendien helpt een dergelijke integratie van Big Data-technologieën en datawarehouses een organisatie bij het ontladen van zelden gebruikte gegevens.

Samengevat

  • Big Data-definitie: Big Data betekent gegevens die enorm groot zijn. Bigdata is een term die wordt gebruikt om een ​​verzameling gegevens te beschrijven die enorm groot en toch groot iswing exponentieel met de tijd.
  • Voorbeelden van Big Data-analyse zijn onder meer beurzen, sociale-mediasites, straalmotoren, enz.
  • Big Data kan 1) gestructureerd, 2) ongestructureerd, 3) semi-gestructureerd zijn
  • Volume, variëteit, snelheid en variabiliteit zijn enkele kenmerken van Big Data
  • Verbeterde klantenservice, beter operationele efficiëntie en betere besluitvorming zijn enkele voordelen van Bigdata