Mis on suurandmed? Sissejuhatus, tüübid, omadused, näited

Enne suurandmete sissejuhatuse alustamist peate kõigepealt teadma

Mis on andmed?

Arvuti poolt teostatavate toimingute suurused, tähemärgid või sümbolid, mida saab salvestada ja transmitedastatakse elektriliste signaalide kujul ja salvestatakse magnetilistele, optilistele või mehaanilistele salvestuskandjatele.

Nüüd õpime Big Data määratlust

Mis on suured andmed?

Big andmed on andmete kogum, mille maht on tohutu, kuid kasvab aja jooksul plahvatuslikult. Tegemist on nii suure mahu ja keerukusega andmetega, et ükski traditsioonilistest andmehaldustööriistadest ei suuda neid salvestada ega tõhusalt töödelda. Suurandmed on samuti andmed, kuid tohutu suurusega.

Mis on suurandmete näide?

Järgnevalt on toodud mõned suurandmete näited -

. New York Stock Exchange on näide suurandmetest, mis genereerivad umbes üks terabait uutest kaubandusandmetest päevas.

Sotsiaalmeedia

Statistika näitab seda 500+ terabaiti uutest andmetest siseneb sotsiaalmeedia saidi andmebaasidesse Facebook, iga päev. Need andmed genereeritakse peamiselt fotode ja videote üleslaadimise, sõnumivahetuse, kommentaaride jms kaudu.

Üksik Reaktiivmootor saab genereerida 10+ terabaiti andmetest sisse 30 minuti lennuajast. Paljude tuhandete lendudega päevas ulatub andmete genereerimine kuni paljudeni Petabaidid.

Suurandmete tüübid

Suurandmete tüübid on järgmised:

Struktureeritud
Struktureerimata
Poolstruktureeritud

Struktureeritud

Kõiki andmeid, mida saab salvestada, millele saab juurde pääseda ja mida saab töödelda fikseeritud vormingus, nimetatakse struktureeritud andmeteks. Aja jooksul on arvutiteaduse andekus saavutanud suuremat edu arendustegevuses.ping tehnikad sellise andmetüübiga töötamiseks (kus formaat on ette teada) ja neist väärtuse ammutamiseks. Tänapäeval näeme aga probleeme, kui selliste andmete maht tohutult kasvab, tüüpilised suurused on mitme zettabaidi nurga all.

Kas sa tead? 10²¹ bytes võrdne 1 zettabait or üks miljard terabaiti vormid zettabait.

Neid arve vaadates on lihtne mõista, miks suurandmete nimi on antud, ja ette kujutada nende salvestamise ja töötlemisega kaasnevaid väljakutseid.

Kas sa tead? Relatsioonilise andmebaasi haldussüsteemi salvestatud andmed on üks näide a 'struktureeritud' andmed.

Struktureeritud andmete näited

Andmebaasis olev tabel „Töötaja” on struktureeritud andmete näide

Töötaja_ID	Töötaja_nimi	SUGU	osakond	Palk_laekides
2365	Rajesh Kulkarni	Mees	Turundus	650000
3398	Pratibha Joshi	Naine	admin	650000
7465	Shushil Roy	Mees	admin	500000
7500	Shubhojit Das	Mees	Turundus	500000
7699	Priya Sane	Naine	Turundus	550000

Struktureerimata

Kõik tundmatu vormi või struktuuriga andmed liigitatakse struktureerimata andmeteks. Lisaks sellele, et struktureerimata andmed on tohutud, on nende töötlemisel nendest väärtuse saamiseks mitmeid väljakutseid. Struktureerimata andmete tüüpiline näide on heterogeenne andmeallikas, mis sisaldab lihtsate tekstifailide, piltide, videote jne kombinatsiooni. Tänapäeval on organisatsioonidel palju andmeid, kuid kahjuks ei tea nad, kuidas neist väärtust ammutada. need andmed on töötlemata kujul või struktureerimata vormingus.

Struktureerimata andmete näited

Funktsiooni ' tagastatud väljundGoogle otsi"

Poolstruktureeritud

Poolstruktureeritud andmed võivad sisaldada mõlemat andmevormi. Poolstruktureeritud andmeid võime näha struktureeritud kujul, kuid tegelikult pole neid defineeritud nt tabeli definitsiooniga relatsioonis DB-süsteemid. Poolstruktureeritud andmete näide on XML-failis esitatud andmed.

Näited poolstruktureeritud andmetest

XML-failis salvestatud isikuandmed-

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

Andmete kasv aastate jooksul

Pange tähele, et veebirakendus struktureerimata andmed koosnevad logifailidest, tehingute ajaloo failidest jne. OLTP süsteemid on loodud töötama struktureeritud andmetega, kus andmeid hoitakse seostes (tabelites).

Suurandmete omadused

Suurandmeid saab kirjeldada järgmiste tunnustega:

maht
Sort
Kiirus
Varieeruvus

(i) maht – Suurandmete nimi ise on seotud tohutu suurusega. Andmete suurusel on andmete väärtuse määramisel väga oluline roll. Samuti sõltub andmete mahust see, kas konkreetseid andmeid saab tegelikult pidada suurandmeteks või mitte. Seega "Köide" on üks omadus, mida tuleb suurandmete lahendustega tegelemisel arvestada.

(ii) sort – Suurandmete järgmine aspekt on see sort.

Mitmekesisus viitab heterogeensetele allikatele ja andmete olemusele, nii struktureeritud kui ka struktureerimata. Varasematel päevadel olid arvutustabelid ja andmebaasid ainsad andmeallikad, mida enamik rakendusi arvestas. Tänapäeval võetakse analüüsirakendustes arvesse ka andmeid e-kirjade, fotode, videote, jälgimisseadmete, PDF-ide, heli jms kujul. See struktureerimata andmete mitmekesisus tekitab teatud probleeme andmete salvestamisel, kaevandamisel ja analüüsimisel.

iii) kiirus – Mõiste 'kiirus' viitab andmete genereerimise kiirusele. See, kui kiiresti andmeid nõudluse rahuldamiseks genereeritakse ja töödeldakse, määrab andmete tegelik potentsiaal.

Big Data Velocity tegeleb kiirusega, millega andmed voolavad sisse sellistest allikatest nagu äriprotsessid, rakenduste logid, võrgud ja sotsiaalmeedia saidid, andurid, mobiilne seadmed jne. Andmevoog on tohutu ja pidev.

(iv) varieeruvus – See viitab ebajärjekindlusele, mida andmed mõnikord võivad näidata, takistades seega andmete tõhusat käsitlemist ja haldamist.

Suurandmete töötlemise eelised

Võimalus töödelda suurandmeid DBMS-is toob kaasa mitmeid eeliseid, näiteks

Ettevõtted saavad otsuste tegemisel kasutada välist luureandmeid

Juurdepääs sotsiaalandmetele aadressilt otsingumootorid ja saidid, nagu Facebook, Twitter, võimaldavad organisatsioonidel oma äristrateegiaid viimistleda.

Parem klienditeenindus

Traditsioonilised klientide tagasiside süsteemid asendatakse uute Big Data tehnoloogiatega loodud süsteemidega. Nendes uutes süsteemides kasutatakse suurandmeid ja loomuliku keele töötlemise tehnoloogiaid tarbijate vastuste lugemiseks ja hindamiseks.

Toote/teenuste riski varajane tuvastamine, kui see on olemas
Parem töö efektiivsus

Suurandmete tehnoloogiaid saab kasutada uute andmete jaoks peatusala või maandumisala loomiseks enne, kui tehakse kindlaks, millised andmed tuleks teisaldada andmekogus. Lisaks aitab selline suurandmete tehnoloogiate ja andmelao integreerimine organisatsioonil harva ligipääsetavaid andmeid maha laadida.

kokkuvõte

Suurandmete määratlus: suurandmed, mis tähendavad tohutult suuri andmeid. Bigdata on termin, mida kasutatakse andmekogu kirjeldamiseks, mis on tohutu suurusega ja kasvab aja jooksul siiski eksponentsiaalselt.
Suurandmete analüütika näited hõlmavad börse, sotsiaalmeedia saite, reaktiivmootoreid jne.
Suurandmed võivad olla 1) struktureeritud, 2) struktureerimata, 3) poolstruktureeritud
Maht, mitmekesisus, kiirus ja varieeruvus on vähesed suurandmete omadused
Parem klienditeenindus, parem töötõhusus, parem otsuste tegemine on Bigdata vähesed eelised

Mis on suurandmed? Sissejuhatus, tüübid, omadused, näited

Mis on andmed?

Mis on suured andmed?

Mis on suurandmete näide?