Mis on suurandmed? Sissejuhatus, tüübid, omadused, näited
Mis on andmed?
Arvuti poolt teostatavate toimingute suurused, tähemärgid või sümbolid, mida saab salvestada ja transmitedastatakse elektriliste signaalide kujul ja salvestatakse magnetilistele, optilistele või mehaanilistele salvestuskandjatele.
Nüüd õpime Big Data määratlust
Mis on suured andmed?
Big andmed on andmete kogum, mille maht on tohutu, kuid kasvab aja jooksul plahvatuslikult. Tegemist on nii suure mahu ja keerukusega andmetega, et ükski traditsioonilistest andmehaldustööriistadest ei suuda neid salvestada ega tõhusalt töödelda. Suurandmed on samuti andmed, kuid tohutu suurusega.

Mis on suurandmete näide?
Järgnevalt on toodud mõned suurandmete näited -
. New York Stock Exchange on näide suurandmetest, mis genereerivad umbes üks terabait uutest kaubandusandmetest päevas.
Sotsiaalmeedia
Statistika näitab seda 500+ terabaiti uutest andmetest siseneb sotsiaalmeedia saidi andmebaasidesse Facebook, iga päev. Need andmed genereeritakse peamiselt fotode ja videote üleslaadimise, sõnumivahetuse, kommentaaride jms kaudu.
Üksik Reaktiivmootor saab genereerida 10+ terabaiti andmetest sisse 30 minuti lennuajast. Paljude tuhandete lendudega päevas ulatub andmete genereerimine kuni paljudeni Petabaidid.
Suurandmete tüübid
Suurandmete tüübid on järgmised:
- Struktureeritud
- Struktureerimata
- Poolstruktureeritud
Struktureeritud
Kõiki andmeid, mida saab salvestada, millele saab juurde pääseda ja mida saab töödelda fikseeritud vormingus, nimetatakse struktureeritud andmeteks. Aja jooksul on arvutiteaduse andekus saavutanud suuremat edu arendustegevuses.ping tehnikad sellise andmetüübiga töötamiseks (kus formaat on ette teada) ja neist väärtuse ammutamiseks. Tänapäeval näeme aga probleeme, kui selliste andmete maht tohutult kasvab, tüüpilised suurused on mitme zettabaidi nurga all.
Kas sa tead? 1021 bytes võrdne 1 zettabait or üks miljard terabaiti vormid zettabait.
Neid arve vaadates on lihtne mõista, miks suurandmete nimi on antud, ja ette kujutada nende salvestamise ja töötlemisega kaasnevaid väljakutseid.
Kas sa tead? Relatsioonilise andmebaasi haldussüsteemi salvestatud andmed on üks näide a 'struktureeritud' andmed.
Struktureeritud andmete näited
Andmebaasis olev tabel „Töötaja” on struktureeritud andmete näide
| Töötaja_ID | Töötaja_nimi | SUGU | osakond | Palk_laekides |
|---|---|---|---|---|
| 2365 | Rajesh Kulkarni | Mees | Turundus | 650000 |
| 3398 | Pratibha Joshi | Naine | admin | 650000 |
| 7465 | Shushil Roy | Mees | admin | 500000 |
| 7500 | Shubhojit Das | Mees | Turundus | 500000 |
| 7699 | Priya Sane | Naine | Turundus | 550000 |
Struktureerimata
Kõik tundmatu vormi või struktuuriga andmed liigitatakse struktureerimata andmeteks. Lisaks sellele, et struktureerimata andmed on tohutud, on nende töötlemisel nendest väärtuse saamiseks mitmeid väljakutseid. Struktureerimata andmete tüüpiline näide on heterogeenne andmeallikas, mis sisaldab lihtsate tekstifailide, piltide, videote jne kombinatsiooni. Tänapäeval on organisatsioonidel palju andmeid, kuid kahjuks ei tea nad, kuidas neist väärtust ammutada. need andmed on töötlemata kujul või struktureerimata vormingus.
Struktureerimata andmete näited
Funktsiooni ' tagastatud väljundGoogle otsi"

Poolstruktureeritud
Poolstruktureeritud andmed võivad sisaldada mõlemat andmevormi. Poolstruktureeritud andmeid võime näha struktureeritud kujul, kuid tegelikult pole neid defineeritud nt tabeli definitsiooniga relatsioonis DB-süsteemid. Poolstruktureeritud andmete näide on XML-failis esitatud andmed.
Näited poolstruktureeritud andmetest
XML-failis salvestatud isikuandmed-
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
Andmete kasv aastate jooksul

Pange tähele, et veebirakendus struktureerimata andmed koosnevad logifailidest, tehingute ajaloo failidest jne. OLTP süsteemid on loodud töötama struktureeritud andmetega, kus andmeid hoitakse seostes (tabelites).
Suurandmete omadused
Suurandmeid saab kirjeldada järgmiste tunnustega:
- maht
- Sort
- Kiirus
- Varieeruvus
(i) maht – Suurandmete nimi ise on seotud tohutu suurusega. Andmete suurusel on andmete väärtuse määramisel väga oluline roll. Samuti sõltub andmete mahust see, kas konkreetseid andmeid saab tegelikult pidada suurandmeteks või mitte. Seega "Köide" on üks omadus, mida tuleb suurandmete lahendustega tegelemisel arvestada.
(ii) sort – Suurandmete järgmine aspekt on see sort.
Mitmekesisus viitab heterogeensetele allikatele ja andmete olemusele, nii struktureeritud kui ka struktureerimata. Varasematel päevadel olid arvutustabelid ja andmebaasid ainsad andmeallikad, mida enamik rakendusi arvestas. Tänapäeval võetakse analüüsirakendustes arvesse ka andmeid e-kirjade, fotode, videote, jälgimisseadmete, PDF-ide, heli jms kujul. See struktureerimata andmete mitmekesisus tekitab teatud probleeme andmete salvestamisel, kaevandamisel ja analüüsimisel.
iii) kiirus – Mõiste 'kiirus' viitab andmete genereerimise kiirusele. See, kui kiiresti andmeid nõudluse rahuldamiseks genereeritakse ja töödeldakse, määrab andmete tegelik potentsiaal.
Big Data Velocity tegeleb kiirusega, millega andmed voolavad sisse sellistest allikatest nagu äriprotsessid, rakenduste logid, võrgud ja sotsiaalmeedia saidid, andurid, mobiilne seadmed jne. Andmevoog on tohutu ja pidev.
(iv) varieeruvus – See viitab ebajärjekindlusele, mida andmed mõnikord võivad näidata, takistades seega andmete tõhusat käsitlemist ja haldamist.
Suurandmete töötlemise eelised
Võimalus töödelda suurandmeid DBMS-is toob kaasa mitmeid eeliseid, näiteks
- Ettevõtted saavad otsuste tegemisel kasutada välist luureandmeid
Juurdepääs sotsiaalandmetele aadressilt otsingumootorid ja saidid, nagu Facebook, Twitter, võimaldavad organisatsioonidel oma äristrateegiaid viimistleda.
- Parem klienditeenindus
Traditsioonilised klientide tagasiside süsteemid asendatakse uute Big Data tehnoloogiatega loodud süsteemidega. Nendes uutes süsteemides kasutatakse suurandmeid ja loomuliku keele töötlemise tehnoloogiaid tarbijate vastuste lugemiseks ja hindamiseks.
- Toote/teenuste riski varajane tuvastamine, kui see on olemas
- Parem töö efektiivsus
Suurandmete tehnoloogiaid saab kasutada uute andmete jaoks peatusala või maandumisala loomiseks enne, kui tehakse kindlaks, millised andmed tuleks teisaldada andmekogus. Lisaks aitab selline suurandmete tehnoloogiate ja andmelao integreerimine organisatsioonil harva ligipääsetavaid andmeid maha laadida.
kokkuvõte
- Suurandmete määratlus: suurandmed, mis tähendavad tohutult suuri andmeid. Bigdata on termin, mida kasutatakse andmekogu kirjeldamiseks, mis on tohutu suurusega ja kasvab aja jooksul siiski eksponentsiaalselt.
- Suurandmete analüütika näited hõlmavad börse, sotsiaalmeedia saite, reaktiivmootoreid jne.
- Suurandmed võivad olla 1) struktureeritud, 2) struktureerimata, 3) poolstruktureeritud
- Maht, mitmekesisus, kiirus ja varieeruvus on vähesed suurandmete omadused
- Parem klienditeenindus, parem töötõhusus, parem otsuste tegemine on Bigdata vähesed eelised



