Što je Big Data? Uvod, Vrste, Karakteristike, Primjeri
Što su podaci?
Veličine, znakovi ili simboli na kojima računalo izvodi operacije, a koji se mogu pohraniti i prenijeti u obliku električnih signala i zabilježiti na magnetskim, optičkim ili mehaničkim medijima za snimanje.
Sada naučimo definiciju Big Data
Što su veliki podaci?
Big Podaci je zbirka podataka koja je ogromna, ali eksponencijalno raste s vremenom. To su podaci toliko velike veličine i složenosti da ih niti jedan tradicionalni alat za upravljanje podacima ne može pohraniti ili učinkovito obraditi. Big data je također podatak ali velike veličine.

Što je primjer Big Data?
Slijede neki od primjera Big Data-
The New York Stock Exchange je primjer Big Data koji generira oko jedan terabajt novih trgovinskih podataka po danu.
Društveni mediji
Statistika to pokazuje 500+terabajta novih podataka unosi se u baze podataka društvenih medija Facebook, svaki dan. Ovi se podaci uglavnom generiraju u smislu prijenosa fotografija i videozapisa, razmjene poruka, stavljanja komentara itd.
Jedan sam Mlazni motor može generirati 10+terabajta podataka u 30 minuta vremena leta. S mnogo tisuća letova dnevno, generiranje podataka doseže do mnogo Petabajti.
Vrste velikih podataka
Slijede vrste Big Data:
- Strukturirani
- Nestrukturiran
- Polustrukturirano
Strukturirani
Svi podaci koji se mogu pohraniti, kojima se može pristupiti i obraditi u obliku fiksnog formata nazivaju se "strukturiranim" podacima. Tijekom vremena, talent u računalnim znanostima postigao je veći uspjeh u razvijanju tehnika za rad s takvom vrstom podataka (gdje je format unaprijed poznat) i izvlačenju vrijednosti iz toga. Međutim, danas predviđamo probleme kada veličina takvih podataka naraste do ogromne mjere, tipične veličine su u bijesu od više zetabajta.
Znate li? 1021 bajtova jednak 1 zetabajt or jedna milijarda terabajta obrasci zetabajt.
Gledajući ove brojke, lako se može razumjeti zašto je dan naziv Big Data i zamisliti izazove koji su uključeni u njihovu pohranu i obradu.
Znate li? Podaci pohranjeni u sustavu upravljanja relacijskom bazom podataka jedan su primjer a 'strukturirano' podatke.
Primjeri strukturiranih podataka
Tablica 'Zaposlenik' u bazi podataka primjer je strukturiranih podataka
ID_zaposlenika | Ime zaposlenika | rod | odjel | Plaća_u_laksu |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Muški | Financije | 650000 |
3398 | Pratibha Joshi | ženski | Admin | 650000 |
7465 | Shushil Roy | Muški | Admin | 500000 |
7500 | Shubhojit Das | Muški | Financije | 500000 |
7699 | Priya Sane | ženski | Financije | 550000 |
Nestrukturiran
Svi podaci nepoznatog oblika ili strukture klasificiraju se kao nestrukturirani podaci. Osim što su golemi, nestrukturirani podaci predstavljaju višestruke izazove u smislu njihove obrade radi izvlačenja vrijednosti iz njih. Tipičan primjer nestrukturiranih podataka je heterogeni izvor podataka koji sadrži kombinaciju jednostavnih tekstualnih datoteka, slika, videa itd. Današnje organizacije imaju obilje podataka sa sobom, ali nažalost, ne znaju kako iz toga izvući vrijednost jer ti su podaci u sirovom ili nestrukturiranom obliku.
Primjeri nestrukturiranih podataka
Ispis koji vraća "Google pretraživanje"
Polustrukturirano
Polustrukturirani podaci mogu sadržavati oba oblika podataka. Polustrukturirane podatke možemo vidjeti kao strukturirane u obliku, ali zapravo nisu definirani npr. definicijom tablice u relacijskom DBMS. Primjer polustrukturiranih podataka je podatak predstavljen u XML datoteci.
Primjeri polustrukturiranih podataka
Osobni podaci pohranjeni u XML datoteci-
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
Rast podataka tijekom godina
Imajte na umu da web aplikacija podaci, koji su nestrukturirani, sastoje se od log datoteka, datoteka povijesti transakcija itd. OLTP sustavi izgrađeni su za rad sa strukturiranim podacima u kojima su podaci pohranjeni u relacijama (tablicama).
Karakteristike Big Data
Veliki podaci se mogu opisati sljedećim karakteristikama:
- Volumen
- Raznolikost
- Brzina
- Varijabilnost
(i) Volumen – Sam naziv Big Data vezan je za veličinu koja je enormna. Veličina podataka igra vrlo važnu ulogu u određivanju vrijednosti podataka. Također, može li se određeni podatak stvarno smatrati velikim podacima ili ne, ovisi o količini podataka. Stoga, 'Volumen' jedna je karakteristika koju treba uzeti u obzir pri radu s Big Data rješenjima.
(ii) Raznolikost – Sljedeći aspekt Big Data je njegov raznovrsnost.
Raznolikost se odnosi na heterogene izvore i prirodu podataka, kako strukturiranih tako i nestrukturiranih. Ranijih dana proračunske tablice i baze podataka bile su jedini izvori podataka koje je većina aplikacija razmatrala. Danas se podaci u obliku e-pošte, fotografija, videa, uređaja za nadzor, PDF-ova, zvuka itd. također uzimaju u obzir u aplikacijama za analizu. Ova raznolikost nestrukturiranih podataka predstavlja određene probleme za pohranu, rudarenje i analizu podataka.
(iii) Brzina – Pojam 'brzina' odnosi se na brzinu generiranja podataka. Koliko brzo se podaci generiraju i obrađuju kako bi se zadovoljili zahtjevi, određuje stvarni potencijal u podacima.
Big Data Velocity bavi se brzinom protoka podataka iz izvora kao što su poslovni procesi, zapisnici aplikacija, mreže i stranice društvenih medija, senzori, Kontakt broj uređaji itd. Protok podataka je masivan i kontinuiran.
(iv) Varijabilnost – To se odnosi na nekonzistentnost koja se ponekad može pokazati u podacima, čime se otežava proces mogućnosti učinkovitog rukovanja i upravljanja podacima.
Prednosti obrade velikih podataka
Sposobnost obrade velikih podataka u DBMS-u donosi višestruke prednosti, kao što su-
- Poduzeća mogu koristiti vanjsku inteligenciju dok donose odluke
Pristup društvenim podacima iz tražilice a web stranice poput Facebooka, Twittera omogućuju organizacijama da fino prilagode svoje poslovne strategije.
- Poboljšana korisnička usluga
Tradicionalne sustave povratnih informacija od kupaca zamjenjuju novi sustavi dizajnirani s Big Data tehnologijama. U ovim novim sustavima, Big Data i tehnologije obrade prirodnog jezika koriste se za čitanje i procjenu odgovora potrošača.
- Rano prepoznavanje rizika za proizvod/usluge, ako postoji
- Bolja operativna učinkovitost
Tehnologije velikih podataka mogu se koristiti za stvaranje prilaznog područja ili zone slijetanja za nove podatke prije utvrđivanja koje podatke treba premjestiti u skladište podataka. Osim toga, takva integracija Big Data tehnologija i skladišta podataka pomaže organizaciji da rastereti podatke kojima se rijetko pristupa.
Rezime
- Definicija Big Data: Big Data znači podatak koji je ogromne veličine. Bigdata je pojam koji se koristi za opisivanje zbirke podataka koja je ogromna, a koja ipak eksponencijalno raste s vremenom.
- Primjeri analitike velikih podataka uključuju burze, stranice društvenih medija, mlazne motore itd.
- Veliki podaci mogu biti 1) strukturirani, 2) nestrukturirani, 3) polustrukturirani
- Volumen, raznolikost, brzina i varijabilnost nekoliko su karakteristika Big Data
- Poboljšana korisnička usluga, bolja operativna učinkovitost, bolje donošenje odluka neke su od prednosti Bigdata