Što je Data Science? Uvod, Bašić Concepts & Postupak
Što je znanost o podacima?
Znanost podatke je područje proučavanja koje uključuje izvlačenje uvida iz golemih količina podataka korištenjem različitih znanstvenih metoda, algoritama i procesa. Pomaže vam otkriti skrivene uzorke iz neobrađenih podataka. Izraz Data Science pojavio se zbog evolucije matematičke statistike, analize podataka i Veliki podataka.
Znanost o podacima je interdisciplinarno polje koje vam omogućuje izvlačenje znanja iz strukturiranih ili nestrukturiranih podataka. Znanost o podacima omogućuje vam da prevedete poslovni problem u istraživački projekt i zatim ga prevedete natrag u praktično rješenje.
Zašto Data Science?
Evo značajnih prednosti korištenja tehnologije analize podataka:
- Podaci su ulje za današnji svijet. S pravim alatima, tehnologijama, algoritmima možemo koristiti podatke i pretvoriti ih u izrazitu poslovnu prednost
- Data Science može vam pomoći da otkrijete prijevaru pomoću naprednih algoritama strojnog učenja
- Pomaže vam da spriječite značajne novčane gubitke
- Omogućuje izgradnju sposobnosti inteligencije u strojevima
- Možete izvršiti analizu sentimenta kako biste procijenili lojalnost kupaca robnoj marki
- Omogućuje vam donošenje boljih i bržih odluka
- Pomaže vam da preporučite pravi proizvod pravom kupcu kako biste poboljšali svoje poslovanje
Komponente znanosti o podacima
Statistika
Statistika je najkritičnija jedinica osnova znanosti o podacima, a to je metoda ili znanost prikupljanja i analize brojčanih podataka u velikim količinama kako bi se dobili korisni uvidi.
Vizualizacija
Tehnika vizualizacije pomaže vam pristupiti ogromnim količinama podataka u lako razumljivim i probavljivim vizualnim prikazima.
Strojno učenje
Strojno učenje istražuje izgradnju i proučavanje algoritama koji uče predviđati nepredviđene/buduće podatke.
Duboko učenje
Duboko učenje metoda je novo istraživanje strojnog učenja gdje algoritam odabire model analize koji će slijediti.
Proces znanosti o podacima
Sada u ovome Vodič za znanost o podacima, naučit ćemo proces znanosti o podacima:
1. Otkriće
Korak otkrivanja uključuje prikupljanje podataka iz svih identificiranih unutarnjih i vanjskih izvora, što vam pomaže odgovoriti na poslovno pitanje.
Podaci mogu biti:
- Dnevnici s web poslužitelja
- Podaci prikupljeni s društvenih medija
- Skupovi popisnih podataka
- Podaci se prenose iz mrežnih izvora pomoću API-ja
2. Priprema
Podaci mogu sadržavati mnoge nedosljednosti poput vrijednosti koje nedostaju, praznih stupaca, neispravnog formata podataka, što je potrebno očistiti. Morate obraditi, istražiti i uvjetovati podatke prije modeliranja. Što su vaši podaci čišći, to su vaša predviđanja bolja.
3. Planiranje modela
U ovoj fazi trebate odrediti metodu i tehniku crtanja odnosa između ulaznih varijabli. Planiranje modela provodi se korištenjem različitih statističkih formula i alati za vizualizaciju. SQL analitičke usluge, R i SAS/access neki su od alata koji se koriste u tu svrhu.
4. Izrada modela
U ovom koraku počinje stvarni proces izgradnje modela. Ovdje Data scientist distribuira skupove podataka za obuku i testiranje. Tehnike poput povezivanja, klasifikacije i grupiranja primjenjuju se na skup podataka za obuku. Jednom pripremljen model testira se u odnosu na skup podataka za "testiranje".
5. Operanacionalizirati
U ovoj fazi isporučujete konačni osnovni model s izvješćima, kodom i tehničkim dokumentima. Model se implementira u proizvodno okruženje u stvarnom vremenu nakon temeljitog testiranja.
6. Komunicirajte rezultate
U ovoj fazi, ključni nalazi se priopćuju svim dionicima. To vam pomaže da odlučite jesu li rezultati projekta uspješni ili neuspješni na temelju ulaznih podataka iz modela.
Uloge poslova u znanosti o podacima
Najistaknutiji poslovi Data Scientista su:
- Data Scientist
- Inženjer podataka
- Analitičar podataka
- Statističar
- Datum Archizaötitili
- Administrator podataka
- Poslovni analitičar
- Upravitelj podataka/analitike
Naučimo detaljno što svaka uloga uključuje:
Data Scientist
Uloga: Data Scientist je profesionalac koji upravlja golemim količinama podataka kako bi došao do uvjerljivih poslovnih vizija koristeći različite alate, tehnike, metodologije, algoritme itd.
jezici: R, SAS, Python, SQL, Hive, Matlab, Pig, Spark
Inženjer podataka
Uloga: Uloga a inženjer podataka je rad s velikim količinama podataka. On razvija, konstruira, testira i održava arhitekture poput sustava za obradu velikih razmjera i baza podataka.
jezici: SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C++ i Perl
Analitičar podataka
Uloga: Analitičar podataka odgovoran je za rudarenje golemih količina podataka. Tražit će odnose, obrasce, trendove u podacima. Later on ili ona će isporučiti uvjerljivo izvješćivanje i vizualizaciju za analizu podataka za donošenje najodrživijih poslovnih odluka.
jezici: R, Python, HTML, JS, C, C++, SQL
Statističar
Uloga: Statističar prikuplja, analizira i razumije kvalitativne i kvantitativne podatke koristeći se statističkim teorijama i metodama.
jezici: SQL, R, Matlab, Tableau, Python, Perl, Sparki Košnica
Administrator podataka
Uloga: Administrator podataka treba osigurati da baza podataka dostupan je svim relevantnim korisnicima. On također osigurava da radi ispravno i štiti ga od cjepkanje.
jezici: Ruby on Rails, SQL, Java, C# i Python
Poslovni analitičar
Uloga: Ovaj stručnjak treba poboljšati poslovne procese. On/ona je posrednik između poslovnog izvršnog tima i IT odjela.
jezici: SQL, Tableau, Power BI i, Python
Također, pročitajte Pitanja i odgovore za intervjue znanosti o podacima: Klikni ovdje
Alati za podatkovnu znanost
Analiza podataka | Skladištenje podataka | Statistike | Strojno učenje |
---|---|---|---|
R, Spark, Python i SAS | Hadoop, SQL, Košnica | R, Tablo, Sirovo | Spark, Azure ML studio, Mahout |
Razlika između znanosti o podacima i BI (poslovna inteligencija)
Parametri | Business Intelligence | Znanost podatke |
---|---|---|
Percepcija | gledajući unatrag | Gledajući naprijed |
Izvori podataka | Strukturirani podaci. Uglavnom SQL, ali neko vrijeme skladište podataka) | Strukturirani i nestrukturirani podaci. Kao zapisnici, SQL, NoSQL ili tekst |
Pristup | Statistika i vizualizacija | Statistika, strojno učenje i grafikon |
isticanje | Prošlost i sadašnjost | Analiza i neurolingvističko programiranje |
Alati | Pentaho. Microsoft Bl, QlikView, | R, TensorFlow |
Također, pročitajte razliku između Data Science i Machine: Klikni ovdje
Primjena znanosti o podacima
Neke primjene znanosti o podacima su:
Internet pretraživanje
Google pretraživanje koristi tehnologiju znanosti o podacima za traženje određenog rezultata u djeliću sekunde
Sustavi preporuka
Za stvaranje sustava preporuka. Na primjer, “predloženi prijatelji” na Facebooku ili predloženi videozapisi” na YouTube, sve se radi uz pomoć Data Science.
Prepoznavanje slike i govora
Sustavi za prepoznavanje govora kao što su Siri, Google Assistant i Alexa rade na tehnici Data science. Štoviše, Facebook prepoznaje vašeg prijatelja kada postavite fotografiju s njim, uz pomoć Data Science.
Svijet igara
EA Sports, Sony, Nintendo koriste tehnologiju znanosti o podacima. Ovo poboljšava vaše iskustvo igranja. Igre su sada razvijene pomoću tehnika strojnog učenja i mogu se same ažurirati kada prijeđete na više razine.
Online usporedba cijena
PriceRunner, Junglee, Shopzilla rade na Data science mehanizmu. Ovdje se podaci dohvaćaju s relevantnih web stranica pomoću API-ja.
Izazovi tehnologije znanosti o podacima
- Za točnu analizu potrebna je velika raznolikost informacija i podataka
- Nije dostupan odgovarajući fond talenata za znanost podataka
- Uprava ne pruža financijsku potporu timu za podatkovne znanosti
- Nedostupnost/otežan pristup podacima
- Donositelji poslovnih odluka ne koriste učinkovito podatke Znanstvene rezultate
- Teško je drugima objasniti znanost o podacima
- Problemi s privatnošću
- Nedostatak značajnog stručnjaka za domenu
- Ako je organizacija vrlo mala, ne može imati tim za znanost podataka
rezime
- Data Science je područje proučavanja koje uključuje izvlačenje uvida iz golemih količina podataka korištenjem različitih znanstvenih metoda, algoritama i procesa.
- Statistika, vizualizacija, duboko učenje, strojno učenje važni su koncepti znanosti o podacima.
- Proces znanosti o podacima prolazi kroz otkrivanje, pripremu podataka, planiranje modela, izgradnju modela, Operanacionalizirati, priopćiti rezultate.
- Važne radne uloge Data Scientista su: 1) Data Scientist 2) Data Engineer 3) Data Analyst 4) Data Scientist 5) Data Architect 6) Data Admin 7) Poslovni analitičar 8) Data/Analytics Manager.
- R, SQL, Python, SaS ključni su alati za znanost o podacima.
- Predviđanja Business Intelligencea gledaju unatrag, dok za Data Science gledaju naprijed.
- Važne primjene znanosti o podacima su 1) Internet pretraživanje 2) Sustavi preporuka 3) Prepoznavanje slike i govora 4) Svijet igara 5) Usporedba online cijena.
- Velika raznolikost informacija i podataka najveći je izazov tehnologije znanosti o podacima.