Ce este Data Science? Introducere, de bază Concepts & Proces
Ce este știința datelor?
Știința datelor este domeniul de studiu care implică extragerea de informații din cantități mari de date folosind diverse metode, algoritmi și procese științifice. Vă ajută să descoperiți modele ascunse din datele brute. Termenul Data Science a apărut datorită evoluției statisticii matematice, analizei datelor și Datele mari.
Știința datelor este un domeniu interdisciplinar care vă permite să extrageți cunoștințe din date structurate sau nestructurate. Știința datelor vă permite să traduceți o problemă de afaceri într-un proiect de cercetare și apoi să o traduceți înapoi într-o soluție practică.
De ce Data Science?
Iată avantajele semnificative ale utilizării tehnologiei de analiză a datelor:
- Datele sunt petrolul pentru lumea de astăzi. Cu instrumentele, tehnologiile, algoritmii potriviti, putem folosi datele și le putem transforma într-un avantaj distinct de afaceri
- Știința datelor vă poate ajuta să detectați frauda folosind algoritmi avansați de învățare automată
- Vă ajută să preveniți orice pierderi monetare semnificative
- Permite dezvoltarea abilității de inteligență în mașini
- Puteți efectua o analiză a sentimentelor pentru a măsura loialitatea clienților față de marca
- Vă permite să luați decizii mai bune și mai rapide
- Vă ajută să recomandați produsul potrivit clientului potrivit pentru a vă îmbunătăți afacerea
Componentele Data Science
Statistici
Statistica este cea mai critică unitate a elementelor de bază ale științei datelor și este metoda sau știința de a colecta și analiza date numerice în cantități mari pentru a obține informații utile.
Vizualizare
Tehnica de vizualizare vă ajută să accesați cantități uriașe de date în imagini ușor de înțeles și digerabile.
Invatare mecanica
Invatare mecanica explorează construirea și studiul algoritmilor care învață să facă predicții despre date neprevăzute/viitoare.
Invatare profunda
Invatare profunda metoda este o nouă cercetare de învățare automată în care algoritmul selectează modelul de analiză de urmat.
Procesul de știință a datelor
Acum în asta Tutorial știința datelor, vom învăța Procesul Data Science:
1. Descoperire
Etapa de descoperire implică achiziția de date din toate sursele interne și externe identificate, ceea ce vă ajută să răspundeți la întrebarea de afaceri.
Datele pot fi:
- Jurnalele de la servere web
- Date culese de pe rețelele de socializare
- Seturi de date de recensământ
- Date transmise în flux din surse online folosind API-uri
2. preparare
Datele pot avea multe inconsecvențe, cum ar fi valori lipsă, coloane goale, un format de date incorect, care trebuie curățat. Trebuie să procesați, să explorați și să condiționați datele înainte de modelare. Cu cât datele tale sunt mai curate, cu atât previziunile tale sunt mai bune.
3. Planificarea modelului
În această etapă, trebuie să determinați metoda și tehnica de a desena relația dintre variabilele de intrare. Planificarea unui model se realizează prin utilizarea diferitelor formule statistice și instrumente de vizualizare. Serviciile de analiză SQL, R și SAS/access sunt câteva dintre instrumentele utilizate în acest scop.
4. Construirea modelelor
În acest pas, începe procesul real de construire a modelului. Aici, Data scientist distribuie seturi de date pentru instruire și testare. Tehnici precum asocierea, clasificarea și gruparea sunt aplicate setului de date de antrenament. Modelul, odată pregătit, este testat pe baza setului de date „de testare”.
5. Operationalizezi
În această etapă, livrați modelul de bază final cu rapoarte, cod și documente tehnice. Modelul este implementat într-un mediu de producție în timp real după testare amănunțită.
6. Comunicați rezultatele
În această etapă, principalele constatări sunt comunicate tuturor părților interesate. Acest lucru vă ajută să decideți dacă rezultatele proiectului sunt un succes sau un eșec pe baza intrărilor din model.
Roluri de locuri de muncă în știința datelor
Cele mai importante titluri de post de Data Scientist sunt:
- Om de stiinta de date
- Inginer de date
- Analist de date
- Statistician
- Date Architect
- Administrator de date
- Business Analyst
- Manager de date/analitice
Să aflăm în detaliu ce presupune fiecare rol:
Om de stiinta de date
Rol: Un Data Scientist este un profesionist care gestionează cantități enorme de date pentru a veni cu viziuni de afaceri convingătoare, folosind diverse instrumente, tehnici, metodologii, algoritmi etc.
Limbă: R, SAS, Python, SQL, Hive, Matlab, Pig, Spark
Inginer de date
Rol: Rolul unui inginer de date este de a lucra cu cantități mari de date. El dezvoltă, construiește, testează și întreține arhitecturi precum sisteme de procesare la scară largă și baze de date.
Limbă: SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C++ și Perl
Analist de date
Rol: Un analist de date este responsabil pentru extragerea unor cantități mari de date. Ei vor căuta relații, modele, tendințe în date. Later el sau ea va oferi rapoarte și vizualizari convingătoare pentru analiza datelor pentru a lua cele mai viabile decizii de afaceri.
Limbă: R, Python, HTML, JS, C, C++, SQL
Statistician
Rol: Statisticianul colectează, analizează și înțelege date calitative și cantitative folosind teorii și metode statistice.
Limbă: SQL, R, Matlab, Tableau, Python, Perl, Sparkși Hive
Administrator de date
Rol: Administratorul de date ar trebui să se asigure că Baza de date este accesibil tuturor utilizatorilor relevanți. De asemenea, se asigură că funcționează corect și îl păstrează în siguranță hacking.
Limbă: Ruby on Rails, SQL, Java, C# și Python
Business Analyst
Rol: Acest profesionist trebuie să îmbunătățească procesele de afaceri. El/ea este un intermediar între echipa executivă de afaceri și departamentul IT.
Limbă: SQL, Tableau, Power BI și, Python
De asemenea, citiți Întrebări și răspunsuri la interviu Data Science: Click aici
Instrumente pentru știința datelor
Analiza datelor | Depozitarea datelor | Vizualizarea datelor | Invatare mecanica |
---|---|---|---|
R, Spark, Python si SAS | Hadoop, SQL, Stup | R, Tablou, Brut | Spark, Azure Studio ML, Mahout |
Diferența dintre Data Science cu BI (Business Intelligence)
parametrii | Business Intelligence | Știința datelor |
---|---|---|
Percepţie | Privind înapoi | Perspective |
Surse de date | Date structurate. În mare parte SQL, dar cândva Data Warehouse) | Date structurate și nestructurate. Cum ar fi jurnalele, SQL, NoSQL sau text |
Abordarea | Statistici și vizualizare | Statistici, învățare automată și grafic |
Accent | Trecut și prezent | Analiză și programare neuro-lingvistică |
Instrumente | Pentaho. Microsoft Bl, QlikView, | R, TensorFlow |
De asemenea, citiți diferența dintre Data Science vs Machine: Click aici
Aplicații ale științei datelor
Unele aplicații ale științei datelor sunt:
Căutare pe Internet
Căutarea Google folosește tehnologia Data Science pentru a căuta un anumit rezultat într-o fracțiune de secundă
Sisteme de recomandare
Pentru a crea un sistem de recomandare. De exemplu, „prieteni sugerați” pe Facebook sau videoclipuri sugerate” pe YouTube, totul se face cu ajutorul Data Science.
Recunoașterea imaginii și a vorbirii
Discursul recunoaște sisteme precum Siri, Google Assistant și Alexa care rulează pe tehnica științei datelor. Mai mult, Facebook vă recunoaște prietenul atunci când încărcați o fotografie cu el, cu ajutorul Data Science.
Lumea jocurilor
EA Sports, Sony, Nintendo folosesc tehnologia Data Science. Acest lucru vă îmbunătățește experiența de joc. Jocurile sunt acum dezvoltate folosind tehnici de învățare automată și se pot actualiza singure atunci când treci la niveluri superioare.
Comparație de preț online
PriceRunner, Junglee, Shopzilla lucrează la mecanismul științei datelor. Aici, datele sunt preluate de pe site-urile web relevante folosind API-uri.
Provocările tehnologiei științei datelor
- Pentru o analiză precisă este necesară o mare varietate de informații și date
- Nu este disponibil un grup adecvat de talente în domeniul științei datelor
- Managementul nu oferă sprijin financiar pentru o echipă de știință a datelor
- Indisponibilitatea/accesul dificil la date
- Factorii de decizie în afaceri nu utilizează eficient rezultatele științei datelor
- Este dificil să explici altora știința datelor
- Probleme de confidențialitate
- Lipsa unui expert semnificativ în domeniu
- Dacă o organizație este foarte mică, nu poate avea o echipă de Data Science
Rezumat
- Știința datelor este domeniul de studiu care implică extragerea de informații din cantități mari de date prin utilizarea diferitelor metode, algoritmi și procese științifice.
- Statistica, vizualizarea, învățarea profundă, învățarea automată sunt concepte importante ale științei datelor.
- Procesul de știință a datelor trece prin Descoperire, Pregătire a datelor, Planificarea modelelor, Construirea modelelor, Operaționalizați, comunicați rezultatele.
- Rolurile importante ale postului de Data Scientist sunt: 1) Data Scientist 2) Data Engineer 3) Data Analyst 4) Statistician 5) Data Architect 6) Data Admin 7) Business Analyst 8) Data/Analytics Manager.
- R, SQL, Python, SaS sunt instrumente esențiale pentru știința datelor.
- Predicțiile Business Intelligence privesc înapoi, în timp ce pentru Data Science, privesc înainte.
- Aplicații importante ale științei datelor sunt 1) Căutarea pe Internet 2) Sistemele de recomandare 3) Recunoașterea imaginilor și a vorbirii 4) Lumea jocurilor 5) Compararea prețurilor online.
- Varietatea mare de informații și date este cea mai mare provocare a tehnologiei științei datelor.