Co je Data Science? Úvod, Základní Concepts & Zpracovat
Co je to Data Science?
Data Science je oblast studia, která zahrnuje získávání poznatků z obrovského množství dat pomocí různých vědeckých metod, algoritmů a procesů. Pomůže vám objevit skryté vzorce z nezpracovaných dat. Termín Data Science se objevil v důsledku vývoje matematické statistiky, analýzy dat a velké údajů.
Data Science je interdisciplinární obor, který vám umožňuje extrahovat znalosti ze strukturovaných nebo nestrukturovaných dat. Data science vám umožňuje převést obchodní problém do výzkumného projektu a následně jej převést zpět do praktického řešení.
Proč Data Science?
Zde jsou významné výhody používání technologie Data Analytics:
- Data jsou ropou pro dnešní svět. Se správnými nástroji, technologiemi, algoritmy můžeme data využít a převést je na výraznou obchodní výhodu
- Data Science vám může pomoci odhalit podvody pomocí pokročilých algoritmů strojového učení
- Pomůže vám to předejít významným finančním ztrátám
- Umožňuje budovat schopnost inteligence ve strojích
- Můžete provádět analýzu sentimentu, abyste změřili loajalitu zákazníků ke značce
- Umožňuje vám přijímat lepší a rychlejší rozhodnutí
- Pomáhá vám doporučit správný produkt správnému zákazníkovi a zlepšit tak vaše podnikání
Komponenty datové vědy
Statistika
Statistika je nejkritičtější jednotkou základů datové vědy a je to metoda nebo věda shromažďování a analýzy numerických dat ve velkém množství za účelem získání užitečných informací.
Vizualizace
Technika vizualizace vám pomáhá přistupovat k obrovskému množství dat ve snadno srozumitelných a stravitelných vizuálech.
Strojové učení
Strojové učení zkoumá vytváření a studium algoritmů, které se učí předpovídat nepředvídaná/budoucí data.
Hluboké učení
Hluboké učení metoda je nový výzkum strojového učení, kde algoritmus vybírá model analýzy, který se má následovat.
Data Science Process
Nyní v tomto Výuka datové vědy, naučíme se Data Science Process:
1. Objev
Krok zjišťování zahrnuje získání dat ze všech identifikovaných interních a externích zdrojů, což vám pomůže odpovědět na obchodní otázku.
Údaje mohou být:
- Protokoly z webových serverů
- Data shromážděná ze sociálních médií
- Datové soubory sčítání
- Data streamovaná z online zdrojů pomocí rozhraní API
2. Příprava
Data mohou mít mnoho nekonzistencí, jako jsou chybějící hodnoty, prázdné sloupce, nesprávný formát dat, které je třeba vyčistit. Před modelováním musíte zpracovat, prozkoumat a upravit data. Čím čistší jsou vaše data, tím lepší jsou vaše předpovědi.
3. Plánování modelu
V této fázi musíte určit metodu a techniku, jak nakreslit vztah mezi vstupními proměnnými. Plánování modelu se provádí pomocí různých statistických vzorců a vizualizační nástroje. Některé z nástrojů používaných pro tento účel jsou služby analýzy SQL, R a SAS/access.
4. Stavba modelu
V tomto kroku začíná vlastní proces vytváření modelu. Zde Data scientist distribuuje datové sady pro školení a testování. Techniky jako asociace, klasifikace a shlukování jsou aplikovány na trénovací datovou sadu. Jakmile je model připraven, je testován proti „testovací“ datové sadě.
5. Operanacionalizovat
V této fázi dodáváte konečný základní model se zprávami, kódem a technickými dokumenty. Model je po důkladném testování nasazen do produkčního prostředí v reálném čase.
6. Sdělte výsledky
V této fázi jsou klíčová zjištění sdělena všem zainteresovaným stranám. To vám pomůže rozhodnout, zda jsou výsledky projektu úspěšné nebo neúspěšné na základě vstupů z modelu.
Data Science Jobs Role
Nejvýznamnější pracovní pozice Data Scientist jsou:
- Datový vědec
- Datový inženýr
- Analyzátor dat
- Statistik
- Data Architect
- Správce dat
- Business Analyst
- Data/Analytics Manager
Pojďme se podrobně dozvědět, co každá role obnáší:
Datový vědec
Role: Data Scientist je profesionál, který spravuje obrovské množství dat, aby pomocí různých nástrojů, technik, metodologií, algoritmů atd. přišel s přesvědčivými obchodními vizemi.
Jazyky: R, SAS, Python, SQL, Hive, Matlab, Prase, Spark
Datový inženýr
Role: Role a datový inženýr je práce s velkým množstvím dat. Vyvíjí, konstruuje, testuje a udržuje architektury, jako jsou rozsáhlé systémy zpracování a databáze.
Jazyky: SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C++ a Perl
Analyzátor dat
Role: Datový analytik je zodpovědný za těžbu obrovského množství dat. Budou hledat vztahy, vzorce, trendy v datech. Later bude poskytovat přesvědčivé reporty a vizualizace pro analýzu dat, aby bylo možné přijímat nejschůdnější obchodní rozhodnutí.
Jazyky: R, Python, HTML, JS, C, C++, SQL
Statistik
Role: Statistik shromažďuje, analyzuje a rozumí kvalitativním a kvantitativním datům pomocí statistických teorií a metod.
Jazyky: SQL, R, Matlab, Tableau, Python, Perl, Sparka Úl
Správce dat
Role: Správce dat by měl zajistit, aby databáze je přístupný všem relevantním uživatelům. Také zajišťuje, že funguje správně a chrání jej před suchý.
Jazyky: Ruby on Rails, SQL, Java, C# a Python
Business Analyst
Role: Tento profesionál potřebuje zlepšit obchodní procesy. Je prostředníkem mezi obchodním týmem a IT oddělením.
Jazyky: SQL, Tableau, Power BI a, Python
Přečtěte si také Otázky a odpovědi k rozhovoru Data Science: Klikněte zde
Nástroje pro datovou vědu
Analýza dat | Skladování dat | Vizualizace dat | Strojové učení |
---|---|---|---|
R, Spark, Python si SAS | Hadoop, SQL, Úl | R, Výjev, Drsný | Spark, Azure ML studio, Mahout |
Rozdíl mezi datovou vědou a BI (Business Intelligence)
parametry | Business Intelligence | Data Science |
---|---|---|
Vnímání | ohlédnutí zpět | Těšíme se |
Zdroje dat | Strukturovaná data. Většinou SQL, ale nějakou dobu Data Warehouse) | Strukturovaná a nestrukturovaná data. Stejně jako protokoly, SQL, NoSQL nebo text |
Přístup | Statistiky a vizualizace | Statistiky, strojové učení a graf |
důraz | Minulost a současnost | Analýza a neurolingvistické programování |
Tools | Pentaho. Microsoft Bl, QlikView, | R, TensorFlow |
Přečtěte si také rozdíl mezi Data Science vs Machine: Klikněte zde
Aplikace datové vědy
Některé aplikace Data Science jsou:
Hledání na internetu
Vyhledávání Google využívá technologii Data science k vyhledání konkrétního výsledku během zlomku sekundy
Systémy doporučení
Vytvořit systém doporučení. Například „doporučení přátelé“ na Facebooku nebo navrhovaná videa na YouTube, vše se děje s pomocí Data Science.
Rozpoznávání obrazu a řeči
Řeč rozpoznává systémy jako Siri, Google Assistant a Alexa běžící na technice Data science. Facebook navíc rozpozná vašeho přítele, když s ním nahrajete fotku, s pomocí Data Science.
Herní svět
EA Sports, Sony, Nintendo využívají technologii Data science. To vylepší váš herní zážitek. Hry jsou nyní vyvíjeny pomocí technik strojového učení a mohou se samy aktualizovat, když přejdete na vyšší úrovně.
Online srovnání cen
PriceRunner, Junglee, Shopzilla pracují na mechanismu Data science. Zde jsou data načítána z příslušných webových stránek pomocí API.
Výzvy technologie Data Science
- Pro přesnou analýzu je zapotřebí velké množství informací a dat
- Není k dispozici dostatečný počet talentů pro datovou vědu
- Vedení neposkytuje finanční podporu týmu pro vědu o datech
- Nedostupnost/obtížný přístup k datům
- Podnikatelé s rozhodovací pravomocí efektivně nevyužívají výsledky datové vědy
- Vysvětlit datovou vědu ostatním je obtížné
- Problémy se soukromím
- Nedostatek významného doménového experta
- Pokud je organizace velmi malá, nemůže mít tým Data Science
Shrnutí
- Data Science je oblast studia, která zahrnuje získávání poznatků z obrovského množství dat pomocí různých vědeckých metod, algoritmů a procesů.
- Statistika, vizualizace, hluboké učení, strojové učení jsou důležité koncepty datové vědy.
- Data Science Process prochází objevováním, přípravou dat, plánováním modelu, vytvářením modelů, Operanacionalizovat, sdělovat výsledky.
- Důležité pracovní role Data Scientist jsou: 1) Data Scientist 2) Data Engineer 3) Data Analyst 4) Statistics 5) Data Architect 6) Data Admin 7) Business Analyst 8) Data/Analytics Manager.
- R, SQL, Python, SaS jsou základní nástroje Data science.
- Předpovědi Business Intelligence se dívají zpět, zatímco pro Data Science se dívá dopředu.
- Důležité aplikace datové vědy jsou 1) Internetové vyhledávání 2) Doporučovací systémy 3) Rozpoznávání obrazu a řeči 4) Herní svět 5) Online srovnání cen.
- Velká rozmanitost informací a dat je největší výzvou technologie Data science.