Co to jest nauka danych? Wprowadzenie, podstawowe Concepts & Proces
Co to jest Data Science?
Nauka danych to obszar badaล obejmujฤ cy wydobywanie spostrzeลผeล z ogromnych iloลci danych przy uลผyciu rรณลผnych naukowych metod, algorytmรณw i procesรณw. Pomaga odkryฤ ukryte wzorce w surowych danych. Termin Data Science pojawiล siฤ z powodu ewolucji statystyki matematycznej, analizy danych i big danych.
Data Science to interdyscyplinarna dziedzina, ktรณra pozwala wydobywaฤ wiedzฤ z danych ustrukturyzowanych lub nieustrukturyzowanych. Analiza danych pozwala przeลoลผyฤ problem biznesowy na projekt badawczy, a nastฤpnie przeลoลผyฤ go z powrotem na praktyczne rozwiฤ zanie.
Dlaczego analiza danych?
Oto znaczฤ ce zalety stosowania technologii analizy danych:
- Dane sฤ olejem dla dzisiejszego ลwiata. Dziฤki odpowiednim narzฤdziom, technologiom, algorytmom moลผemy wykorzystaฤ dane i przeksztaลciฤ je w wyraลบnฤ przewagฤ biznesowฤ
- Nauka o danych moลผe pomรณc Ci wykryฤ oszustwa przy uลผyciu zaawansowanych algorytmรณw uczenia maszynowego
- Pomaga zapobiegaฤ znaczฤ cym stratom pieniฤลผnym
- Pozwala budowaฤ zdolnoลci inteligencji w maszynach
- Moลผesz przeprowadziฤ analizฤ nastrojรณw, aby zmierzyฤ lojalnoลฤ klientรณw wobec marki
- Dziฤki niemu moลผesz podejmowaฤ lepsze i szybsze decyzje
- Pomaga Ci poleciฤ wลaลciwy produkt wลaลciwemu klientowi, aby ulepszyฤ Twรณj biznes

Komponenty nauki o danych
Statystyki
Statystyka jest najwaลผniejszฤ jednostkฤ podstaw nauki o danych i jest metodฤ lub naukฤ polegajฤ cฤ na gromadzeniu i analizowaniu danych liczbowych w duลผych iloลciach w celu uzyskania przydatnych spostrzeลผeล.
Wizualizacja
Technika wizualizacji pomaga uzyskaฤ dostฤp do ogromnych iloลci danych w formie ลatwych do zrozumienia i przyswajalnych wizualizacji.
Nauczanie maszynowe
Nauczanie maszynowe zajmuje siฤ tworzeniem i badaniem algorytmรณw, ktรณre uczฤ siฤ formuลowaฤ przewidywania na podstawie nieprzewidzianych/przyszลych danych.
gลฤboki Learning
gลฤboki Learning metoda to nowe badania nad uczeniem maszynowym, w ktรณrych algorytm wybiera model analityczny, ktรณry ma zastosowaฤ.
Proces nauki danych
Teraz w tym Samouczek dotyczฤ cy nauki o danych, poznamy Proces Nauki Danych:
1. Odkrycie
Etap odkrywania polega na pozyskaniu danych ze wszystkich zidentyfikowanych ลบrรณdeล wewnฤtrznych i zewnฤtrznych, co pomaga odpowiedzieฤ na pytanie biznesowe.
Dane mogฤ byฤ:
- Logi z serwerรณw WWW
- Dane zebrane z mediรณw spoลecznoลciowych
- Zbiory danych spisowych
- Dane przesyลane strumieniowo ze ลบrรณdeล internetowych przy uลผyciu interfejsรณw API
2. Przygotowanie
Dane mogฤ zawieraฤ wiele niespรณjnoลci, takich jak brakujฤ ce wartoลci, puste kolumny, nieprawidลowy format danych, ktรณry naleลผy wyczyลciฤ. Przed modelowaniem naleลผy przetworzyฤ, eksplorowaฤ i kondycjonowaฤ dane. Im czystsze sฤ Twoje dane, tym lepsze sฤ Twoje przewidywania.
3. Planowanie modelowe
Na tym etapie naleลผy okreลliฤ metodฤ i technikฤ rysowania relacji pomiฤdzy zmiennymi wejลciowymi. Planowanie modelu odbywa siฤ przy uลผyciu rรณลผnych wzorรณw statystycznych i narzฤdzia do wizualizacji. Usลugi analizy SQL, R i SAS/access to tylko niektรณre z narzฤdzi wykorzystywanych w tym celu.
4. Budowa modelu
Na tym etapie rozpoczyna siฤ rzeczywisty proces budowania modelu. Tutaj Data Scientist dystrybuuje zestawy danych do szkolenia i testowania. Techniki takie jak asocjacja, klasyfikacja i klastrowanie sฤ stosowane do zestawu danych szkoleniowych. Po przygotowaniu model jest testowany wzglฤdem zestawu danych โtestowychโ.
5. Operanacjonalizowaฤ
Na tym etapie dostarczasz ostateczny model bazowy z raportami, kodem i dokumentami technicznymi. Model jest wdraลผany w ลrodowisku produkcyjnym w czasie rzeczywistym po dokลadnym przetestowaniu.
6. Komunikuj wyniki
Na tym etapie najwaลผniejsze ustalenia sฤ przekazywane wszystkim zainteresowanym stronom. Pomaga to w podjฤciu decyzji, czy wyniki projektu okaลผฤ siฤ sukcesem, czy poraลผkฤ , na podstawie danych wejลciowych z modelu.
Role w pracy zwiฤ zanej z naukฤ o danych
Najbardziej znane stanowiska analitykรณw danych to:
- Dane Scientist
- Data Engineer
- Analityk danych
- Statystyk
- Dane ArchiTECT
- Administrator danych
- Analitycy Biznesowi
- Menedลผer danych/analiz
Przyjrzyjmy siฤ szczegรณลowo, na czym polega kaลผda rola:
Dane Scientist
Rola: Data Scientist to specjalista, ktรณry zarzฤ dza ogromnymi zbiorami danych w celu opracowywania interesujฤ cych wizji biznesowych przy uลผyciu rรณลผnych narzฤdzi, technik, metodologii, algorytmรณw itp.
Jฤzyki: R, SAS, Python, SQL, Hive, Matlab, ลwinia, Spark
Data Engineer
Rola: Rola A inลผynier danych jest praca z duลผymi iloลciami danych. Rozwija, konstruuje, testuje i utrzymuje architektury takie jak systemy przetwarzania na duลผฤ skalฤ i bazy danych.
Jฤzyki: SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C++ i Perl
Analityk danych
Rola: Analityk danych jest odpowiedzialny za eksploracjฤ ogromnych iloลci danych. Bฤdฤ szukaฤ zaleลผnoลci, wzorcรณw, trendรณw w danych. Later dostarczy przekonujฤ ce raporty i wizualizacje umoลผliwiajฤ ce analizฤ danych w celu podjฤcia najbardziej realnych decyzji biznesowych.
Jฤzyki: R, Python, HTML, JS, C, C++, SQL
Statystyk
Rola: Statystyk gromadzi, analizuje i rozumie dane jakoลciowe i iloลciowe, korzystajฤ c z teorii i metod statystycznych.
Jฤzyki: SQL, R, Matlab, Tableau, Python, Perล, Sparki Ula
Administrator danych
Rola: Administrator danych powinien upewniฤ siฤ, ลผe plik baza danych jest dostฤpny dla wszystkich odpowiednich uลผytkownikรณw. Zapewnia rรณwnieลผ, ลผe dziaลa prawidลowo i chroni go przed wลamanie.
Jฤzyki: Ruby on Rails, SQL, Java, C# i Python
Analitycy Biznesowi
Rola: Ten profesjonalista musi ulepszyฤ procesy biznesowe. Jest poลrednikiem pomiฤdzy zespoลem wykonawczym firmy a dziaลem IT.
Jฤzyki: SQL, Tableau, Power BI i, Python
Przeczytaj takลผe pytania i odpowiedzi dotyczฤ ce wywiadu dotyczฤ cego analityki danych: Kliknij tutaj
Narzฤdzia do nauki o danych
| Analiza danych | Magazyn danych | Wizualizacja danych | Nauczanie maszynowe |
|---|---|---|---|
| R, Spark, Python oraz SAS | Hadoop, SQL, Ul | R, ลปywy obraz, Surowy | Spark, Azure Studio ML, Mahout |
Rรณลผnica miฤdzy naukฤ o danych a BI (Business Intelligence)
| Parametry | Wywiad Gospodarczy | Nauka danych |
|---|---|---|
| Postrzeganie | Patrzฤ c wstecz | Patrzฤ c w przyszลoลฤ |
| ลนrรณdลa danych | Dane strukturalne. Gลรณwnie SQL, ale czasami hurtownia danych) | Dane strukturalne i nieustrukturyzowane. Podobnie jak dzienniki, SQL, NoSQL lub tekst |
| Podejลcie | Statystyki i wizualizacje | Statystyki, uczenie maszynowe i wykresy |
| nacisk | Przeszลoลฤ i teraลบniejszoลฤ | Analiza i programowanie neurolingwistyczne |
| Narzฤdzia | Pentaho. Microsoft Bl, QlikView, | R, TensorFlow |
Przeczytaj takลผe rรณลผnicฤ miฤdzy naukฤ o danych a maszynฤ : Kliknij tutaj
Zastosowania nauki o danych
Niektรณre zastosowania nauki o danych to:
Wyszukiwanie w Internecie
Wyszukiwarka Google korzysta z technologii analizy danych, aby wyszukaฤ konkretny wynik w uลamku sekundy
Systemy rekomendacji
Stworzenie systemu rekomendacji. Na przykลad โsugerowani znajomiโ na Facebooku lub sugerowane filmy wideo na stronie YouTube, wszystko odbywa siฤ za pomocฤ Data Science.
Rozpoznawanie obrazu i mowy
Mowa rozpoznaje systemy takie jak Siri, Google Assistant i Alexa, ktรณre dziaลajฤ w oparciu o technikฤ analizy danych. Co wiฤcej, Facebook rozpoznaje Twojego znajomego, gdy przesyลasz z nim zdjฤcie, za pomocฤ Data Science.
ลwiat gier
EA Sports, Sony i Nintendo korzystajฤ z technologii Data Science. Zwiฤksza to Twoje wraลผenia z gry. Gry sฤ obecnie tworzone przy uลผyciu technik uczenia maszynowego i mogฤ siฤ same aktualizowaฤ, gdy przejdziesz na wyลผszy poziom.
Porรณwnanie cen w Internecie
PriceRunner, Junglee, Shopzilla pracujฤ nad mechanizmem Data Science. W tym przypadku dane sฤ pobierane z odpowiednich stron internetowych za pomocฤ interfejsรณw API.
Wyzwania technologii nauki o danych
- Do dokลadnej analizy wymagana jest duลผa rรณลผnorodnoลฤ informacji i danych
- Niedostฤpna odpowiednia pula talentรณw do analityki danych
- Kierownictwo nie zapewnia wsparcia finansowego zespoลowi zajmujฤ cemu siฤ analizฤ danych
- Niedostฤpnoลฤ/trudny dostฤp do danych
- Decydenci biznesowi nie wykorzystujฤ efektywnie wynikรณw Data Science
- Wyjaลnianie innym nauki o danych jest trudne
- Prywatne problemy
- Brak znaczฤ cego eksperta dziedzinowego
- Jeลli organizacja jest bardzo maลa, nie moลผe mieฤ zespoลu Data Science
Podsumowanie
- Nauka o danych to dziedzina nauki zajmujฤ ca siฤ wyciฤ ganiem wnioskรณw z ogromnych iloลci danych przy uลผyciu rรณลผnych metod naukowych, algorytmรณw i procesรณw.
- Statystyka, wizualizacja, gลฤbokie uczenie i uczenie maszynowe to waลผne koncepcje nauki o danych.
- Proces nauki o danych obejmuje odkrywanie, przygotowywanie danych, planowanie modelu, budowanie modelu, Operacjonalizowaฤ i komunikowaฤ wyniki.
- Waลผne role na stanowisku analityka danych to: 1) analityk danych 2) inลผynier danych 3) analityk danych 4) statystyk 5) dane Architect 6) Administrator danych 7) Analityk biznesowy 8) Menedลผer danych/analitykรณw.
- R, SQL, Python, SaS to podstawowe narzฤdzia do nauki o danych.
- Przewidywania Business Intelligence patrzฤ wstecz, natomiast w przypadku Data Science patrzฤ w przyszลoลฤ.
- Waลผne zastosowania nauki o danych to 1) Wyszukiwanie w Internecie 2) Systemy rekomendacji 3) Rozpoznawanie obrazu i mowy 4) ลwiat gier 5) Porรณwnywarka cen online.
- Duลผa rรณลผnorodnoลฤ informacji i danych jest najwiฤkszym wyzwaniem technologii analityki danych.



