50 nejlepších otázek a odpovědí na rozhovory o datové vědě (PDF)
Zde jsou otázky a odpovědi na pohovor Data Science pro čerstvější i zkušené kandidáty, aby získali svou vysněnou práci.
Otázky k pohovoru o datové vědě pro začátečníky
1. Co je Data Science?
Data Science je oblast studia, která zahrnuje získávání poznatků z obrovského množství dat pomocí různých vědeckých metod, algoritmů a procesů. Pomůže vám objevit skryté vzorce z nezpracovaných dat. Termín Data Science se objevil kvůli vývoji matematické statistiky, analýzy dat a velkých dat.
2. Jaký je rozdíl mezi datovou vědou a strojovým učením?
Data Science je kombinací algoritmů, nástrojů a techniky strojového učení, která vám pomůže najít společné skryté vzorce z daných nezpracovaných dat. Zatímco strojové učení je odvětví informatiky, které se zabývá systémovým programováním, aby se automaticky učilo a zlepšovalo se zkušenostmi.
3. Vyjmenujte tři typy zkreslení, které mohou nastat během vzorkování
V procesu vzorkování existují tři typy zkreslení, kterými jsou:
- Předpojatost výběru
- Zkreslení pod pokrytím
- Předpojatost k přežití
4. Diskutujte o algoritmu rozhodovacího stromu
Rozhodovací strom je populární algoritmus strojového učení pod dohledem. Používá se hlavně pro regresi a klasifikaci. Umožňuje rozdělit datovou sadu na menší podmnožiny. Rozhodovací strom dokáže zpracovat jak kategorická, tak číselná data.
5. Co je předchozí pravděpodobnost a pravděpodobnost?
Předchozí pravděpodobnost je podíl závislé proměnné v souboru dat, zatímco pravděpodobnost je pravděpodobnost klasifikace daného pozorovatele v přítomnosti nějaké jiné proměnné.
6. Vysvětlete systémy doporučení?
Je to podtřída technik filtrování informací. Pomáhá vám předvídat preference nebo hodnocení, která uživatelé pravděpodobně produktu dají.
7. Vyjmenujte tři nevýhody použití lineárního modelu
Tři nevýhody lineárního modelu jsou:
- Předpoklad linearity chyb.
- Tento model nemůžete použít pro binární nebo početní výsledky
- Existuje spousta přehnaných problémů, které to nedokáže vyřešit
8. Proč potřebujete provést převzorkování?
Převzorkování se provádí v níže uvedených případech:
- Odhad přesnosti statistiky vzorků náhodným čerpáním s nahrazením ze sady datových bodů nebo použitím jako podmnožiny dostupných dat
- Nahrazení štítků na datových bodech při provádění nezbytných testů
- Ověřování modelů pomocí náhodných podmnožin
9. Uveďte seznam knihoven Python používá se pro analýzu dat a vědecké výpočty.
10. Co je analýza síly?
Výkonová analýza je nedílnou součástí experimentálního návrhu. Pomůže vám určit požadovanou velikost vzorku, abyste zjistili účinek dané velikosti z příčiny se specifickou úrovní jistoty. Umožňuje také nasadit určitou pravděpodobnost v omezení velikosti vzorku.
11. Vysvětlete kolaborativní filtrování
Kolaborativní filtrování používané k hledání správných vzorů na základě spolupráce hledisek, více zdrojů dat a různých agentů.
12. Co je to zaujatost?
Zkreslení je chyba zavedená do vašeho modelu kvůli přílišnému zjednodušení algoritmu strojového učení.“ Může to vést k nedostatečnému vybavení.
13. Diskutujte o 'Naivní' v naivním Bayesově algoritmu?
Model Naive Bayes Algorithm je založen na Bayesově teorému. Popisuje pravděpodobnost události. Je založen na předchozí znalosti podmínek, které mohou souviset s touto konkrétní událostí.
14. Co je to lineární regrese?
Lineární regrese je metoda statistického programování, kde se skóre proměnné „A“ předpovídá ze skóre druhé proměnné „B“. B se označuje jako prediktorová proměnná a A jako kriteriální proměnná.
15. Uveďte rozdíl mezi očekávanou hodnotou a střední hodnotou
Není mezi nimi mnoho rozdílů, ale oba tyto termíny se používají v různých kontextech. Střední hodnota je obecně označována, když diskutujete o rozdělení pravděpodobnosti, zatímco očekávaná hodnota je uváděna v kontextu náhodné proměnné.
16. Jaký je cíl provádění A/B testování?
AB testování se používá k provádění náhodných experimentů se dvěma proměnnými, A a B. Cílem této testovací metody je zjistit změny na webové stránce za účelem maximalizace nebo zvýšení výsledku strategie.
17. Co je Ensemble Learning?
Soubor je metoda spojující různorodou skupinu studentů, aby improvizovali na stabilitu a prediktivní sílu modelu. Dva typy metod učení Ensemble jsou:
Balení
Metoda pytlování vám pomůže implementovat podobné studenty na malém vzorku populace. Pomůže vám to udělat bližší předpovědi.
Zvýšení
Boosting je iterativní metoda, která vám umožňuje upravit váhu pozorování v závislosti na poslední klasifikaci. Posílení snižuje chybu zkreslení a pomáhá vám vytvářet silné prediktivní modely.
18. Vysvětlete vlastní hodnotu a vlastní vektor
Vlastní vektory slouží k pochopení lineárních transformací. Datový vědec potřebuje vypočítat vlastní vektory pro kovarianční matici nebo korelaci. Vlastní čísla jsou směry podél pomocí konkrétních aktů lineární transformace stlačováním, překlápěním nebo roztahováním.
19. Definujte pojem křížová validace
Křížová validace je validační technika pro vyhodnocení toho, jak se výsledky statistické analýzy zobecní pro nezávislý soubor dat. Tato metoda se používá v prostředích, kde je cílem prognóza, a je třeba odhadnout, jak přesně model dosáhne.
20. Vysvětlete kroky pro projekt analýzy dat
Následující důležité kroky jsou součástí analytického projektu:
- Pochopte problém podnikání
- Prozkoumejte data a pečlivě je prostudujte.
- Připravte data pro modelování nalezením chybějících hodnot a transformací proměnných.
- Spusťte model a analyzujte výsledek Big Data.
- Ověřte model pomocí nového souboru dat.
- Implementujte model a sledujte výsledek, abyste analyzovali výkon modelu za konkrétní období.
21. Diskutujte o umělých neuronových sítích
Umělé neuronové sítě (ANN) jsou speciální sadou algoritmů, které způsobily revoluci ve strojovém učení. Pomůže vám přizpůsobit se měnícímu se vstupu. Síť tak generuje nejlepší možný výsledek bez přepracování výstupních kritérií.
22. Co je zpětná propagace?
Zpětná propagace je podstatou tréninku neuronové sítě. Je to metoda ladění vah neuronové sítě závisí na chybovosti získané v předchozí epoše. Správné vyladění vám pomůže snížit chybovost a zvýšit spolehlivost modelu zvýšením jeho zobecnění.
23. Co je to náhodný les?
Náhodný les je metoda strojového učení, která vám pomáhá provádět všechny typy regresních a klasifikačních úloh. Používá se také pro ošetření chybějících hodnot a odlehlých hodnot.
24. Jaký význam má výběrové zkreslení?
K zkreslení výběru dochází, když není dosaženo žádné specifické randomizace při výběru jednotlivců nebo skupin nebo dat k analýze. Naznačuje to, že daný vzorek přesně nepředstavuje populaci, která měla být analyzována.
25. Co je metoda shlukování K-means?
Shlukování K-means je důležitou metodou učení bez dozoru. Je to technika klasifikace dat pomocí určité sady shluků, která se nazývá K shluky. Je nasazen pro seskupování ke zjištění podobnosti v datech.
Otázky k rozhovoru s datovým vědcem pro zkušené
26. Vysvětlete rozdíl mezi Data Science a Data Analytics
Data Scientists potřebují rozdělit data, aby získali cenné poznatky, které může datový analytik aplikovat na scénáře reálného světa. Hlavním rozdílem mezi těmito dvěma je, že datoví vědci mají více technických znalostí než obchodní analytici. Navíc nepotřebují rozumět podnikání potřebnému pro vizualizaci dat.
27. Vysvětlete p-hodnotu?
Když provádíte test hypotézy ve statistice, p-hodnota vám umožňuje určit sílu vašich výsledků. Je to číselné číslo mezi 0 a 1. Na základě hodnoty vám pomůže označit sílu konkrétního výsledku.
28. Definujte pojem hluboké učení
Hluboké učení je podtyp strojového učení. Zabývá se algoritmy inspirovanými strukturou zvanou umělé neuronové sítě (ANN).
29. Vysvětlete metodu sběru a analýzy dat pro použití sociálních médií k předpovídání povětrnostních podmínek.
Údaje ze sociálních médií můžete shromažďovat pomocí Facebooku, Twitteru, Instagramu API. Například pro výškový reproduktor můžeme z každého tweetu vytvořit funkci, jako je datum tweetu, retweety, seznam sledujících atd. Pak můžete použít model s více proměnnými časové řady k předpovědi počasí.
30. Kdy potřebujete aktualizovat algoritmus v Data science?
Algoritmus musíte aktualizovat v následující situaci:
- Chcete, aby se váš datový model vyvíjel jako datové toky pomocí infrastruktury
- Základní datový zdroj se mění, pokud je nestacionární
31. Co je normální distribuce
Normální rozdělení je množina spojité proměnné rozprostřené po normální křivce nebo ve tvaru zvonovité křivky. Můžete to považovat za spojité rozdělení pravděpodobnosti, které je užitečné ve statistice. Je užitečné analyzovat proměnné a jejich vztahy, když používáme křivku normálního rozdělení.
32. Který jazyk je nejlepší pro analýzu textu? R nebo Python?
Python bude vhodnější pro analýzu textu, protože se skládá z bohaté knihovny známé jako pandy. Umožňuje používat na vysoké úrovni nástroje pro analýzu dat a datové struktury, zatímco R tuto funkci nenabízí.
33. Vysvětlete výhody používání statistik datovými vědci
Statistiky pomáhají Data scientist získat lepší představu o očekávání zákazníka. Pomocí statistické metody Data Scientists mohou získat znalosti týkající se zájmu spotřebitelů, chování, zapojení, udržení atd. Pomáhá vám také vytvářet výkonné datové modely pro ověření určitých závěrů a předpovědí.
34. Vyjmenujte různé typy rámců hlubokého učení
- pytorch
- Microsoft Kognitivní sada nástrojů
- TensorFlow
- Caffe
- Řetězník
- Keras
35.Vysvětlete Auto-Encoder
Autokodéry jsou učící se sítě. Pomáhá vám transformovat vstupy na výstupy s menším počtem chyb. To znamená, že výstup bude co nejblíže vstupu.
36. Definujte Boltzmannův stroj
Boltzmannovy stroje jsou jednoduchým algoritmem učení. Pomůže vám objevit ty funkce, které představují složité zákonitosti v tréninkových datech. Tento algoritmus umožňuje optimalizovat hmotnosti a množství pro daný problém.
37. Vysvětlete, proč je čištění dat nezbytné a jakou metodu používáte k udržení čistých dat
Špinavá data často vedou k nesprávnému vnitřku, což může poškodit vyhlídky jakékoli organizace. Například pokud chcete spustit cílenou marketingovou kampaň. Naše data vám však nesprávně říkají, že konkrétní produkt bude u vaší cílové skupiny žádaný; kampaň selže.
38. Co je zkreslená distribuce a rovnoměrná distribuce?
Šikmá distribuce nastane, když jsou data rozmístěna na kterékoli straně grafu, zatímco rovnoměrné rozložení je identifikováno, když jsou data rozložena stejně v rozsahu.
39. Když dojde u statického modelu k nedostatečnému vybavení?
K nedostatečnému přizpůsobení dochází, když statistický model nebo algoritmus strojového učení nejsou schopny zachytit základní trend dat.
40. Co je posilovací učení?
Posílení učení je mechanismus učení o tom, jak mapovat situace k akcím. Konečný výsledek by vám měl pomoci zvýšit binární signál odměny. V této metodě se studentovi neříká, jakou akci má provést, ale místo toho musí zjistit, která akce nabízí maximální odměnu. Tato metoda je založena na mechanismu odměny/trestů.
41. Vyjmenujte běžně používané algoritmy.
Čtyři nejčastěji používané algoritmy Data scientist jsou:
- Lineární regrese
- Logistická regrese
- Náhodný les
- KNN
42. co je přesnost?
Přesnost je nejběžněji používanou chybovou metrikou n klasifikačního mechanismu. Jeho rozsah je od 0 do 1, kde 1 představuje 100 %
43. Co je to jednorozměrná analýza?
Analýza, která není aplikována na žádný atribut současně, se nazývá jednorozměrná analýza. Boxplot je široce používaný, jednorozměrný model.
44. Jak překonáváte problémy se svými zjištěními?
Abychom překonali výzvy mého zjištění, je třeba podporovat diskusi, demonstrovat vedení a respektovat různé možnosti.
45. Vysvětlete techniku shlukového vzorkování v Data science
Metoda klastrového vzorkování se používá, když je náročné studovat rozmístění cílové populace a nelze použít jednoduché náhodné vzorkování.
46. Uveďte rozdíl mezi ověřovací sadou a zkušební sadou
Validační sada je většinou považována za součást trénovací sady, protože se používá pro výběr parametrů, což vám pomůže vyhnout se přemontování budovaného modelu.
Zatímco testovací sada se používá k testování nebo vyhodnocování výkonu trénovaného modelu strojového učení.
47. Vysvětlete pojem vzorec binomické pravděpodobnosti?
"Binomické rozdělení obsahuje pravděpodobnosti každého možného úspěchu v N pokusech pro nezávislé události, které mají pravděpodobnost π výskytu."
48. Co je odvolání?
Odvolání je poměr skutečného kladného kurzu ke skutečnému kladnému kurzu. Pohybuje se od 0 do 1.
49. Diskutujte o normálním rozdělení
Normální rozdělení rovnoměrně rozdělené jako takové, průměr, medián a modus jsou stejné.
50. Jak můžete při práci na souboru dat vybrat důležité proměnné? Vysvětlit
Můžete použít následující metody variabilního výběru:
- Před výběrem důležitých proměnných odstraňte korelované proměnné
- Použijte lineární regresi a vyberte proměnné, které závisí na těchto hodnotách p.
- Použijte zpětný výběr, výběr vpřed a postupný výběr
- Použijte Xgboost, Random Forest a vytvořte graf proměnné důležitosti.
- Změřte zisk informací pro danou sadu funkcí a podle toho vyberte top n funkcí.
51. Je možné zachytit korelaci mezi spojitou a kategoriální proměnnou?
Ano, můžeme použít analýzu kovarianční techniky k zachycení asociace mezi spojitými a kategorickými proměnnými.
52. Zacházení s kategorickou proměnnou jako s kontinuální proměnnou by vedlo k lepšímu prediktivnímu modelu?
Ano, kategorická hodnota by měla být považována za spojitou proměnnou pouze tehdy, je-li proměnná ordinální povahy. Je to tedy lepší prediktivní model.
Tyto otázky na pohovoru také pomohou ve vašem životě (ústních)