Top 50 de întrebări și răspunsuri la interviu Data Science (PDF)
Iată întrebări și răspunsuri la interviu Data Science pentru candidații mai proaspeți, precum și cu experiență, pentru a obține jobul visat.
Întrebări de interviu pentru știința datelor pentru cei proaspăți
1. Ce este Data Science?
Știința datelor este domeniul de studiu care implică extragerea de informații din cantități mari de date folosind diferite metode, algoritmi și procese științifice. Vă ajută să descoperiți modele ascunse din datele brute. Termenul Data Science a apărut din cauza evoluției statisticii matematice, a analizei datelor și a datelor mari.
2. Care este diferența dintre știința datelor și învățarea automată?
Știința datelor este o combinație de algoritmi, instrumente și tehnică de învățare automată care vă ajută să găsiți modele ascunse comune din datele brute date. În timp ce învățarea automată este o ramură a informaticii, care se ocupă de programarea sistemului pentru a învăța și a îmbunătăți automat experiența.

3. Numiți trei tipuri de distorsiuni care pot apărea în timpul eșantionării
În procesul de eșantionare, există trei tipuri de părtiniri, care sunt:
- Prejudecata de selecție
- Sub părtinire de acoperire
- Tendința de supraviețuire
4. Discutați algoritmul arborelui decizional
Un arbore de decizie este un algoritm popular de învățare automată supravegheată. Este folosit în principal pentru regresie și clasificare. Permite împărțirea unui set de date în subseturi mai mici. Arborele de decizie poate gestiona atât date categorice, cât și date numerice.
5. Care este probabilitatea și probabilitatea anterioară?
Probabilitatea anterioară este proporția variabilei dependente din setul de date, în timp ce probabilitatea este probabilitatea de a clasifica un observator dat în prezența unei alte variabile.
6. Explicați sistemele de recomandare?
Este o subclasă de tehnici de filtrare a informațiilor. Vă ajută să preziceți preferințele sau evaluările pe care utilizatorii probabil să le acorde unui produs.
7. Numiți trei dezavantaje ale utilizării unui model liniar
Trei dezavantaje ale modelului liniar sunt:
- Asumarea liniarității erorilor.
- Nu puteți folosi acest model pentru rezultate binare sau de numărare
- Există o mulțime de probleme de supraadaptare pe care nu le poate rezolva
8. De ce trebuie să efectuați reeșantionarea?
Reeșantionarea se face în cazurile de mai jos:
- Estimarea acurateței statisticilor eșantionului prin extragerea aleatorie cu înlocuire dintr-un set de puncte de date sau folosind ca subseturi de date accesibile
- Înlocuirea etichetelor pe punctele de date atunci când se efectuează testele necesare
- Validarea modelelor folosind subseturi aleatoare
9. Enumerați bibliotecile din Python utilizat pentru analiza datelor și calcule științifice.
- SciPy
- ursi panda
- matplotlib
- NumPy
- SciKit
- SEABORN
10. Ce este analiza puterii?
Analiza puterii este o parte integrantă a proiectului experimental. Vă ajută să determinați dimensiunea eșantionului necesară pentru a afla efectul unei anumite dimensiuni dintr-o cauză cu un anumit nivel de asigurare. De asemenea, vă permite să implementați o anumită probabilitate într-o constrângere de dimensiune a eșantionului.
11. Explicați filtrarea colaborativă
Filtrarea colaborativă folosită pentru a căuta modele corecte prin puncte de vedere colaborative, mai multe surse de date și diferiți agenți.
12. Ce este părtinirea?
Prejudecățile este o eroare introdusă în modelul dvs. din cauza simplificării excesive a unui algoritm de învățare automată.” Poate duce la subadaptare.
13. Discutați „naiv” într-un algoritm Bayes naiv?
Modelul algoritmului naiv Bayes se bazează pe teorema Bayes. Descrie probabilitatea unui eveniment. Se bazează pe cunoașterea prealabilă a condițiilor care ar putea fi legate de acel eveniment specific.
14. Ce este o regresie liniară?
Regresia liniară este o metodă de programare statistică în care scorul unei variabile „A” este prezis din scorul unei a doua variabile „B”. B este denumită variabilă predictor și A ca variabilă criteriu.
15. Precizați diferența dintre valoarea așteptată și valoarea medie
Nu sunt multe diferențe, dar ambii termeni sunt folosiți în contexte diferite. În general, se face referire la valoarea medie atunci când discutați despre o distribuție a probabilității, în timp ce valoarea așteptată este menționată în contextul unei variabile aleatorii.
16. Care este scopul efectuării testării A/B?
Testarea AB este folosită pentru a efectua experimente aleatoare cu două variabile, A și B. Scopul acestei metode de testare este de a afla modificări ale unei pagini web pentru a maximiza sau a crește rezultatul unei strategii.
17. Ce este învățarea prin ansamblu?
Ansamblul este o metodă de a combina un set divers de cursanți împreună pentru a improviza stabilitatea și puterea de predicție a modelului. Două tipuri de metode de învățare prin ansamblu sunt:
Bagging
Metoda de împachetare vă ajută să implementați cursanți similari pe populații mici de eșantion. Vă ajută să faceți predicții mai apropiate.
stimularea
Boosting-ul este o metodă iterativă care vă permite să ajustați greutatea unei observații în funcție de ultima clasificare. Boostingul reduce eroarea de părtinire și vă ajută să construiți modele predictive puternice.
18. Explicați valoarea proprie și vectorul propriu
Vectorii proprii sunt pentru înțelegerea transformărilor liniare. Oamenii de știință de date trebuie să calculeze vectorii proprii pentru o matrice de covarianță sau o corelație. Valorile proprii sunt direcțiile de-a lungul utilizării unor acte specifice de transformare liniară prin comprimare, răsturnare sau întindere.
19. Definiți termenul de validare încrucișată
Validarea încrucișată este o tehnică de validare pentru evaluarea modului în care rezultatele analizei statistice se vor generaliza pentru un set de date independent. Această metodă este utilizată în mediile în care obiectivul este prognozat și trebuie să se estimeze cât de precis se va realiza un model.
20. Explicați pașii pentru un proiect de analiză a datelor
Următorii sunt pași importanți implicați într-un proiect de analiză:
- Înțelegeți problema afacerii
- Explorați datele și studiați-le cu atenție.
- Pregătiți datele pentru modelare prin găsirea valorilor lipsă și transformarea variabilelor.
- Începeți să rulați modelul și analizați rezultatul Big Data.
- Validați modelul cu un nou set de date.
- Implementați modelul și urmăriți rezultatul pentru a analiza performanța modelului pentru o anumită perioadă.
21. Discutați despre rețelele neuronale artificiale
Rețelele neuronale artificiale (ANN) sunt un set special de algoritmi care au revoluționat învățarea automată. Vă ajută să vă adaptați în funcție de intrarea în schimbare. Deci, rețeaua generează cel mai bun rezultat posibil fără a reproiecta criteriile de ieșire.
22. Ce este Back Propagation?
Back-propagarea este esența antrenamentului rețelei neuronale. Este metoda de reglare a greutăților unei rețele neuronale în funcție de rata de eroare obținută în epoca anterioară. Reglarea corectă a vă ajută să reduceți ratele de eroare și să faceți modelul fiabil prin creșterea generalizării acestuia.
23. Ce este o pădure aleatorie?
Random Forest este o metodă de învățare automată care vă ajută să efectuați toate tipurile de sarcini de regresie și clasificare. De asemenea, este utilizat pentru tratarea valorilor lipsă și a valorilor aberante.
24. Care este importanța de a avea o prejudecată de selecție?
Prejudecățile de selecție apare atunci când nu există o randomizare specifică realizată în timpul alegerii indivizilor sau a grupurilor sau a datelor de analizat. Aceasta sugerează că eșantionul dat nu reprezintă exact populația care a fost intenționată să fie analizată.
25. Ce este metoda de grupare K-means?
Gruparea K-means este o metodă importantă de învățare nesupravegheată. Este tehnica de clasificare a datelor folosind un anumit set de clustere care se numește K clustere. Este implementat pentru grupare pentru a afla asemănarea datelor.
Întrebări de interviu pentru Data Scientist pentru experimentați
26. Explicați diferența dintre Data Science și Data Analytics
Oamenii de știință de date trebuie să detalieze datele pentru a extrage informații valoroase pe care un analist de date le poate aplica scenariilor de afaceri din lumea reală. Principala diferență dintre cele două este că oamenii de știință de date au mai multe cunoștințe tehnice decât analiștii de afaceri. Mai mult, nu au nevoie de o înțelegere a afacerii necesare pentru vizualizarea datelor.
27. Explicați valoarea p?
Când efectuați un test de ipoteză în statistică, o valoare p vă permite să determinați puterea rezultatelor dvs. Este un număr numeric între 0 și 1. Pe baza valorii, vă va ajuta să indicați puterea rezultatului specific.
28. Definiți termenul de deep learning
Învățarea profundă este un subtip de învățare automată. Este preocupat de algoritmi inspirați din structura numită rețele neuronale artificiale (ANN).
29. Explicați metoda de colectare și analiză a datelor pentru a utiliza rețelele sociale pentru a prezice starea vremii.
Puteți colecta date despre rețelele sociale folosind Facebook, Twitter, API-urile Instagram. De exemplu, pentru tweeter, putem construi o caracteristică din fiecare tweet, cum ar fi data tweeted, retweeturile, lista de urmăritori etc. Apoi puteți utiliza un model de serie de timp multivariată pentru a prezice starea vremii.
30. Când trebuie să actualizați algoritmul în Data science?
Trebuie să actualizați un algoritm în următoarea situație:
- Doriți ca modelul dvs. de date să evolueze ca fluxuri de date folosind infrastructura
- Sursa de date subiacentă se schimbă, dacă este non-staționară
31. Ce este distribuția normală
O distribuție normală este un set de variabile continue răspândite pe o curbă normală sau sub forma unei curbe clopot. O puteți considera ca o distribuție continuă de probabilitate, care este utilă în statistică. Este util să analizăm variabilele și relațiile lor atunci când folosim curba de distribuție normală.
32. Care limbă este cea mai bună pentru analiza textului? R sau Python?
Python va fi mai potrivit pentru analiza textului, deoarece constă dintr-o bibliotecă bogată cunoscută sub numele de panda. Vă permite să utilizați la nivel înalt instrumente de analiză a datelor și structuri de date, în timp ce R nu oferă această caracteristică.
33. Explicați beneficiile utilizării statisticilor de către oamenii de știință ai datelor
Statisticile îl ajută pe Data scientist să-și facă o idee mai bună despre așteptările clienților. Folosind metoda statistică, Oamenii de știință ai datelor pot obține cunoștințe cu privire la interesul, comportamentul, implicarea, reținerea consumatorului etc. De asemenea, vă ajută să construiți modele de date puternice pentru a valida anumite inferențe și predicții.
34. Numiți diferite tipuri de cadre de învățare profundă
- pitorcă
- Microsoft Set de instrumente cognitive
- TensorFlow
- caffe
- Lanț
- Keras
35.Explicați Auto-Encoder
Autoencoders sunt rețele de învățare. Vă ajută să transformați intrările în ieșiri cu un număr mai mic de erori. Aceasta înseamnă că veți obține ca rezultatul să fie cât mai aproape de intrare.
36. Definiți mașina Boltzmann
Mașinile Boltzmann sunt un algoritm de învățare simplu. Vă ajută să descoperi acele caracteristici care reprezintă regularități complexe în datele de antrenament. Acest algoritm vă permite să optimizați ponderile și cantitatea pentru problema dată.
37. Explicați de ce Curățarea datelor este esențială și ce metodă folosiți pentru a menține datele curate
Datele murdare duc adesea la interiorul incorect, care poate dăuna perspectivei oricărei organizații. De exemplu, dacă doriți să desfășurați o campanie de marketing direcționată. Cu toate acestea, datele noastre vă spun în mod incorect că un anumit produs va fi solicitat de publicul țintă; campania va eșua.
38. Ce este distribuția declinată și distribuția uniformă?
Distribuția distorsionată apare atunci când datele sunt distribuite pe oricare parte a graficului, în timp ce distribuția uniformă este identificată atunci când datele sunt răspândite este egală în interval.
39. Când apare submontarea într-un model static?
Subadaptarea apare atunci când un model statistic sau un algoritm de învățare automată nu este capabil să surprindă tendința de bază a datelor.
40. Ce este învățarea prin întărire?
Învățarea prin consolidare este un mecanism de învățare despre cum să mapați situațiile la acțiuni. Rezultatul final ar trebui să vă ajute să creșteți semnalul de recompensă binară. În această metodă, unui cursant nu i se spune ce acțiune să întreprindă, ci trebuie să descopere care acțiune oferă o recompensă maximă. Deoarece această metodă se bazează pe mecanismul de recompensă/penalizare.
41. Numiți algoritmii folosiți în mod obișnuit.
Patru algoritmi cel mai des utilizat de către Data scientist sunt:
- Regresie liniara
- Regresie logistică
- Pădurea întâmplătoare
- KNN
42. Ce este precizia?
Precizia este cea mai utilizată măsură de eroare este mecanismul de clasificare n. Intervalul său este de la 0 la 1, unde 1 reprezintă 100%
43. Ce este o analiză univariată?
O analiză care nu este aplicată niciunui atribut la un moment dat este cunoscută ca analiză univariată. Boxplot este utilizat pe scară largă, model univariat.
44. Cum depășiți provocările aduse constatărilor dvs.?
Pentru a depăși provocările legate de găsirea mea, trebuie să încurajez discuția, să demonstrez leadership și să respect diferite opțiuni.
45. Explicați tehnica de eșantionare în cluster în știința datelor
O metodă de eșantionare în cluster este utilizată atunci când este dificil să se studieze populația țintă răspândită și eșantionarea aleatorie simplă nu poate fi aplicată.
46. Precizați diferența dintre un set de validare și un set de testare
Un set de validare considerat în cea mai mare parte ca parte a setului de antrenament, deoarece este utilizat pentru selectarea parametrilor, ceea ce vă ajută să evitați supraadaptarea modelului în curs de construire.
În timp ce un set de teste este utilizat pentru testarea sau evaluarea performanței unui model de învățare automată antrenat.
47. Explicați termenul Formula de probabilitate binomială?
„Distribuția binomială conține probabilitățile fiecărui succes posibil în N încercări pentru evenimente independente care au o probabilitate de a se produce π.”
48. Ce este o rechemare?
O rechemare este un raport dintre rata pozitivă adevărată și rata pozitivă reală. Acesta variază de la 0 la 1.
49. Discutați despre distribuția normală
Distribuția normală distribuită egal ca atare, media, mediana și modul sunt egale.
50. În timp ce lucrați la un set de date, cum puteți selecta variabile importante? Explica
Următoarele metode de selecție a variabilelor puteți utiliza:
- Eliminați variabilele corelate înainte de a selecta variabilele importante
- Utilizați regresia liniară și selectați variabilele care depind de acele valori p.
- Utilizați selecția înapoi, înainte și selecția în trepte
- Utilizați Xgboost, Random Forest și trasați diagrama cu importanță variabilă.
- Măsurați câștigul de informații pentru setul dat de caracteristici și selectați cele mai bune n caracteristici în consecință.
51. Este posibilă surprinderea corelației dintre variabila continuă și variabilă categorială?
Da, putem folosi tehnica analizei covarianței pentru a surprinde asocierea dintre variabilele continue și categoriale.
52. Tratarea unei variabile categorice ca pe o variabilă continuă ar avea ca rezultat un model predictiv mai bun?
Da, valoarea categorială trebuie considerată ca o variabilă continuă numai atunci când variabila este de natură ordinală. Deci este un model predictiv mai bun.
Aceste întrebări de interviu vă vor ajuta, de asemenea, în viva (orale)
