Top 50 datavidenskabelige interviewspørgsmål og -svar (PDF)

Her er Data Science interviewspørgsmål og svar til både friskere og erfarne kandidater til at få deres drømmejob.

 

Data Science interviewspørgsmål for nybegyndere

1. Hvad er Data Science?

Data Science er det studieområde, der involverer udvinding af indsigt fra enorme mængder data ved hjælp af forskellige videnskabelige metoder, algoritmer og processer. Det hjælper dig med at opdage skjulte mønstre fra de rå data. Udtrykket Data Science er opstået på grund af udviklingen af ​​matematisk statistik, dataanalyse og big data.


2. Hvad er forskellen mellem Data Science og Machine Learning?

data, Science er en kombination af algoritmer, værktøjer og maskinlæringsteknik, som hjælper dig med at finde fælles skjulte mønstre fra de givne rådata. Hvorimod maskinlæring er en gren af ​​datalogi, der beskæftiger sig med systemprogrammering for automatisk at lære og forbedre med erfaring.

data, Science


3. Nævn tre typer skævheder, der kan opstå under prøvetagning

I prøveudtagningsprocessen er der tre typer skævheder, som er:

  • Udvælgelse bias
  • Bias under dækning
  • Overlevelsesfordeling

4. Diskuter beslutningstræets algoritme

Et beslutningstræ er en populær overvåget maskinlæringsalgoritme. Det bruges hovedsageligt til regression og klassificering. Det gør det muligt at opdele et datasæt i mindre delmængder. Beslutningstræet kan håndtere både kategoriske og numeriske data.


5. Hvad er forudgående sandsynlighed og sandsynlighed?

Forudgående sandsynlighed er andelen af ​​den afhængige variabel i datasættet, mens sandsynligheden er sandsynligheden for at klassificere en given observant i nærvær af en anden variabel.


6. Forklar anbefalingssystemer?

Det er en underklasse af informationsfiltreringsteknikker. Det hjælper dig med at forudsige de præferencer eller vurderinger, som brugere sandsynligvis vil give til et produkt.


7. Nævn tre ulemper ved at bruge en lineær model

Tre ulemper ved den lineære model er:

  • Antagelsen om linearitet af fejlene.
  • Du kan ikke bruge denne model til binære eller tælle resultater
  • Der er masser af overmonteringsproblemer, som det ikke kan løse

8. Hvorfor skal du udføre resampling?

Gensampling udføres i følgende tilfælde:

  • Estimering af nøjagtigheden af ​​stikprøvestatistikker ved at trække tilfældigt med erstatning fra et sæt af datapunktet eller bruge som undersæt af tilgængelige data
  • Udskiftning af etiketter på datapunkter ved udførelse af nødvendige tests
  • Validering af modeller ved at bruge tilfældige delmængder

9. Liste over bibliotekerne i Python bruges til dataanalyse og videnskabelige beregninger.


10. Hvad er magtanalyse?

Effektanalysen er en integreret del af det eksperimentelle design. Det hjælper dig med at bestemme den stikprøvestørrelse, der kræves for at finde ud af effekten af ​​en given størrelse fra en årsag med et bestemt sikkerhedsniveau. Det giver dig også mulighed for at implementere en bestemt sandsynlighed i en prøvestørrelsesbegrænsning.


11. Forklar kollaborativ filtrering

Samarbejdsfiltrering bruges til at søge efter korrekte mønstre ved at samarbejde synspunkter, flere datakilder og forskellige agenter.


12. Hvad er bias?

Bias er en fejl introduceret i din model på grund af oversimplificeringen af ​​en maskinlæringsalgoritme." Det kan føre til undertilpasning.


13. Diskuter 'Naiv' i en naiv Bayes-algoritme?

Den naive Bayes Algoritme-model er baseret på Bayes-sætningen. Den beskriver sandsynligheden for en hændelse. Den er baseret på forudgående viden om forhold, der kan være relateret til den specifikke begivenhed.


14. Hvad er en lineær regression?

Lineær regression er en statistisk programmeringsmetode, hvor scoren for en variabel 'A' forudsiges ud fra scoren for en anden variabel 'B'. B omtales som prædiktorvariablen og A som kriterievariabelen.


15. Angiv forskellen mellem forventet værdi og middelværdi

Der er ikke mange forskelle, men begge disse udtryk bruges i forskellige sammenhænge. Der henvises generelt til middelværdi, når du diskuterer en sandsynlighedsfordeling, mens forventet værdi henvises til i sammenhæng med en tilfældig variabel.


16. Hvad er formålet med at udføre A/B-test?

AB-test bruges til at udføre tilfældige eksperimenter med to variable, A og B. Målet med denne testmetode er at finde ud af ændringer på en webside for at maksimere eller øge resultatet af en strategi.


17. Hvad er Ensemble Learning?

Ensemblet er en metode til at kombinere et forskelligartet sæt elever for at improvisere om modellens stabilitet og forudsigelsesevne. To typer af Ensemble-læringsmetoder er:

sække

Bagging-metoden hjælper dig med at implementere lignende elever på små stikprøvepopulationer. Det hjælper dig med at komme nærmere forudsigelser.

Øget

Boosting er en iterativ metode, som giver dig mulighed for at justere vægten af ​​en observation afhænger af den sidste klassifikation. Boosting mindsker bias-fejlen og hjælper dig med at opbygge stærke prædiktive modeller.


18. Forklar egenværdi og egenvektor

Egenvektorer er til at forstå lineære transformationer. Dataforskere skal beregne egenvektorerne for en kovariansmatrix eller korrelation. Egenværdier er retningerne langs med specifikke lineære transformationshandlinger ved at komprimere, vende eller strække.


19. Definer begrebet krydsvalidering

Krydsvalidering er en valideringsteknik til at evaluere, hvordan resultaterne af statistisk analyse vil generalisere for et uafhængigt datasæt. Denne metode bruges i baggrunde, hvor målet er forudsagt, og man skal estimere, hvor præcist en model vil opnå.


20. Forklar trinene til et dataanalyseprojekt

Følgende er vigtige trin involveret i et analyseprojekt:

  • Forstå forretningsproblemet
  • Udforsk dataene og studer dem omhyggeligt.
  • Forbered dataene til modellering ved at finde manglende værdier og transformere variabler.
  • Start med at køre modellen og analyser Big data-resultatet.
  • Valider modellen med nyt datasæt.
  • Implementer modellen og spor resultatet for at analysere modellens ydeevne for en bestemt periode.

21. Diskuter kunstige neurale netværk

Kunstige neurale netværk (ANN) er et særligt sæt algoritmer, der har revolutioneret maskinlæring. Det hjælper dig med at tilpasse dig efter skiftende input. Så netværket genererer det bedst mulige resultat uden at redesigne outputkriterierne.


22. Hvad er rygformering?

Rygudbredelse er essensen af ​​neural nettræning. Det er metoden til at indstille vægten af ​​et neuralt net, der afhænger af fejlraten opnået i den foregående epoke. Korrekt justering af den hjælper dig med at reducere fejlfrekvenser og gøre modellen pålidelig ved at øge dens generalisering.


23. Hvad er en tilfældig skov?

Random forest er en maskinlæringsmetode, som hjælper dig med at udføre alle typer regressions- og klassifikationsopgaver. Det bruges også til behandling af manglende værdier og afvigende værdier.


24. Hvad er vigtigheden af ​​at have en selektionsbias?

Udvælgelsesbias opstår, når der ikke opnås nogen specifik randomisering under udvælgelsen af ​​individer eller grupper eller data, der skal analyseres. Det tyder på, at den givne prøve ikke nøjagtigt repræsenterer den population, som var beregnet til at blive analyseret.


25. Hvad er K-betyder klyngemetoden?

K-betyder clustering er en vigtig uovervåget læringsmetode. Det er teknikken til at klassificere data ved hjælp af et bestemt sæt klynger, som kaldes K-klynger. Den bruges til gruppering for at finde ud af ligheden i dataene.


Data Scientist Interview Spørgsmål til Erfarne

26. Forklar forskellen mellem Data Science og Data Analytics

Dataforskere er nødt til at opdele data for at udtrække værdifuld indsigt, som en dataanalytiker kan anvende på forretningsscenarier i den virkelige verden. Den største forskel mellem de to er, at dataforskerne har mere teknisk viden end forretningsanalytiker. Desuden behøver de ikke en forståelse af den virksomhed, der kræves til datavisualisering.


27. Forklar p-værdi?

Når du udfører en hypotesetest i statistik, giver en p-værdi dig mulighed for at bestemme styrken af ​​dine resultater. Det er et numerisk tal mellem 0 og 1. Baseret på værdien vil det hjælpe dig med at angive styrken af ​​det specifikke resultat.


28. Definer begrebet deep learning

Deep Learning er en undertype af maskinlæring. Det handler om algoritmer inspireret af strukturen kaldet kunstige neurale netværk (ANN).


29. Forklar metoden til at indsamle og analysere data for at bruge sociale medier til at forudsige vejrforholdene.

Du kan indsamle sociale mediedata ved hjælp af Facebook, twitter, Instagrams API'er. For eksempel, for tweeteren, kan vi konstruere en funktion fra hvert tweet som tweeted dato, retweets, liste over følgere osv. Så kan du bruge en multivariat tidsseriemodel til at forudsige vejrforholdene.


30. Hvornår skal du opdatere algoritmen i Data science?

Du skal opdatere en algoritme i følgende situation:

  • Du vil have din datamodel til at udvikle sig som datastrømme ved hjælp af infrastruktur
  • Den underliggende datakilde ændrer sig, hvis den er ikke-stationaritet

31. Hvad er normalfordeling

En normalfordeling er et sæt af en kontinuerlig variabel spredt over en normalkurve eller i form af en klokkekurve. Du kan betragte det som en kontinuerlig sandsynlighedsfordeling, som er nyttig i statistik. Det er nyttigt at analysere variablerne og deres sammenhænge, ​​når vi bruger normalfordelingskurven.


32. Hvilket sprog er bedst til tekstanalyse? R eller Python?

Python vil mere egnet til tekstanalyse, da det består af et rigt bibliotek kendt som pandaer. Det giver dig mulighed for at bruge højt niveau værktøjer til dataanalyse og datastrukturer, mens R ikke tilbyder denne funktion.


33. Forklar fordelene ved at bruge statistik af dataforskere

Statistik hjælper dataforskeren med at få en bedre ide om kundens forventninger. Ved at bruge den statistiske metode Data Scientists kan få viden om forbrugernes interesse, adfærd, engagement, fastholdelse osv. Det hjælper dig også med at bygge kraftfulde datamodeller til at validere visse slutninger og forudsigelser.


34. Nævn forskellige typer af Deep Learning Frameworks

  • pytorch
  • Microsoft Kognitive værktøjssæt
  • TensorFlow
  • Caffe
  • Kæder
  • Keras

35.Forklar Auto-Encoder

Autoencodere er lærende netværk. Det hjælper dig med at omdanne input til output med færre antal fejl. Det betyder, at du får output til at være så tæt på input som muligt.


36. Definer Boltzmann-maskine

Boltzmann-maskiner er en simpel indlæringsalgoritme. Det hjælper dig med at opdage de funktioner, der repræsenterer komplekse regelmæssigheder i træningsdataene. Denne algoritme giver dig mulighed for at optimere vægten og mængden for det givne problem.


37. Forklar, hvorfor Datarensning er essentiel, og hvilken metode du bruger til at vedligeholde rene data

Beskidte data fører ofte til det forkerte indre, hvilket kan skade enhver organisations udsigter. For eksempel hvis du ønsker at køre en målrettet marketingkampagne. Vores data fortæller dig dog forkert, at et specifikt produkt vil være efterspurgt hos din målgruppe; kampagnen vil mislykkes.


38. Hvad er skævfordeling & ensartet fordeling?

Skæv fordeling opstår, når hvis data er fordelt på en hvilken som helst side af plottet, mens ensartet fordeling identificeres, når dataene spredes, er ens i området.


39. Når undertilpasning forekommer i en statisk model?

Undertilpasning opstår, når en statistisk model eller maskinlæringsalgoritme ikke er i stand til at fange den underliggende trend i dataene.


40. Hvad er forstærkende læring?

Forstærkende læring er en læringsmekanisme om, hvordan man kortlægger situationer til handlinger. Slutresultatet skulle hjælpe dig med at øge det binære belønningssignal. I denne metode får en elev ikke at vide, hvilken handling han skal tage, men skal i stedet opdage, hvilken handling der giver en maksimal belønning. Da denne metode er baseret på belønning/strafmekanismen.


41. Navngiv almindeligt anvendte algoritmer.

Fire mest almindeligt anvendte algoritmer af Data scientist er:

  • Lineær regression
  • Logistisk regression
  • Tilfældig Skov
  • KNN

42. Hvad er præcision?

Præcision er den mest almindeligt anvendte fejlmetrik er n klassificeringsmekanisme. Dens område er fra 0 til 1, hvor 1 repræsenterer 100 %


43. Hvad er en univariat analyse?

En analyse, der ikke anvendes på nogen egenskab ad gangen, er kendt som univariat analyse. Boxplot er meget udbredt, univariat model.


44. Hvordan overvinder du udfordringer med dine resultater?

For at overkomme udfordringerne ved at finde, er man nødt til at opmuntre til diskussion, demonstrere lederskab og respektere forskellige muligheder.


45. Forklar klyngeprøvetagningsteknik i datavidenskab

En klyngeprøvemetode bruges, når det er udfordrende at studere målpopulationen spredt ud over, og simpel stikprøveudtagning ikke kan anvendes.


46. ​​Angiv forskellen mellem et valideringssæt og et testsæt

Et valideringssæt anses for det meste som en del af træningssættet, da det bruges til parametervalg, som hjælper dig med at undgå overfitting af den model, der bygges.

Mens et testsæt bruges til at teste eller evaluere ydeevnen af ​​en trænet maskinlæringsmodel.


47. Forklar begrebet Binomial Sandsynlighedsformel?

"Den binomiale fordeling indeholder sandsynligheden for enhver mulig succes på N forsøg for uafhængige hændelser, der har en sandsynlighed for π for at forekomme."


48. Hvad er en tilbagekaldelse?

En tilbagekaldelse er forholdet mellem den sande positive sats og den faktiske positive sats. Det går fra 0 til 1.


49. Diskuter normalfordeling

Normalfordeling ligeligt fordelt som sådan er middelværdien, medianen og tilstanden ens.


50. Hvordan kan du vælge vigtige variable, mens du arbejder på et datasæt? Forklare

Følgende metoder til valg af variabel kan du bruge:

  • Fjern de korrelerede variable, før du vælger vigtige variable
  • Brug lineær regression og vælg variabler, der afhænger af p-værdierne.
  • Brug baglæns, fremad markering og trinvis markering
  • Brug Xgboost, Random Forest og plot variabel betydningsdiagram.
  • Mål informationsgevinsten for det givne sæt funktioner, og vælg de øverste n funktioner i overensstemmelse hermed.

51. Er det muligt at fange sammenhængen mellem kontinuert og kategorisk variabel?

Ja, vi kan bruge analyse af kovariansteknik til at fange sammenhængen mellem kontinuerte og kategoriske variable.


52. At behandle en kategorisk variabel som en kontinuert variabel ville resultere i en bedre prædiktiv model?

Ja, den kategoriske værdi bør kun betragtes som en kontinuert variabel, når variablen er ordinal. Så det er en bedre forudsigelsesmodel.

Disse interviewspørgsmål vil også hjælpe i din viva(orals)

Opsummer dette indlæg med: