Topp 50 datavitenskapelige intervjuspørsmål og svar (PDF)
Her er Data Science-intervjuspørsmål og svar for ferskere så vel som erfarne kandidater for å få drømmejobben.
Data Science intervjuspørsmål for ferskinger
1. Hva er datavitenskap?
Datavitenskap er studieområdet som involverer å trekke ut innsikt fra enorme mengder data ved hjelp av ulike vitenskapelige metoder, algoritmer og prosesser. Det hjelper deg å oppdage skjulte mønstre fra rådataene. Begrepet datavitenskap har dukket opp på grunn av utviklingen av matematisk statistikk, dataanalyse og store data.
2. Hva er forskjellen mellom datavitenskap og maskinlæring?
data Science er en kombinasjon av algoritmer, verktøy og maskinlæringsteknikk som hjelper deg med å finne vanlige skjulte mønstre fra de gitte rådataene. Mens maskinlæring er en gren av informatikk, som omhandler systemprogrammering for å automatisk lære og forbedre med erfaring.
3. Nevn tre typer skjevheter som kan oppstå under prøvetaking
I prøvetakingsprosessen er det tre typer skjevheter, som er:
- Utvalgsperspektiv
- Bias under dekning
- Overlevelsesskjevhet
4. Diskuter Beslutningstre-algoritmen
Et beslutningstre er en populær overvåket maskinlæringsalgoritme. Den brukes hovedsakelig til regresjon og klassifisering. Den gjør det mulig å bryte ned et datasett i mindre delsett. Beslutningstreet kan håndtere både kategoriske og numeriske data.
5. Hva er tidligere sannsynlighet og sannsynlighet?
Tidligere sannsynlighet er andelen av den avhengige variabelen i datasettet, mens sannsynligheten er sannsynligheten for å klassifisere en gitt observant i nærvær av en annen variabel.
6. Forklar anbefalingssystemer?
Det er en underklasse av informasjonsfiltreringsteknikker. Det hjelper deg å forutsi preferansene eller vurderingene som brukere sannsynligvis vil gi til et produkt.
7. Nevn tre ulemper ved å bruke en lineær modell
Tre ulemper med den lineære modellen er:
- Antakelsen om linearitet av feilene.
- Du kan ikke bruke denne modellen for binære eller tellende utfall
- Det er nok av overmonteringsproblemer som det ikke kan løse
8. Hvorfor må du utføre resampling?
Ny prøvetaking utføres i følgende tilfeller:
- Estimere nøyaktigheten av prøvestatistikk ved å tegne tilfeldig med erstatning fra et sett av datapunktet eller bruke som delsett av tilgjengelige data
- Bytte ut etiketter på datapunkter når du utfører nødvendige tester
- Validering av modeller ved å bruke tilfeldige delmengder
9. List opp bibliotekene i Python brukes til dataanalyse og vitenskapelige beregninger.
10. Hva er kraftanalyse?
Effektanalysen er en integrert del av det eksperimentelle designet. Det hjelper deg å bestemme prøvestørrelsen som kreves for å finne ut effekten av en gitt størrelse fra en årsak med et spesifikt sikkerhetsnivå. Den lar deg også distribuere en bestemt sannsynlighet i en prøvestørrelsesbegrensning.
11. Forklar samarbeidsfiltrering
Samarbeidsfiltrering brukes til å søke etter riktige mønstre ved å samarbeide synspunkter, flere datakilder og ulike agenter.
12. Hva er skjevhet?
Bias er en feil introdusert i modellen din på grunn av overforenklingen av en maskinlæringsalgoritme." Det kan føre til undertilpasning.
13. Diskuter 'naiv' i en naiv Bayes-algoritme?
Den naive Bayes-algoritmemodellen er basert på Bayes-teoremet. Den beskriver sannsynligheten for en hendelse. Den er basert på forkunnskaper om forhold som kan være relatert til den spesifikke hendelsen.
14. Hva er en lineær regresjon?
Lineær regresjon er en statistisk programmeringsmetode der poengsummen til en variabel 'A' er predikert fra poengsummen til en andre variabel 'B'. B omtales som prediktorvariabelen og A som kriterievariabel.
15. Angi differansen mellom forventet verdi og middelverdi
Det er ikke mange forskjeller, men begge disse begrepene brukes i forskjellige sammenhenger. Gjennomsnittsverdi refereres vanligvis til når du diskuterer en sannsynlighetsfordeling, mens forventet verdi refereres til i sammenheng med en tilfeldig variabel.
16. Hva er målet med å gjennomføre A/B-testing?
AB-testing brukes til å utføre tilfeldige eksperimenter med to variabler, A og B. Målet med denne testmetoden er å finne ut endringer på en nettside for å maksimere eller øke utfallet av en strategi.
17. Hva er Ensemble Learning?
Ensemblet er en metode for å kombinere et mangfoldig sett med elever for å improvisere om stabiliteten og prediksjonskraften til modellen. To typer Ensemble læringsmetoder er:
bagging
Bagging-metoden hjelper deg med å implementere lignende elever på små utvalgspopulasjoner. Det hjelper deg å gjøre nærmere spådommer.
Styrking
Boosting er en iterativ metode som lar deg justere vekten av en observasjon avhengig av den siste klassifiseringen. Boost reduserer skjevhetsfeilen og hjelper deg med å bygge sterke prediktive modeller.
18. Forklar egenverdi og egenvektor
Egenvektorer er for å forstå lineære transformasjoner. Dataforskere må beregne egenvektorene for en kovariansmatrise eller korrelasjon. Egenverdier er retningene langs med spesifikke lineære transformasjonshandlinger ved å komprimere, snu eller strekke.
19. Definer begrepet kryssvalidering
Kryssvalidering er en valideringsteknikk for å evaluere hvordan resultatene av statistisk analyse vil generaliseres for et uavhengig datasett. Denne metoden brukes i bakgrunner der målet er prognosert, og man må estimere hvor nøyaktig en modell vil oppnå.
20. Forklar trinnene for et dataanalyseprosjekt
Følgende er viktige trinn involvert i et analyseprosjekt:
- Forstå forretningsproblemet
- Utforsk dataene og studer dem nøye.
- Forbered dataene for modellering ved å finne manglende verdier og transformere variabler.
- Begynn å kjøre modellen og analyser Big data-resultatet.
- Valider modellen med nytt datasett.
- Implementer modellen og spor resultatet for å analysere ytelsen til modellen for en bestemt periode.
21. Diskuter kunstige nevrale nettverk
Kunstige nevrale nettverk (ANN) er et spesielt sett med algoritmer som har revolusjonert maskinlæring. Det hjelper deg å tilpasse deg etter skiftende input. Så nettverket genererer best mulig resultat uten å redesigne utdatakriteriene.
22. Hva er ryggformidling?
Ryggformidling er essensen av nevrale netttrening. Det er metoden for å justere vektene til et nevralt nett avhengig av feilraten oppnådd i forrige epoke. Riktig justering av modellen hjelper deg med å redusere feilfrekvensen og gjøre modellen pålitelig ved å øke generaliseringen.
23. Hva er en tilfeldig skog?
Random forest er en maskinlæringsmetode som hjelper deg med å utføre alle typer regresjons- og klassifiseringsoppgaver. Den brukes også til å behandle manglende verdier og avvikende verdier.
24. Hva er viktigheten av å ha en seleksjonsskjevhet?
Seleksjonsskjevhet oppstår når det ikke er noen spesifikk randomisering oppnådd mens man velger individer eller grupper eller data som skal analyseres. Det antyder at det gitte utvalget ikke nøyaktig representerer populasjonen som var ment å bli analysert.
25. Hva er K-betyr klyngemetoden?
K-betyr clustering er en viktig uovervåket læringsmetode. Det er teknikken for å klassifisere data ved å bruke et visst sett med klynger som kalles K-klynger. Den er distribuert for gruppering for å finne ut likheten i dataene.
Data Scientist-intervjuspørsmål for erfarne
26. Forklar forskjellen mellom Data Science og Data Analytics
Dataforskere må dele opp data for å trekke ut verdifull innsikt som en dataanalytiker kan bruke på forretningsscenarier i den virkelige verden. Hovedforskjellen mellom de to er at dataforskerne har mer teknisk kunnskap enn forretningsanalytiker. Dessuten trenger de ikke en forståelse av virksomheten som kreves for datavisualisering.
27. Forklar p-verdi?
Når du gjennomfører en hypotesetest i statistikk, lar en p-verdi deg bestemme styrken til resultatene dine. Det er et numerisk tall mellom 0 og 1. Basert på verdien vil det hjelpe deg å angi styrken til det spesifikke resultatet.
28. Definer begrepet dyp læring
Deep Learning er en undertype av maskinlæring. Det er opptatt av algoritmer inspirert av strukturen som kalles kunstige nevrale nettverk (ANN).
29. Forklar metoden for å samle inn og analysere data for å bruke sosiale medier til å forutsi værforholdene.
Du kan samle sosiale mediedata ved å bruke Facebook, twitter, Instagrams API-er. For eksempel, for diskanthøyttaleren, kan vi konstruere en funksjon fra hver tweet som tweetdato, retweets, liste over følgere osv. Deretter kan du bruke en multivariat tidsseriemodell for å forutsi værforholdene.
30. Når trenger du å oppdatere algoritmen i Data science?
Du må oppdatere en algoritme i følgende situasjon:
- Du vil at datamodellen din skal utvikle seg som datastrømmer ved hjelp av infrastruktur
- Den underliggende datakilden endrer seg hvis den ikke er stasjonær
31. Hva er normalfordeling
En normalfordeling er et sett med en kontinuerlig variabel spredt over en normalkurve eller i form av en klokkekurve. Du kan betrakte det som en kontinuerlig sannsynlighetsfordeling som er nyttig i statistikk. Det er nyttig å analysere variablene og deres sammenhenger når vi bruker normalfordelingskurven.
32. Hvilket språk er best for tekstanalyse? R eller Python?
Python vil være mer egnet for tekstanalyse da den består av et rikt bibliotek kjent som pandaer. Det lar deg bruke høyt nivå dataanalyseverktøy og datastrukturer, mens R ikke tilbyr denne funksjonen.
33. Forklar fordelene ved å bruke statistikk av dataforskere
Statistikk hjelper dataforskeren til å få en bedre ide om kundens forventninger. Ved å bruke den statistiske metoden kan dataforskere få kunnskap om forbrukernes interesse, atferd, engasjement, oppbevaring osv. Det hjelper deg også å bygge kraftige datamodeller for å validere visse slutninger og spådommer.
34. Nevn ulike typer Deep Learning Frameworks
- pytorch
- Microsoft Kognitiv verktøykasse
- tensorflow
- Caffe
- Kjede
- Keras
35.Forklar Auto-Encoder
Autoenkodere er lærende nettverk. Det hjelper deg å transformere innganger til utganger med færre antall feil. Dette betyr at du vil få output til å være så nærme input som mulig.
36. Definer Boltzmann-maskin
Boltzmann-maskiner er en enkel læringsalgoritme. Det hjelper deg å oppdage funksjonene som representerer komplekse regelmessigheter i treningsdataene. Denne algoritmen lar deg optimalisere vektene og mengden for det gitte problemet.
37. Forklar hvorfor datarensing er viktig og hvilken metode du bruker for å opprettholde rene data
Skitne data fører ofte til feil innside, noe som kan skade utsiktene til enhver organisasjon. For eksempel hvis du ønsker å kjøre en målrettet markedsføringskampanje. Dataene våre forteller deg imidlertid feil at et spesifikt produkt vil være etterspurt hos målgruppen din; kampanjen vil mislykkes.
38. Hva er skjevfordeling og enhetlig fordeling?
Skjev fordeling oppstår når hvis data er distribuert på en side av plottet, mens ensartet fordeling identifiseres når dataene spres er lik i området.
39. Når undertilpasning oppstår i en statisk modell?
Undertilpasning oppstår når en statistisk modell eller maskinlæringsalgoritme ikke er i stand til å fange opp den underliggende trenden til dataene.
40. Hva er forsterkende læring?
Forsterkningslæring er en læringsmekanisme om hvordan man kan kartlegge situasjoner til handlinger. Sluttresultatet skal hjelpe deg å øke det binære belønningssignalet. I denne metoden blir en elev ikke fortalt hvilken handling han skal ta, men må i stedet oppdage hvilken handling som gir maksimal belønning. Som denne metoden basert på belønning/straffemekanismen.
41. Navn på vanlig brukte algoritmer.
Fire mest brukte algoritmer av dataforsker er:
- Lineær regresjon
- Logistisk regresjon
- Tilfeldig skog
- KNN
42. Hva er presisjon?
Presisjon er den mest brukte feilmetrikken er n klassifiseringsmekanisme. Området er fra 0 til 1, der 1 representerer 100 %
43. Hva er en univariat analyse?
En analyse som brukes på ingen attributter om gangen er kjent som univariat analyse. Boxplot er mye brukt, univariat modell.
44. Hvordan overvinner du utfordringer med funnene dine?
For å overvinne utfordringene med å finne, må man oppmuntre til diskusjon, demonstrere lederskap og respektere ulike alternativer.
45. Forklar klyngeprøveteknikk i datavitenskap
En klyngeprøvemetode brukes når det er utfordrende å studere målpopulasjonen spredt over, og enkel tilfeldig prøvetaking ikke kan brukes.
46. Angi forskjellen mellom et valideringssett og et testsett
Et valideringssett anses for det meste som en del av treningssettet da det brukes til parametervalg som hjelper deg å unngå overtilpasning av modellen som bygges.
Mens et testsett brukes til å teste eller evaluere ytelsen til en trent maskinlæringsmodell.
47. Forklar begrepet binomisk sannsynlighetsformel?
"Den binomiale fordelingen inneholder sannsynlighetene for all mulig suksess på N forsøk for uavhengige hendelser som har en sannsynlighet for at π skal skje."
48. Hva er en tilbakekalling?
En tilbakekalling er et forhold mellom den sanne positive raten mot den faktiske positive raten. Det varierer fra 0 til 1.
49. Diskuter normalfordeling
Normalfordeling likt fordelt som sådan er gjennomsnitt, median og modus like.
50. Hvordan kan du velge viktige variabler mens du jobber med et datasett? Forklare
Følgende metoder for valg av variabel kan du bruke:
- Fjern de korrelerte variablene før du velger viktige variabler
- Bruk lineær regresjon og velg variabler som avhenger av p-verdiene.
- Bruk Bakover, Forover-valg og Trinnvis valg
- Bruk Xgboost, Random Forest og plott variabel betydningsdiagram.
- Mål informasjonsgevinst for det gitte settet med funksjoner og velg topp n funksjoner deretter.
51. Er det mulig å fange opp sammenhengen mellom kontinuerlig og kategorisk variabel?
Ja, vi kan bruke analyse av kovariansteknikk for å fange sammenhengen mellom kontinuerlige og kategoriske variabler.
52. Å behandle en kategorisk variabel som en kontinuerlig variabel ville gi en bedre prediktiv modell?
Ja, den kategoriske verdien bør kun betraktes som en kontinuerlig variabel når variabelen er ordinal. Så det er en bedre prediktiv modell.
Disse intervjuspørsmålene vil også hjelpe i din viva(orals)