Top 50 pitanja i odgovora za intervju za znanost o podacima (PDF)
Evo pitanja i odgovora na intervjuu za Data Science za svježije i iskusnije kandidate koji će dobiti posao iz snova.
Pitanja za intervju za brucoše u znanosti o podacima
1. Što je Data Science?
Podatkovna znanost je područje proučavanja koje uključuje izvlačenje uvida iz golemih količina podataka pomoću različitih znanstvenih metoda, algoritama i procesa. Pomaže vam otkriti skrivene uzorke iz neobrađenih podataka. Izraz Data Science pojavio se zbog evolucije matematičke statistike, analize podataka i velikih podataka.
2. Koja je razlika između znanosti o podacima i strojnog učenja?
Znanost podatke kombinacija je algoritama, alata i tehnika strojnog učenja koja vam pomaže pronaći uobičajene skrivene uzorke iz danih neobrađenih podataka. Dok je strojno učenje grana računalne znanosti koja se bavi programiranjem sustava za automatsko učenje i poboljšanje s iskustvom.
3. Navedite tri vrste odstupanja koja se mogu pojaviti tijekom uzorkovanja
U procesu uzorkovanja postoje tri vrste pristranosti, a to su:
- Pristranost odabira
- Nedovoljna pokrivenost
- Pristranost preživljavanja
4. Raspravite o algoritmu stabla odlučivanja
Stablo odlučivanja popularan je nadzirani algoritam strojnog učenja. Uglavnom se koristi za regresiju i klasifikaciju. Omogućuje rastavljanje skupa podataka na manje podskupove. Stablo odlučivanja može obraditi i kategoričke i numeričke podatke.
5. Što je prethodna vjerojatnost i vjerojatnost?
Prethodna vjerojatnost je udio zavisne varijable u skupu podataka, dok je vjerojatnost vjerojatnost klasificiranja danog promatrača u prisutnosti neke druge varijable.
6. Objasnite sustave preporuke?
To je potklasa tehnika filtriranja informacija. Pomaže vam predvidjeti preferencije ili ocjene koje će korisnici vjerojatno dati proizvodu.
7. Navedite tri nedostatka korištenja linearnog modela
Tri nedostatka linearnog modela su:
- Pretpostavka linearnosti grešaka.
- Ovaj model ne možete koristiti za binarne rezultate ili rezultate brojanja
- Postoji mnogo problema s pretjeranim opremanjem koje ne može riješiti
8. Zašto morate izvršiti ponovno uzorkovanje?
Ponovno uzorkovanje provodi se u dolje navedenim slučajevima:
- Procjena točnosti statistike uzorka nasumičnim izvlačenjem sa zamjenom iz skupa podatkovnih točaka ili korištenjem dostupnih podataka kao podskupa
- Zamjena oznaka na podatkovnim točkama prilikom izvođenja potrebnih testova
- Validacija modela korištenjem slučajnih podskupova
9. Navedite knjižnice u Python koristi se za analizu podataka i znanstvena izračunavanja.
10. Što je analiza snage?
Analiza snage sastavni je dio eksperimentalnog dizajna. Pomaže vam da odredite veličinu uzorka potrebnu da saznate učinak određene veličine od uzroka s određenom razinom sigurnosti. Također vam omogućuje da primijenite određenu vjerojatnost u ograničenju veličine uzorka.
11. Objasnite suradničko filtriranje
Suradničko filtriranje koje se koristi za traženje ispravnih obrazaca pomoću suradničkih stajališta, više izvora podataka i raznih agenata.
12. Što je pristranost?
Pristranost je pogreška uvedena u vaš model zbog pretjeranog pojednostavljivanja algoritma strojnog učenja.” To može dovesti do nedovoljne opremljenosti.
13. Raspravljajte o 'naivnom' u naivnom Bayesovom algoritmu?
Model Naivnog Bayesovog algoritma temelji se na Bayesovom teoremu. Opisuje vjerojatnost događaja. Temelji se na prethodnom znanju o uvjetima koji bi mogli biti povezani s tim specifičnim događajem.
14. Što je linearna regresija?
Linearna regresija je metoda statističkog programiranja gdje se rezultat varijable 'A' predviđa iz rezultata druge varijable 'B'. B se naziva prediktorska varijabla, a A kriterijska varijabla.
15. Navedite razliku između očekivane i srednje vrijednosti
Nema mnogo razlika, ali oba se pojma koriste u različitim kontekstima. Srednja vrijednost općenito se spominje kada se govori o distribuciji vjerojatnosti, dok se očekivana vrijednost spominje u kontekstu slučajne varijable.
16. Koji je cilj provođenja A/B testiranja?
AB testiranje koristi se za provođenje nasumičnih eksperimenata s dvije varijable, A i B. Cilj ove metode testiranja je otkriti promjene na web stranici kako bi se maksimizirao ili povećao ishod strategije.
17. Što je učenje u ansamblu?
Ansambl je metoda kombiniranja raznolikog skupa učenika kako bi se improviziralo na stabilnosti i prediktivnoj moći modela. Dvije su vrste metoda učenja ansambla:
Pakiranje
Metoda vreće vam pomaže implementirati slične učenike na male uzorke populacije. Pomaže vam da napravite bliža predviđanja.
Jačanje
Pojačavanje je iterativna metoda koja vam omogućuje podešavanje težine opažanja ovisno o posljednjoj klasifikaciji. Pojačavanje smanjuje pogrešku pristranosti i pomaže vam da izgradite jake prediktivne modele.
18. Objasnite svojstvenu vrijednost i svojstveni vektor
Svojstveni vektori služe za razumijevanje linearnih transformacija. Podatkovni znanstvenik treba izračunati svojstvene vektore za matricu kovarijance ili korelaciju. Svojstvene vrijednosti su smjerovi uz korištenje specifičnih radnji linearne transformacije sažimanjem, okretanjem ili istezanjem.
19. Definirajte pojam unakrsna provjera valjanosti
Unakrsna validacija je tehnika validacije za procjenu kako će se rezultati statističke analize generalizirati za Nezavisni skup podataka. Ova se metoda koristi u pozadinama u kojima se predviđa cilj i treba procijeniti koliko će točan model postići.
20. Objasnite korake za projekt analitike podataka
Sljedeći su važni koraci uključeni u analitički projekt:
- Shvatite poslovni problem
- Istražite podatke i pažljivo ih proučite.
- Pripremite podatke za modeliranje pronalaženjem vrijednosti koje nedostaju i transformacijom varijabli.
- Počnite pokretati model i analizirajte rezultat Big data.
- Potvrdite model s novim skupom podataka.
- Implementirajte model i pratite rezultat kako biste analizirali izvedbu modela za određeno razdoblje.
21. Raspravljajte o umjetnim neuronskim mrežama
Umjetne neuronske mreže (ANN) poseban su skup algoritama koji su revolucionarizirali strojno učenje. Pomaže vam da se prilagodite promjenjivim unosima. Tako mreža generira najbolji mogući rezultat bez redizajniranja izlaznih kriterija.
22. Što je povratno širenje?
Propagacija unatrag je bit treninga neuronske mreže. To je metoda podešavanja težine neuronske mreže koja ovisi o stopi pogreške dobivenoj u prethodnoj epohi. Pravilno podešavanje pomaže vam da smanjite stope pogrešaka i da model učinite pouzdanim povećanjem njegove generalizacije.
23. Što je nasumična šuma?
Nasumična šuma je metoda strojnog učenja koja vam pomaže da izvršite sve vrste zadataka regresije i klasifikacije. Također se koristi za tretiranje vrijednosti koje nedostaju i izvanrednih vrijednosti.
24. Koja je važnost pristranosti odabira?
Pristranost odabira javlja se kada nije postignuta nikakva specifična randomizacija prilikom odabira pojedinaca ili grupa ili podataka za analizu. To sugerira da dati uzorak ne predstavlja točno populaciju koja je bila namijenjena za analizu.
25. Što je metoda klasteriranja K-means?
K-znači klasteriranje je važna metoda učenja bez nadzora. To je tehnika klasificiranja podataka pomoću određenog skupa klastera koji se nazivaju K klasteri. Koristi se za grupiranje kako bi se utvrdila sličnost podataka.
Pitanja za intervju s Data Scientistom za iskusne
26. Objasnite razliku između Data Science i Data Analytics
Podatkovni znanstvenici moraju razdvojiti podatke kako bi izvukli vrijedne uvide koje analitičar podataka može primijeniti na poslovne scenarije u stvarnom svijetu. Glavna razlika između njih dvoje je u tome što podatkovni znanstvenici imaju više tehničkog znanja od poslovnih analitičara. Štoviše, ne trebaju razumijevanje poslovanja potrebnog za vizualizaciju podataka.
27. Objasnite p-vrijednost?
Kada provodite test hipoteze u statistici, p-vrijednost vam omogućuje da odredite snagu svojih rezultata. To je numerički broj između 0 i 1. Na temelju vrijednosti pomoći će vam da označite snagu određenog rezultata.
28. Definirajte pojam dubokog učenja
Duboko učenje je podvrsta strojnog učenja. Bavi se algoritmima inspiriranim strukturom zvanom umjetne neuronske mreže (ANN).
29. Objasnite metodu prikupljanja i analize podataka za korištenje društvenih medija za predviđanje vremenskih uvjeta.
Podatke o društvenim mrežama možete prikupljati pomoću Facebooka, Twittera, Instagramovih API-ja. Na primjer, za tweeter možemo konstruirati značajku iz svakog tweeta kao što je datum tweeta, retweetovi, popis sljedbenika, itd. Zatim možete koristiti model multivarijantnog vremenskog niza za predviđanje vremenskih uvjeta.
30. Kada trebate ažurirati algoritam u Data science?
Morate ažurirati algoritam u sljedećoj situaciji:
- Želite da se vaš podatkovni model razvija kao tokovi podataka pomoću infrastrukture
- Temeljni izvor podataka se mijenja ako je nestacionaran
31. Što je normalna distribucija
Normalna distribucija je skup kontinuiranih varijabli raspoređenih preko normalne krivulje ili u obliku zvonaste krivulje. Možete je smatrati kontinuiranom distribucijom vjerojatnosti koja je korisna u statistici. Korisno je analizirati varijable i njihove odnose kada koristimo krivulju normalne distribucije.
32. Koji je jezik najbolji za analizu teksta? R ili Python?
Python bit će prikladniji za analizu teksta jer se sastoji od bogate biblioteke poznate kao pande. Omogućuje vam korištenje visoke razine alati za analizu podataka i strukture podataka, dok R ne nudi tu značajku.
33. Objasnite prednosti korištenja statistike od strane Data Scientists
Statistika pomaže Data scientistu da dobije bolju ideju o očekivanjima korisnika. Korištenjem statističke metode Data Scientists mogu doći do znanja o interesu potrošača, ponašanju, angažmanu, zadržavanju itd. Također vam pomaže da izgradite snažne modele podataka za provjeru valjanosti određenih zaključaka i predviđanja.
34. Navedite različite vrste okvira dubokog učenja
- Pitorh
- Microsoft Kognitivni alat
- TensorFlow
- Kava
- lančanik
- Keras
35.Objasnite Auto-Encoder
Autokoderi su mreže za učenje. Pomaže vam transformirati ulaze u izlaze s manjim brojem pogrešaka. To znači da ćete dobiti izlaz koji je što bliži ulazu.
36. Definirajte Boltzmannov stroj
Boltzmannovi strojevi je jednostavan algoritam učenja. Pomaže vam da otkrijete one značajke koje predstavljaju složene pravilnosti u podacima o vježbanju. Ovaj algoritam vam omogućuje da optimizirate težine i količinu za dati problem.
37. Objasnite zašto je čišćenje podataka bitno i koju metodu koristite za održavanje čistih podataka
Prljavi podaci često dovode do netočnih podataka, što može oštetiti izglede svake organizacije. Na primjer, ako želite pokrenuti ciljanu marketinšku kampanju. Međutim, naši vam podaci netočno govore da će određeni proizvod biti tražen kod vaše ciljane publike; kampanja će propasti.
38. Što je iskrivljena distribucija i uniformna distribucija?
Iskrivljena distribucija se događa kada su podaci raspoređeni na bilo kojoj strani dijagrama, dok se uniformna distribucija identificira kada su podaci raspoređeni jednaki u rasponu.
39. Kada dolazi do nedovoljno uklapanja u statičkom modelu?
Nedovoljno prilagođavanje se događa kada statistički model ili algoritam strojnog učenja ne može uhvatiti temeljni trend podataka.
40. Što je učenje s potkrepljenjem?
Učenje s pojačanjem je mehanizam učenja o tome kako preslikati situacije u akcije. Konačni rezultat trebao bi vam pomoći da povećate signal binarne nagrade. U ovoj metodi, učeniku se ne kaže koju radnju treba poduzeti, već umjesto toga mora otkriti koja radnja nudi maksimalnu nagradu. Budući da se ova metoda temelji na mehanizmu nagrade/kazne.
41. Navedite često korištene algoritme.
Četiri najčešće korištena algoritma Data scientista su:
- Linearna regresija
- Logistička regresija
- Slučajna šuma
- KNN
42. Što je preciznost?
Preciznost je najčešće korištena metrika pogreške n mehanizam klasifikacije. Njegov raspon je od 0 do 1, gdje 1 predstavlja 100%
43. Što je univarijantna analiza?
Analiza koja se primjenjuje ni na jedan atribut u isto vrijeme poznata je kao univarijantna analiza. Boxplot je široko korišten, univarijantni model.
44. Kako prevladavate izazove svojim otkrićima?
Kako bi se prevladali izazovi moga pronalaska potrebno je poticati raspravu, demonstrirati vodstvo i poštivanje različitih opcija.
45. Objasnite tehniku uzorkovanja klastera u znanosti o podacima
Metoda klasterskog uzorkovanja koristi se kada je teško proučavati ciljnu populaciju raširenu po cijelom području, a jednostavno nasumično uzorkovanje se ne može primijeniti.
46. Navedite razliku između validacijskog skupa i testnog skupa
Skup za provjeru valjanosti uglavnom se smatra dijelom skupa za obuku jer se koristi za odabir parametara koji vam pomaže da izbjegnete pretjerano opremanje modela koji se gradi.
Dok se testni set koristi za testiranje ili procjenu izvedbe obučenog modela strojnog učenja.
47. Objasnite pojam Binomne formule vjerojatnosti?
"Binomna distribucija sadrži vjerojatnosti svakog mogućeg uspjeha na N pokusa za neovisne događaje koji imaju vjerojatnost od π."
48. Što je opoziv?
Opoziv je omjer stvarne pozitivne stope naspram stvarne pozitivne stope. Kreće se od 0 do 1.
49. Raspravite o normalnoj distribuciji
Normalna distribucija jednako raspoređena kao takva, srednja vrijednost, medijan i način su jednaki.
50. Dok radite na skupu podataka, kako možete odabrati važne varijable? Objasniti
Možete koristiti sljedeće metode odabira varijabli:
- Uklonite korelirane varijable prije odabira važnih varijabli
- Upotrijebite linearnu regresiju i odaberite varijable koje ovise o tim p vrijednostima.
- Koristite odabir unatrag, naprijed i postupni odabir
- Koristite Xgboost, Random Forest i iscrtajte dijagram važnosti varijable.
- Izmjerite informacijski dobitak za dati skup značajki i prema tome odaberite prvih n značajki.
51. Je li moguće uhvatiti korelaciju između kontinuirane i kategoričke varijable?
Da, možemo upotrijebiti tehniku analize kovarijance kako bismo uhvatili povezanost između kontinuiranih i kategoričkih varijabli.
52. Tretiranje kategoričke varijable kao kontinuirane varijable bi rezultiralo boljim prediktivnim modelom?
Da, kategoričku vrijednost treba smatrati kontinuiranom varijablom samo kada je varijabla ordinalne prirode. Dakle, to je bolji prediktivni model.
Ova pitanja za intervju također će vam pomoći u vašem životu