Top 50 Data Science -haastattelun kysymystä ja vastausta (PDF)
Tässä on Data Science -haastattelukysymyksiä ja vastauksia tuoreemmille ja kokeneemmille hakijoille unelmatyönsä saamiseksi.
Datatieteen haastattelukysymyksiä fuksilaisille
1. Mitä datatiede on?
Tietotiede on tutkimusala, joka sisältää oivalluksia poimimaan oivalluksia valtavista tietomääristä käyttämällä erilaisia tieteellisiä menetelmiä, algoritmeja ja prosesseja. Se auttaa sinua löytämään piilotetut kuviot raakatiedoista. Termi Data Science on syntynyt matemaattisten tilastojen, data-analyysin ja big datan kehityksen vuoksi.
2. Mitä eroa on datatieteen ja koneoppimisen välillä?
data Science on algoritmien, työkalujen ja koneoppimistekniikan yhdistelmä, joka auttaa sinua löytämään yleisiä piilomalleja annetusta raakatiedosta. Sen sijaan koneoppiminen on tietojenkäsittelytieteen ala, joka käsittelee järjestelmäohjelmointia oppiakseen automaattisesti ja parantaakseen kokemustaan.
3. Nimeä kolme poikkeamatyyppiä, joita voi esiintyä näytteenoton aikana
Otantaprosessissa on kolmenlaisia harhoja, jotka ovat:
- Valintaperuste
- Kattavuuden alla
- Survivorship-puolueellisuus
4. Keskustele päätöspuun algoritmista
Päätöspuu on suosittu valvottu koneoppimisalgoritmi. Sitä käytetään pääasiassa regressioon ja luokitukseen. Se mahdollistaa tietojoukon jakamisen pienempiin osajoukkoon. Päätöspuu pystyy käsittelemään sekä kategorista että numeerista dataa.
5. Mikä on ennakkotodennäköisyys ja todennäköisyys?
Prior-todennäköisyys on riippuvan muuttujan osuus tietojoukossa, kun taas todennäköisyys on todennäköisyys luokitella tietty tarkkailija jonkin muun muuttujan läsnä ollessa.
6. Selitä Recommender Systems?
Se on tiedonsuodatustekniikoiden alaluokka. Se auttaa sinua ennustamaan mieltymykset tai arvosanat, jotka käyttäjät todennäköisesti antavat tuotteelle.
7. Nimeä kolme lineaarisen mallin käytön haittaa
Lineaarisen mallin kolme haittaa ovat:
- Virheiden lineaarisuuden oletus.
- Et voi käyttää tätä mallia binääri- tai laskentatuloksiin
- On paljon yliasennusongelmia, joita se ei voi ratkaista
8. Miksi sinun on suoritettava uudelleennäytteenotto?
Uudelleennäytteenotto suoritetaan alla mainituissa tapauksissa:
- Otostilastojen tarkkuuden arviointi piirtämällä satunnaisesti korvaamalla tietopistejoukosta tai käyttämällä käytettävissä olevien tietojen osajoukkoja
- Merkkien korvaaminen datapisteissä tarvittavia testejä suoritettaessa
- Mallien validointi satunnaisten osajoukkojen avulla
9. Listaa kirjastot Python käytetään tietojen analysointiin ja tieteellisiin laskelmiin.
10. Mikä on tehoanalyysi?
Tehoanalyysi on olennainen osa kokeellista suunnittelua. Se auttaa sinua määrittämään otoskoon, jota tarvitaan, jotta voit selvittää tietyn koon vaikutuksen syystä tietyllä varmuustasolla. Sen avulla voit myös ottaa käyttöön tietyn todennäköisyyden otoskokorajoituksessa.
11. Selitä yhteistyösuodatus
Yhteistyösuodatusta käytetään oikeiden mallien etsimiseen yhteisten näkökulmien, useiden tietolähteiden ja eri agenttien avulla.
12. Mikä on harha?
Bias on virhe, joka on lisätty malliisi, koska koneoppimisalgoritmi on liian yksinkertaistettu." Se voi johtaa alivarusteluun.
13. Keskustele 'naiivista' Naive Bayes -algoritmissa?
Naive Bayes Algorithm -malli perustuu Bayesin lauseeseen. Se kuvaa tapahtuman todennäköisyyttä. Se perustuu ennakkotietoon olosuhteista, jotka voivat liittyä kyseiseen tapahtumaan.
14. Mikä on lineaarinen regressio?
Lineaarinen regressio on tilastollinen ohjelmointimenetelmä, jossa muuttujan 'A' pistemäärä ennustetaan toisen muuttujan 'B' pistemäärästä. B:tä kutsutaan ennustajamuuttujaksi ja A:ta kriteerimuuttujaksi.
15. Ilmoita odotusarvon ja keskiarvon välinen ero
Niissä ei ole paljon eroja, mutta molempia näitä termejä käytetään eri yhteyksissä. Keskiarvoon viitataan yleensä, kun puhutaan todennäköisyysjakaumasta, kun taas odotusarvoon viitataan satunnaismuuttujan yhteydessä.
16. Mikä on A/B-testauksen tarkoitus?
AB-testausta käytetään satunnaisten kokeiden suorittamiseen kahdella muuttujalla, A ja B. Tämän testausmenetelmän tavoitteena on selvittää verkkosivun muutokset strategian tuloksen maksimoimiseksi tai lisäämiseksi.
17. Mitä on Ensemble Learning?
Ensemble on menetelmä yhdistää erilaisia oppijoita yhteen improvisoidakseen mallin vakaudesta ja ennustevoimasta. Kahden tyyppisiä Ensemble-oppimismenetelmiä ovat:
pussitus
Pakkausmenetelmä auttaa sinua toteuttamaan samanlaisia oppijoita pienissä otospopulaatioissa. Se auttaa sinua tekemään läheisempiä ennusteita.
tehostaminen
Tehostaminen on iteratiivinen menetelmä, jonka avulla voit säätää havainnon painoa viimeisimmän luokituksen mukaan. Tehostaminen vähentää harhavirhettä ja auttaa sinua rakentamaan vahvoja ennakoivia malleja.
18. Selitä ominaisarvo ja ominaisvektori
Ominaisvektorit on tarkoitettu lineaaristen muunnosten ymmärtämiseen. Tietotieteilijän on laskettava ominaisvektorit kovarianssimatriisille tai korrelaatiolle. Ominaisarvot ovat suuntauksia, joissa käytetään tiettyjä lineaarisia muunnostoimia puristamalla, kääntämällä tai venyttämällä.
19. Määrittele termi ristiinvalidointi
Ristiinvalidointi on validointitekniikka, jolla arvioidaan, kuinka tilastollisen analyysin tulokset yleistyvät riippumattomalle tietojoukolle. Tätä menetelmää käytetään taustalla, jossa tavoite on ennustettu, ja on arvioitava kuinka tarkasti malli saavuttaa.
20. Selitä Data-analytiikkaprojektin vaiheet
Seuraavat ovat tärkeitä analytiikkaprojektin vaiheita:
- Ymmärrä liiketoiminnan ongelma
- Tutustu tietoihin ja tutki niitä huolellisesti.
- Valmistele tiedot mallintamista varten etsimällä puuttuvat arvot ja muuntamalla muuttujia.
- Aloita mallin suorittaminen ja analysoi Big Data -tulos.
- Vahvista malli uudella tietojoukolla.
- Ota malli käyttöön ja seuraa tulosta analysoidaksesi mallin suorituskykyä tietyllä ajanjaksolla.
21. Keskustele keinotekoisista hermoverkoista
Keinotekoiset neuroverkot (ANN) ovat erityinen joukko algoritmeja, jotka ovat mullistaneet koneoppimisen. Se auttaa sinua sopeutumaan muuttuvien syötteiden mukaan. Joten verkko tuottaa parhaan mahdollisen tuloksen ilman tuloskriteerien uudelleensuunnittelua.
22. Mikä on takaisin leviäminen?
Takaisin leviäminen on hermoverkkokoulutuksen ydin. Se on menetelmä virittää hermoverkon painot, jotka riippuvat edellisellä aikakaudella saadusta virhesuhteesta. Oikea viritys auttaa vähentämään virhetiheyttä ja tekemään mallista luotettavan lisäämällä sen yleistystä.
23. Mikä on satunnainen metsä?
Random forest on koneoppimismenetelmä, jonka avulla voit suorittaa kaikenlaisia regressio- ja luokittelutehtäviä. Sitä käytetään myös puuttuvien arvojen ja poikkeavien arvojen käsittelyyn.
24. Mitä merkitystä on valintaharhalla?
Valintaharhaa esiintyy, kun yksilöitä tai ryhmiä tai analysoitavia tietoja poimittaessa ei saavuteta erityistä satunnaistamista. Se viittaa siihen, että annettu näyte ei tarkalleen edusta populaatiota, joka oli tarkoitus analysoida.
25. Mikä on K-means-klusterointimenetelmä?
K-means-klusterointi on tärkeä ohjaamaton oppimismenetelmä. Se on tekniikka tietojen luokittelemiseksi käyttämällä tiettyä klusterijoukkoa, jota kutsutaan K-klusteriksi. Sitä käytetään ryhmittelyyn tietojen samankaltaisuuden selvittämiseksi.
Data Scientist -haastattelukysymyksiä kokeneille
26. Selitä ero Data Sciencen ja Data Analyticsin välillä
Tietotieteilijöiden on leikattava tietoja saadakseen arvokkaita oivalluksia, joita data-analyytikko voi soveltaa todellisiin liiketoimintaskenaarioihin. Suurin ero näiden kahden välillä on, että datatieteilijöillä on enemmän teknistä tietoa kuin yritysanalyytikoilla. Lisäksi he eivät tarvitse ymmärrystä tietojen visualisointiin vaadittavasta liiketoiminnasta.
27. Selitä p-arvo?
Kun teet hypoteesitestin tilastoissa, p-arvon avulla voit määrittää tulosten vahvuuden. Se on numeerinen luku välillä 0 ja 1. Arvon perusteella se auttaa sinua ilmaisemaan tietyn tuloksen vahvuuden.
28. Määrittele syvä oppiminen
Deep Learning on koneoppimisen alatyyppi. Se koskee algoritmeja, jotka ovat saaneet inspiraationsa rakenteesta, jota kutsutaan keinotekoisiksi hermoverkoiksi (ANN).
29. Selitä menetelmä tietojen keräämiseen ja analysointiin sääolosuhteiden ennustamiseen sosiaalisen median avulla.
Voit kerätä sosiaalisen median dataa Facebookin, Twitterin, Instagramin API:iden avulla. Esimerkiksi diskanttikaiuttimelle voimme rakentaa jokaisesta twiitistä ominaisuuden, kuten twiittipäivämäärän, uudelleentwiittaukset, seuraajaluettelon jne. Sitten voit käyttää monimuuttujaa aikasarjamallia ennustamaan sääolosuhteet.
30. Milloin datatieteen algoritmi pitää päivittää?
Sinun on päivitettävä algoritmi seuraavassa tilanteessa:
- Haluat tietomallisi kehittyvän infrastruktuuria käyttävinä tietovirroina
- Taustalla oleva tietolähde muuttuu, jos se on ei-stationaarisuus
31. Mikä on normaalijakauma
Normaalijakauma on joukko jatkuvaa muuttujaa, joka on levinnyt normaalikäyrälle tai kellokäyrän muotoon. Voit pitää sitä jatkuvana todennäköisyysjakaumana, josta on hyötyä tilastoissa. Muuttujien ja niiden suhteiden analysointi on hyödyllistä, kun käytämme normaalijakaumakäyrää.
32. Mikä kieli on paras tekstianalytiikkaan? R tai Python?
Python sopii paremmin tekstin analytiikkaan, koska se koostuu rikkaasta kirjastosta, joka tunnetaan nimellä panda. Sen avulla voit käyttää korkeatasoista datanalyysityökalut ja tietorakenteet, kun taas R ei tarjoa tätä ominaisuutta.
33. Selitä datatieteilijöiden tilastojen käytön edut
Tilastot auttavat datatieteilijöitä saamaan paremman käsityksen asiakkaan odotuksista. Tilastomenetelmällä Data Scientistit voivat saada tietoa kuluttajien kiinnostuksesta, käyttäytymisestä, sitoutumisesta, säilyttämisestä jne. Se auttaa myös rakentamaan tehokkaita tietomalleja tiettyjen päätelmien ja ennusteiden vahvistamiseksi.
34. Nimeä erityyppisiä syväoppimiskehyksiä
- pytorch
- Microsoft Kognitiivinen työkalupakki
- TensorFlow
- Caffe
- Chainer
- Keras
35. Selitä Auto-Encoder
Autoenkooderit ovat oppimisverkkoja. Sen avulla voit muuntaa tulot ulostuloiksi, joissa on vähemmän virheitä. Tämä tarkoittaa, että saat ulostulon mahdollisimman lähelle tuloa.
36. Määrittele Boltzmann-kone
Boltzmann-koneet on yksinkertainen oppimisalgoritmi. Se auttaa sinua löytämään ne ominaisuudet, jotka edustavat monimutkaisia säännönmukaisuuksia harjoitustiedoissa. Tämän algoritmin avulla voit optimoida painot ja määrät tietylle ongelmalle.
37. Selitä, miksi Data Cleansing on välttämätöntä ja mitä menetelmää käytät tietojen puhtaana pitämiseen
Likaiset tiedot johtavat usein väärään sisäpuolelle, mikä voi vahingoittaa minkä tahansa organisaation tulevaisuutta. Esimerkiksi, jos haluat suorittaa kohdistetun markkinointikampanjan. Tietomme kertovat kuitenkin virheellisesti, että tietyllä tuotteella on kysyntää kohdeyleisösi keskuudessa; kampanja epäonnistuu.
38. Mikä on vino jakauma ja tasainen jakautuminen?
Vino jakautuminen tapahtuu, kun dataa jaetaan jollekin kaavion jollekin puolelle, kun taas tasainen jakautuminen tunnistetaan, kun data on hajallaan alueella yhtä suuri.
39. Milloin staattisessa mallissa esiintyy aliasennusta?
Alisovitus tapahtuu, kun tilastollinen malli tai koneoppimisalgoritmi ei pysty kaappaamaan datan taustalla olevaa trendiä.
40. Mitä vahvistusoppiminen on?
Vahvistusoppiminen on oppimismekanismi siitä, kuinka kartoittaa tilanteet toimiksi. Lopputuloksen pitäisi auttaa sinua kasvattamaan binaarista palkkiosignaalia. Tässä menetelmässä oppijalle ei kerrota, mitä toimia hänen tulee tehdä, vaan hänen on löydettävä, mikä toiminta tarjoaa suurimman palkkion. Tämä menetelmä perustuu palkitsemis-/rangaistusmekanismiin.
41. Nimeä yleisesti käytetyt algoritmit.
Tietotutkijan neljä yleisimmin käyttämää algoritmia ovat:
- Lineaarinen regressio
- Logistinen regressio
- Satunnainen metsä
- KNN
42. Mitä on tarkkuus?
Tarkkuus on yleisimmin käytetty virhemittari on n luokitusmekanismi. Sen alue on 0-1, jossa 1 on 100 %
43. Mikä on yksimuuttujaanalyysi?
Analyysi, jota sovelletaan mihinkään määritteeseen kerrallaan, tunnetaan yksimuuttujaanalyysinä. Boxjuoni on laajalti käytetty yksimuuttujamalli.
44. Kuinka voitat löydöstesi haasteet?
Löytääkseni havainnon haasteista on tarpeen rohkaista keskustelua, osoittaa johtajuutta ja eri vaihtoehtojen kunnioittamista.
45. Selitä datatieteen klusterinäytteenottotekniikka
Klusteriotosmenetelmää käytetään silloin, kun kohdepopulaation hajauttamisen tutkiminen on haastavaa, eikä yksinkertaista satunnaisotantaa voida soveltaa.
46. Ilmoita ero validointisarjan ja testisarjan välillä
Validointisarjaa pidetään enimmäkseen osana koulutussarjaa, koska sitä käytetään parametrien valintaan, mikä auttaa välttämään rakennettavan mallin liiallista sovittamista.
Testisarjaa käytetään koulutetun koneoppimismallin suorituskyvyn testaamiseen tai arvioimiseen.
47. Selitä termi binomiaalinen todennäköisyyskaava?
"Binomijakauma sisältää jokaisen mahdollisen onnistumisen todennäköisyydet N kokeessa riippumattomille tapahtumille, joiden todennäköisyys on π."
48. Mikä on takaisinveto?
Palauttaminen on todellisen positiivisen koron suhde todelliseen positiiviseen korkoon. Se vaihtelee välillä 0-1.
49. Keskustele normaalijakaumasta
Normaalijakauma, joka jakautuu tasaisesti sellaisenaan, keskiarvo, mediaani ja moodi ovat yhtä suuret.
50. Kuinka voit valita tärkeitä muuttujia työskennellessäsi tietojoukon parissa? Selittää
Voit käyttää seuraavia muuttujien valintamenetelmiä:
- Poista korreloidut muuttujat ennen tärkeiden muuttujien valitsemista
- Käytä lineaarista regressiota ja valitse muuttujat, jotka riippuvat kyseisistä p-arvoista.
- Käytä taaksepäin-, eteenpäin- ja vaiheittaista valintaa
- Käytä Xgboostia, Random Forestia ja piirrä muuttujan tärkeyskaavio.
- Mittaa tiedon vahvistus tietylle ominaisuusjoukolle ja valitse n suosituinta ominaisuutta vastaavasti.
51. Onko mahdollista kaapata jatkuvan ja kategorisen muuttujan välinen korrelaatio?
Kyllä, voimme käyttää kovarianssitekniikan analyysiä jatkuvien ja kategoristen muuttujien välisen yhteyden kaappaamiseen.
52. Kategorisen muuttujan käsitteleminen jatkuvana muuttujana johtaisi parempaan ennakoivaan malliin?
Kyllä, kategorista arvoa tulee pitää jatkuvana muuttujana vain, kun muuttuja on luonteeltaan järjestysluku. Se on siis parempi ennustava malli.
Nämä haastattelukysymykset auttavat myös vivassasi (suullinen)