A legjobb 50 adattudományi interjúkérdés és válasz (PDF)

Íme a Data Science interjúira adott kérdések és válaszok friss és tapasztalt jelöltek számára, hogy megszerezzék álmaik állását.

 

Adattudományi interjúkérdések pályakezdőknek

1. Mi az adattudomány?

Az adattudomány az a kutatási terület, amely magában foglalja a betekintést hatalmas mennyiségű adatból különböző tudományos módszerek, algoritmusok és folyamatok segítségével. Segít felfedezni a rejtett mintákat a nyers adatokból. Az adattudomány kifejezés a matematikai statisztika, adatelemzés és big data fejlődése miatt jelent meg.


2. Mi a különbség az adattudomány és a gépi tanulás között?

Data Science algoritmusok, eszközök és gépi tanulási technika kombinációja, amely segít megtalálni a gyakori rejtett mintákat az adott nyers adatokból. Míg a gépi tanulás a számítástechnikának egy olyan ága, amely a rendszerprogramozással foglalkozik, hogy automatikusan tanuljon és a tapasztalattal fejlődjön.

Data Science


3. Nevezzen meg három típusú torzítást, amely a mintavétel során előfordulhat!

A mintavételi folyamatban háromféle torzítás létezik, amelyek a következők:

  • Kiválasztási torzítás
  • Fedezeti elfogultság alatt
  • A túlélési elfogultság

4. Beszélje meg a döntési fa algoritmust

A döntési fa egy népszerű felügyelt gépi tanulási algoritmus. Főleg regresszióra és osztályozásra használják. Lehetővé teszi az adatkészletek kisebb részhalmazokra bontását. A döntési fa kategorikus és numerikus adatokat is képes kezelni.


5. Mi az előzetes valószínűség és valószínűség?

Az előzetes valószínűség a függő változó aránya az adathalmazban, míg a valószínűség az adott megfigyelő osztályozásának valószínűsége más változó jelenlétében.


6. Magyarázza el az ajánlórendszereket?

Ez az információszűrési technikák egy alosztálya. Segít megjósolni, hogy a felhasználók milyen preferenciákat vagy értékeléseket adnak egy terméknek.


7. Nevezze meg a lineáris modell használatának három hátrányát!

A lineáris modell három hátránya:

  • A hibák linearitásának feltételezése.
  • Ezt a modellt nem használhatja bináris vagy számolási eredményekhez
  • Rengeteg túlillesztési probléma van, amelyeket nem tud megoldani

8. Miért kell újramintavételezést végezni?

Az újramintavétel az alábbi esetekben történik:

  • A mintastatisztikák pontosságának becslése véletlenszerű rajzolással, az adatpont egy halmazából történő cserével vagy a hozzáférhető adatok részhalmazaiként történő felhasználásával
  • Címkék helyettesítése az adatpontokon a szükséges tesztek végrehajtásakor
  • Modellek validálása véletlenszerű részhalmazok használatával

9. Sorolja fel a benne lévő könyvtárakat Python adatelemzéshez és tudományos számításokhoz használják.


10. Mi az a teljesítményelemzés?

A teljesítményelemzés a kísérleti tervezés szerves része. Segít meghatározni, hogy mekkora mintanagyságra van szükség ahhoz, hogy egy adott méret hatását egy adott okból kiderítsük, meghatározott bizonyossági szint mellett. Lehetővé teszi egy adott valószínűség telepítését a mintaméret-korlátozásban.


11. Ismertesse a kollaboratív szűrést!

Az együttműködésen alapuló szűrés a helyes minták keresésére szolgál együttműködő nézőpontok, több adatforrás és különféle ügynökök segítségével.


12. Mi az elfogultság?

A torzítás egy hiba, amely a gépi tanulási algoritmus túlzott leegyszerűsítése miatt került be a modellbe. Alulfelszereléshez vezethet.


13. Beszéljétek meg a „naiv”-t egy naiv Bayes-algoritmusban?

A naiv Bayes-algoritmus modell a Bayes-tételen alapul. Egy esemény valószínűségét írja le. Ez az adott eseményhez kapcsolódó feltételek előzetes ismeretén alapul.


14. Mi a lineáris regresszió?

A lineáris regresszió egy statisztikai programozási módszer, ahol egy „A” változó pontszámát egy második „B” változó pontszámából jósolják meg. B-t prediktorváltozónak, A-t pedig kritériumváltozónak nevezzük.


15. Adja meg a várható érték és az átlagérték különbségét!

Nem sok különbség van köztük, de mindkét kifejezést más-más kontextusban használják. Az átlagértékre általában akkor hivatkozunk, amikor valószínűségi eloszlásról beszélünk, míg a várható értékre egy valószínűségi változó kontextusában hivatkozunk.


16. Mi a célja az A/B tesztelésnek?

Az AB-tesztelés véletlenszerű kísérletek elvégzésére szolgál két változóval, A-val és B-vel. Ennek a tesztelési módszernek az a célja, hogy kiderítse a weboldal változásait, hogy maximalizálja vagy növelje a stratégia eredményét.


17. Mi az az együttes tanulás?

Az ensemble egy módszer a tanulók sokféle csoportjának kombinálására, hogy improvizálni tudjanak a modell stabilitásáról és előrejelző erejéről. Az Ensemble tanulási módszerek két típusa:

Zsákolás

A zsákolási módszer segít abban, hogy hasonló tanulókat implementáljon kis mintapopulációkon. Segít közelebbi előrejelzések készítéséhez.

fellendítése

A kiemelés egy iteratív módszer, amely lehetővé teszi a megfigyelés súlyának beállítását az utolsó osztályozástól függően. A feljavítás csökkenti a torzítási hibát, és segít erős prediktív modellek felépítésében.


18. Magyarázza el a sajátértéket és a sajátvektort

A sajátvektorok a lineáris transzformációk megértését szolgálják. Az adattudósnak ki kell számítania a kovarianciamátrix vagy korreláció sajátvektorait. A sajátértékek azok az irányok, amelyek meghatározott lineáris transzformációs műveleteket használnak tömörítéssel, átfordítással vagy nyújtással.


19. Határozza meg a keresztellenőrzés fogalmát

A keresztellenőrzés egy validációs technika annak kiértékelésére, hogy a statisztikai elemzés eredményei hogyan általánosítanak egy független adatkészletre. Ezt a módszert olyan háttérben használják, ahol a cél előrejelzésre kerül, és meg kell becsülni, hogy a modell milyen pontosan fog teljesíteni.


20. Magyarázza el az adatelemzési projekt lépéseit

A következő fontos lépések szerepelnek egy elemzési projektben:

  • Értse meg az üzleti problémát
  • Fedezze fel az adatokat, és alaposan tanulmányozza azokat.
  • Készítse elő az adatokat a modellezéshez a hiányzó értékek megkeresésével és a változók átalakításával.
  • Indítsa el a modell futtatását, és elemezze a Big Data eredményét.
  • Érvényesítse a modellt új adatkészlettel.
  • Valósítsa meg a modellt, és kövesse nyomon az eredményt, hogy elemezze a modell teljesítményét egy adott időszakban.

21. Beszéljétek meg a mesterséges neurális hálózatokat

A mesterséges neurális hálózatok (ANN) olyan speciális algoritmusok, amelyek forradalmasították a gépi tanulást. Segít alkalmazkodni a változó bemenetekhez. Így a hálózat a lehető legjobb eredményt produkálja a kimeneti kritériumok újratervezése nélkül.


22. Mi az a visszaszaporodás?

A visszaterjedés a neurális háló képzés lényege. Ez az a módszer, amellyel a neurális háló súlyait az előző korszakban kapott hibaaránytól függően hangoljuk. A megfelelő hangolás segít csökkenteni a hibaarányt, és az általánosítás növelésével megbízhatóvá tenni a modellt.


23. Mi az a Random Forest?

A véletlen erdő egy gépi tanulási módszer, amely segít minden típusú regressziós és osztályozási feladat végrehajtásában. Hiányzó értékek és kiugró értékek kezelésére is használják.


24. Mi a jelentősége a szelekciós torzításnak?

A szelekciós torzítás akkor fordul elő, ha az egyének vagy csoportok, illetve az elemezni kívánt adatok kiválasztása során nem valósult meg specifikus randomizálás. Ez arra utal, hogy az adott minta nem pontosan reprezentálja az elemezni kívánt sokaságot.


25. Mi az a K-közép klaszterezési módszer?

A K-means klaszterezés fontos, felügyelet nélküli tanulási módszer. Ez az adatok osztályozásának technikája egy bizonyos klaszterkészlettel, amelyet K klasztereknek neveznek. Csoportosításra van telepítve, hogy megtudja az adatok hasonlóságát.


Data Scientist interjúkérdések tapasztaltaknak

26. Magyarázza el a Data Science és a Data Analytics közötti különbséget!

Az adatkutatóknak fel kell vágniuk az adatokat, hogy olyan értékes betekintést nyerjenek, amelyet az adatelemző alkalmazhat a valós üzleti forgatókönyvekre. A fő különbség a kettő között az, hogy az adatkutatók több technikai tudással rendelkeznek, mint az üzleti elemzők. Sőt, nincs szükségük az adatok megjelenítéséhez szükséges üzleti ismeretekre.


27. Magyarázza el a p-értéket?

Amikor hipotézisvizsgálatot végez a statisztikákban, a p-érték lehetővé teszi az eredmények erősségének meghatározását. Ez egy 0 és 1 közötti numerikus szám. Az érték alapján segít az adott eredmény erősségének jelölésében.


28. Határozza meg a mély tanulás fogalmát!

A Deep Learning a gépi tanulás egyik altípusa. Olyan algoritmusokkal foglalkozik, amelyeket a mesterséges neurális hálózatoknak (ANN) nevezett struktúra ihletett.


29. Ismertesse az adatok gyűjtésének és elemzésének módszerét az időjárás előrejelzéséhez a közösségi médiában.

A közösségi média adatait gyűjtheti a Facebook, Twitter, Instagram API használatával. Például a magassugárzóhoz minden tweetből összeállíthatunk egy jellemzőt, például a tweetelt dátumot, a retweeteket, a követők listáját stb. Ezután többváltozós idősor-modellt használhat az időjárási viszonyok előrejelzésére.


30. Mikor kell frissítenie az algoritmust az adattudományban?

Az alábbi esetekben frissítenie kell egy algoritmust:

  • Azt szeretné, ha adatmodellje adatfolyamként fejlődne az infrastruktúra használatával
  • Az alapul szolgáló adatforrás változik, ha nem stacionaritás

31. Mi a normál eloszlás?

A normál eloszlás egy folytonos változó halmaza, amely egy normál görbén vagy haranggörbe alakjában terjed. Tekinthetjük folyamatos valószínűségi eloszlásnak, ami hasznos a statisztikában. Hasznos a változókat és azok kapcsolatait elemezni, amikor a normál eloszlási görbét használjuk.


32. Melyik nyelv a legalkalmasabb a szövegelemzéshez? R vagy Python?

Python alkalmasabb lesz szövegelemzésre, mivel egy gazdag, pandák néven ismert könyvtárból áll. Lehetővé teszi a magas szintű használatát adatelemzési eszközök és adatstruktúrákat, míg az R nem kínálja ezt a funkciót.


33. Magyarázza el a statisztika Data Scientists általi használatának előnyeit

A statisztikák segítenek az adatkutatóknak abban, hogy jobb képet kapjanak az ügyfelek elvárásairól. A statisztikai módszer használatával Az adatkutatók ismereteket szerezhetnek a fogyasztói érdeklődésről, viselkedésről, elkötelezettségről, megtartásról stb. Segítségével hatékony adatmodelleket hozhat létre bizonyos következtetések és előrejelzések validálására.


34. Nevezzen meg különböző típusú mélytanulási keretrendszereket!

  • pytorch
  • Microsoft Kognitív eszközkészlet
  • TensorFlow
  • Kávézó
  • Chainer
  • Keras

35. Magyarázza el az automatikus kódolót

Az automatikus kódolók tanulási hálózatok. Segít abban, hogy a bemeneteket kevesebb hibával rendelkező kimenetekké alakítsa. Ez azt jelenti, hogy a kimenet a lehető legközelebb legyen a bemenethez.


36. Definiálja a Boltzmann-gépet

A Boltzmann gépek egy egyszerű tanulási algoritmus. Segít felfedezni azokat a jellemzőket, amelyek összetett törvényszerűségeket képviselnek az edzési adatokban. Ez az algoritmus lehetővé teszi a súlyok és mennyiségek optimalizálását az adott feladathoz.


37. Magyarázza el, miért elengedhetetlen az adattisztítás, és milyen módszert használ az adatok tisztaságának megőrzésére

A piszkos adatok gyakran hibás belső terekhez vezetnek, ami bármely szervezet kilátásait ronthatja. Például, ha célzott marketingkampányt szeretne futtatni. Adataink azonban tévesen azt mutatják, hogy egy adott termék keresett lesz a célközönség körében; a kampány meghiúsul.


38. Mi az a ferde eloszlás és egyenletes eloszlás?

Ferde eloszlás akkor fordul elő, ha az adatok a diagram bármely oldalán vannak elosztva, míg az egyenletes eloszlás akkor történik, ha az adatok eloszlása ​​egyenlő a tartományban.


39. Mikor fordul elő alulillesztés egy statikus modellben?

Alulillesztésről akkor beszélünk, ha egy statisztikai modell vagy gépi tanulási algoritmus nem képes rögzíteni az adatok mögöttes trendjét.


40. Mi az a megerősítéses tanulás?

A megerősítés tanulás egy tanulási mechanizmus arról, hogyan lehet a helyzeteket cselekvésekre leképezni. A végeredménynek segítenie kell a bináris jutalomjel növelésében. Ennél a módszernél a tanulónak nem mondják meg, hogy melyik cselekvést kell megtennie, hanem meg kell találnia, hogy melyik cselekvés nyújt maximális jutalmat. Mivel ez a módszer a jutalom/büntetés mechanizmuson alapul.


41. Nevezzen meg gyakran használt algoritmusokat!

A Data Science négy leggyakrabban használt algoritmusa a következő:

  • Lineáris regresszió
  • Logisztikus regresszió
  • Véletlen Erdő
  • KNN

42. Mi a precizitás?

A pontosság a leggyakrabban használt hibamérő n osztályozási mechanizmus. Tartománya 0 és 1 között van, ahol az 1 a 100%-ot jelenti


43. Mi az egyváltozós elemzés?

Az egyszerre egyetlen attribútumra sem alkalmazott elemzést egyváltozós elemzésnek nevezzük. Boxa plot széles körben használt, egyváltozós modell.


44. Hogyan küzdi le az eredményekkel kapcsolatos kihívásokat?

Annak érdekében, hogy leküzdhessem az általam tapasztalt kihívásokat, ösztönözni kell a vitát, a vezetést és a különböző lehetőségek tiszteletben tartását.


45. Ismertesse meg a klaszteres mintavételi technikát az adattudományban!

Klaszteres mintavételi módszert használnak, ha kihívást jelent a célpopuláció szétszórt vizsgálata, és az egyszerű véletlenszerű mintavétel nem alkalmazható.


46. ​​Adja meg a különbséget a Validation Set és a Test Set között

Az érvényesítő készlet többnyire a betanítási készlet részének tekinthető, mivel a paraméterek kiválasztására szolgál, ami segít elkerülni a készülő modell túlillesztését.

Míg a tesztkészletet egy betanított gépi tanulási modell teljesítményének tesztelésére vagy értékelésére használják.


47. Magyarázza el a binomiális valószínűségi képlet kifejezést?

"A binomiális eloszlás tartalmazza az összes lehetséges siker valószínűségét N kísérletben olyan független eseményekre, amelyek bekövetkezésének valószínűsége π."


48. Mi az a visszahívás?

A visszahívás a valódi pozitív ráta és a tényleges pozitív arány aránya. 0 és 1 között mozog.


49. Beszéljétek meg a normális eloszlást!

Normális eloszlás esetén egyenlő eloszlás esetén az átlag, a medián és a módusz egyenlő.


50. Miközben egy adathalmazon dolgozik, hogyan tud kiválasztani fontos változókat? Magyarázd el

A következő változókiválasztási módszereket használhatja:

  • A fontos változók kiválasztása előtt távolítsa el a korrelált változókat
  • Használjon lineáris regressziót, és válasszon olyan változókat, amelyek az adott p értékektől függenek.
  • Használja a Vissza, Előre és Lépésenkénti kijelölést
  • Használja az Xgboost, a Random Forestet, és ábrázolja a változó fontossági diagramot.
  • Mérje meg az információnyereséget az adott jellemzőkészlethez, és ennek megfelelően válassza ki a legjobb n jellemzőt.

51. Meg lehet-e ragadni a folytonos és a kategorikus változó közötti összefüggést?

Igen, használhatjuk a kovariancia-analízist a folytonos és kategorikus változók közötti összefüggés megragadására.


52. Egy kategorikus változó folytonos változóként való kezelése jobb prediktív modellt eredményezne?

Igen, a kategorikus értéket csak akkor kell folytonos változónak tekinteni, ha a változó sorszámú. Tehát ez egy jobb prediktív modell.

Ezek az interjúkérdések a viva-ban is segítenek.