60+ andmeinseneride intervjuu küsimusi ja vastuseid 2025. aastal

Siin on andmetehnoloogia intervjuu küsimused ja vastused nii värskematele kui ka kogenud andmeinseneri kandidaatidele, et saada oma unistuste töökoht.

Andmeinseneride intervjuuküsimused esmakursuslastele

1) Selgitage andmetehnoloogiat.

Andmetehnoloogia on suurandmete puhul kasutatav termin. See keskendub andmete kogumise ja uurimistöö rakendamisele. Erinevatest allikatest genereeritud andmed on vaid algandmed. Andmetöötlus aitab need toorandmed kasulikuks teabeks teisendada.

2) Mis on andmemodelleerimine?

Andmete modelleerimine on meetod keeruka tarkvarakujunduse dokumenteerimiseks diagrammina, et igaüks saaks hõlpsasti aru. See on kontseptuaalne esitus andmeobjektidest, mis on seotud erinevate andmeobjektide ja reeglitega.

Andmete modelleerimine

3) Loetlege andmemodelleerimises erinevat tüüpi disainiskeemid

Andmemodelleerimisel on peamiselt kahte tüüpi skeeme: 1) täheskeem ja 2) lumehelbe skeem.

4) Eristada struktureeritud ja struktureerimata andmeid

Järgmine on erinevus struktureeritud ja struktureerimata andmete vahel.

Parameeter	Struktureeritud andmed	Struktureerimata andmed
Säilitamine	DB-süsteemid	Haldamata failistruktuurid
Standard	ADO.net, ODBC ja SQL	STMP, XML, CSV ja SMS
Integratsioonitööriist	ELT (väljavõte, teisendus, laadimine)	Andmete käsitsi sisestamine või partii töötlemine, mis sisaldab koode
ketendamine	Skeemi skaleerimine on keeruline	Skaleerimine on väga lihtne.

5) Selgitage Hadoopi rakenduse kõiki komponente

Järgmised on Hadoopi rakenduse komponendid:

Hadoopi ökosüsteem ja komponendid

Hadoop levinud: See on tavaline utiliitide ja teekide komplekt, mida Hadoop kasutab.
HDFS: See Hadoopi rakendus on seotud failisüsteemiga, milles Hadoopi andmeid talletatakse. See on hajutatud failisüsteem, millel on suur ribalaius.
Hadoop MapReduce: See põhineb suuremahulise andmetöötluse pakkumise algoritmil.
Hadoopi LÕNG: Seda kasutatakse Hadoopi klastri ressursside haldamiseks. Seda saab kasutada ka kasutajate ülesannete ajastamiseks.

6) Mis on NameNode?

See on HDFS-i keskpunkt. See salvestab HDFS-i andmeid ja jälgib klastrites erinevaid faile. Siin tegelikke andmeid ei salvestata. Andmed salvestatakse DataNodes.

7) Määratlege Hadoopi voogesitus

See on utiliit, mis võimaldab luua kaarti ja vähendab töökohti ning edastab need konkreetsesse klastris.

8) Mis on HDFS-i täisvorm?

HDFS tähistab Hadoopi hajutatud failisüsteemi.

9) Määratlege HDFS-is blokeerimis- ja blokeerimisskanner

Plokid on andmefaili väikseim ühik. Hadoop jagab tohutud failid automaatselt väikesteks tükkideks.

Block Scanner kontrollib DataNode'is esitatud plokkide loendit.

10) Millised toimingud toimuvad, kui Block Scanner tuvastab rikutud andmeploki?

Kui Block Scanner leiab rikutud andmeploki, on järgmised sammud.

1) Esiteks, kui Block Scanner leiab rikutud andmeploki, teatab DataNode NameNode'ile

2) NameNode käivitab uue koopia loomise protsessi, kasutades rikutud ploki koopiat.

3) Õigete koopiate replikatsioonide arv proovib sobitada replikatsiooniteguriga. Kui vaste leiti rikutud andmeplokki, ei kustutata.

11) Nimetage kaks sõnumit, mille NameNode saab DataNode'ilt?

NameNode saab DataNode'ilt kaks sõnumit. Need on 1) blokeerimisaruanne ja 2) südamelöögid.

12) Loetlege Hadoopis erinevad XML-konfiguratsioonifailid?

Hadoopis on viis XML-konfiguratsioonifaili:

Mapred-sait
Põhisait
HDFS-sait
Lõng-sait

13) Mis on suurandmete neli V-d?

Suurandmete neli V-d on:

Kiirus
Sort
maht
tõepärasus

14) Selgitage Hadoopi funktsioone

Hadoopi olulised funktsioonid on:

See on avatud lähtekoodiga raamistik, mis on saadaval vabavarana.
Hadoop ühildub mitut tüüpi riistvaraga ja sellele on konkreetses sõlmes lihtne juurdepääs uuele riistvarale.
Hadoop toetab kiiremat andmetöötlust.
See salvestab andmed klastris, mis on ülejäänud toimingutest sõltumatu.
Hadoop võimaldab luua iga ploki jaoks 3 koopiat erinevate sõlmedega.

15) Selgitage Reduceri peamisi meetodeid

setup (): Seda kasutatakse parameetrite, näiteks sisendandmete suuruse ja hajutatud vahemälu, konfigureerimiseks.
cleanup(): seda meetodit kasutatakse ajutiste failide puhastamiseks.
Reduction(): See on redutseerija süda, mida kutsutakse üks kord klahvi kohta koos sellega seotud vähendatud ülesandega

16) Mis on COSHH lühend?

COSHH lühend on klassifitseerimisel ja optimeerimisel põhinev ajakava heterogeensete Hadoopi süsteemide jaoks.

17) Selgitage täheskeemi

Täheskeem või Star Join Schema on andmelao skeemi kõige lihtsam tüüp. Seda tuntakse täheskeemina, kuna selle struktuur sarnaneb tähega. Skeemis Tärn võib tähe keskel olla üks faktitabel ja mitu seotud dimensioonitabelit. Seda skeemi kasutatakse suurte andmekogumite päringute tegemiseks.

18) Kuidas kasutada suurandmete lahendust?

Suurandmete lahenduse juurutamiseks järgige järgmisi samme.

1) Andmete integreerimine selliste andmeallikate nagu RDBMS abil, SAP, MySQL, Sales Force
2) Salvestage eraldatud andmed kas NoSQL-i andmebaasis või HDFS-is.
3) juurutage suurandmete lahendus, kasutades töötlemisraamistikke nagu Pig, Sparkja MapReduce.

19) Selgitage FSCK

Failisüsteemi kontroll või FSCK on HDFS-i kasutatav käsk. FSCK-käsku kasutatakse faili ebakõlade ja probleemide kontrollimiseks.

20) Selgitage lumehelbe skeemi

A Lumehelbe skeem on Star Schema laiendus ja see lisab täiendavaid mõõtmeid. Seda nimetatakse lumehelbeks, kuna selle diagramm näeb välja nagu lumehelbeke. Dimensioonitabelid on normaliseeritud, mis jagab andmed täiendavateks tabeliteks.

21) Eristage tähe- ja lumehelbeskeemi

täht	Lumehelbe skeem
Dimensioonide hierarhiad salvestatakse mõõtmete tabelisse.	Iga hierarhia on salvestatud eraldi tabelitesse.
Andmete liiasuse tõenäosus on suur	Andmete liiasuse tõenäosus on väike.
Sellel on väga lihtne DB disain	Sellel on keeruline DB disain
Pakkuge kiiremat viisi kuubikute töötlemiseks	Kuubiku töötlemine on keeruka liitmise tõttu aeglane.

22) Selgitage Hadoopi hajutatud failisüsteemi

Hadoop töötab skaleeritavate hajutatud failisüsteemidega, nagu S3, HFTP FS, FS ja HDFS. Hadoopi hajutatud failisüsteem on loodud Google'i failisüsteemis. See failisüsteem on loodud nii, et seda saab hõlpsasti töötada suures arvutisüsteemi klastris.

23) Selgitage andmeinseneri põhiülesandeid

Andmeinseneridel on palju kohustusi. Nad haldavad andmete lähtesüsteemi. Andmeinsenerid lihtsustavad keerukat andmestruktuuri ja hoiavad ära andmete dubleerimise. Mitu korda pakuvad nad ka ELT-d ja andmete teisendamist.

24) Mis on LÕNGA täisvorm?

Lõnga täisvorm on Yet Another Resource Negotiator.

25) Loetlege Hadoopi erinevad režiimid

Hadoopi režiimid on 1) eraldiseisev režiim 2) pseudo hajutatud režiim 3) täielikult hajutatud režiim.

26) Kuidas saavutada Hadoopis turvalisus?

Hadoopi turvalisuse saavutamiseks tehke järgmised toimingud.

1) Esimene samm on kliendi autentimiskanali turvamine serverisse. Esitage kliendile ajatempel.
2) Teises etapis kasutab klient saadud ajatempliga TGS-i teenusepileti taotlemiseks.
3) Viimases etapis kasutab klient teenusepiletit eneseautentimiseks konkreetsesse serverisse.

27) Mis on Heartbeat Hadoopis?

Hadoopis suhtlevad NameNode ja DataNode omavahel. Südamelöögid on signaal, mille DataNode saadab regulaarselt NameNode'ile, et näidata selle olemasolu.

28) Eristage Hadoopis NAS-i ja DAS-i

NAS	DAS
Salvestusmaht on 10⁹to 10¹² baidis.	Salvestusmaht on 10⁹baidis.
Halduskulu GB kohta on mõõdukas.	Halduskulu GB kohta on kõrge.
Andmete edastamine Etherneti või TCP/IP kaudu.	Andmete edastamine IDE/SCSI abil

29) Loetlege olulised andmeinseneri kasutatavad väljad või keeled

Siin on mõned andmeinseneride kasutatavad väljad või keeled.

Tõenäosus kui ka lineaaralgebra
Masinõpe
Trendianalüüs ja regressioon
Hive QL ja SQL andmebaasid

30) Mis on suurandmed?

Tegemist on suure hulga struktureeritud ja struktureerimata andmetega, mida ei saa traditsiooniliste andmesalvestusmeetoditega lihtsalt töödelda. Andmeinsenerid kasutavad suurandmete haldamiseks Hadoopi.

Andmeinseneride intervjuuküsimused kogenud inimestele

31) Mis on FIFO ajakava?

See on Hadoopi töö ajastamise algoritm. Selles FIFO ajastamises valib reporter tööjärjekorrast tööd, vanim töö esimesena.

32) Mainige vaikimisi pordinumbreid, millel toimingute jälgija, NameNode ja tööjälgija Hadoopis töötavad

Vaikimisi pordinumbrid, millel Hadoopis tööülesannete jälgija, NameNode ja tööjälgija käitatakse, on järgmised.

Ülesande jälgija töötab 50060 pordil
NameNode töötab 50070 pordil
Job Tracker töötab pordil 50030

33) Kuidas HDFS-andmesõlmes blokeerimisskannerit keelata

HDFS-andmesõlmes Block Scanneri keelamiseks määrake dfs.datanode.scan.period.hours väärtuseks 0.

34) Kuidas määrata Hadoopi kahe sõlme vaheline kaugus?

Kaugus võrdub lähimate sõlmede kauguse summaga. Kahe sõlme vahelise kauguse arvutamiseks kasutatakse meetodit getDistance().

35) Miks kasutada Hadoopis tavalist riistvara?

Kauba riistvara on lihtne hankida ja taskukohane. See on süsteem, mis ühildub Windows, MS-DOS või Linux.

36) Määrake HDFS-is replikatsioonitegur

Replikatsioonitegur on süsteemis oleva faili koopiate koguarv.

37) Milliseid andmeid hoitakse NameNode'is?

Namenode salvestab HDFS-i metaandmed, nagu plokkide teave ja nimeruumi teave.

38) Mida sa rack-teadlikkuse all mõtled?

Haddopi klastris kasutab Namenode Datanode'i võrguliikluse parandamiseks, lugedes või kirjutades mis tahes faili, mis asub lugemis- või kirjutamistaotluse jaoks lähedal asuvale riiulile. Namenode säilitab rack-teabe saamiseks iga DataNode'i racki ID-d. Seda kontseptsiooni nimetatakse Hadoopis Rack Awarenessiks.

39) Millised on Secondary NameNode funktsioonid?

Teisese NameNode'i funktsioonid on järgmised:

FsImage, mis salvestab faili EditLog ja FsImage koopia.
NameNode krahh: kui NameNode jookseb kokku, saab NameNode'i uuesti loomiseks kasutada sekundaarset NameNode'i FsImage'i.
Kontrollpunkt: Secondary NameNode kasutab seda, et kinnitada, et andmed pole HDFS-is rikutud.
Värskendus: see värskendab automaatselt faili EditLog ja FsImage. See aitab hoida FsImage-faili sekundaarses nimesõlmes värskendatuna.

40) Mis juhtub, kui NameNode on maas ja kasutaja esitab uue töö?

NameNode on Hadoopi ainus tõrkepunkt, nii et kasutaja ei saa esitada uut tööd, mida ei saa käivitada. Kui NameNode on maas, võib töö nurjuda, kuna see kasutaja peab enne mis tahes töö käivitamist ootama, kuni NameNode taaskäivitub.

41) Millised on Hadoopi reduktori põhifaasid?

Hadoopi reduktoril on kolm põhifaasi:

1. Shuffle: Siin kopeerib Reducer väljundi Mapperist.

2. Sordi: Sorteerimisel sorteerib Hadoop sama klahvi kasutades reduktorisse sisendi.

3. Vähendamine: selles faasis vähendatakse võtmega seotud väljundväärtusi, et koondada andmed lõplikku väljundisse.

42) Miks Hadoop kasutab kontekstiobjekti?

Hadoopi raamistik kasutab ülejäänud süsteemiga suhtlemiseks kontekstiobjekti klassiga Mapper. Kontekstiobjekt saab süsteemi konfiguratsiooni üksikasjad ja töö oma konstruktoris.

Kasutame kontekstiobjekti teabe edastamiseks meetodites setup(), cleanup() ja map(). See objekt teeb olulise teabe kaarditoimingute ajal kättesaadavaks.

43) Defineerige Hadoopis Combiner

See on valikuline samm kaardistamise ja vähendamise vahel. Combiner võtab väljundi funktsioonist Map, loob võtmeväärtuste paarid ja esitab selle Hadoop Reducerile. Kombineerija ülesanne on koondada kaardi lõpptulemus identse võtmega koondkirjeteks.

44) Mis on HDFS-is saadaolev vaikimisi replikatsioonitegur Mida see näitab?

HDFS-is saadaolev vaikimisi replikatsioonitegur on kolm. Vaikimisi replikatsioonitegur näitab, et igast andmetest on kolm koopiat.

45) Mida sa mõtled Hadoopi andmepiirkonda?

Big Data süsteemis on andmete maht tohutu ja seetõttu pole mõtet andmeid üle võrgu liigutada. Nüüd püüab Hadoop viia arvutusi andmetele lähemale. Nii jäävad andmed salvestatud asukoha lokaalseks.

46) Defineerige tasakaalustaja HDFS-is

HDFS-is on tasakaalustaja administraator, mida administraatori töötajad kasutavad DataNodesi andmete tasakaalustamiseks ja liigutab plokid ülekasutatud sõlmedest alakasutatud sõlmedesse.

47) Selgitage HDFS-i turvarežiimi

See on klastris oleva NameNode'i kirjutuskaitstud režiim. Esialgu on NameNode turvarežiimis. See takistab failisüsteemi kirjutamist turvarežiimis. Praegu kogub see andmeid ja statistikat kõigist DataNode'idest.

48) Mis tähtsus on Apache Hadoopi hajutatud vahemällul?

Hadoopil on kasulik utiliidi funktsioon, nn hajutatud vahemälu, mis parandab tööde jõudlust, salvestades rakenduste kasutatavad failid vahemällu. Rakendus saab määrata vahemälu faili JobConfi konfiguratsiooni abil.

Hadoopi raamistik muudab nende failide koopia sõlmedesse, mille jaoks ülesanne tuleb täita. Seda tehakse enne ülesande täitmise algust. Distributed Cache toetab nii kirjutuskaitstud failide kui ka ZIP- ja jar-failide levitamist.

49) Mis on taru metastore?

See salvestab nii skeemi kui ka Hive tabeli asukoha.

Taru tabel määratleb, vastendused ja metaandmed, mis salvestatakse metastore'i. Seda saab salvestada RDBMS-i, mida toetab JPOX.

50) Mida tähendab SerDe tarus?

SerDe on Serializer või Deserializer lühike nimi. Tarus võimaldab SerDe lugeda andmeid tabelist ja kirjutada konkreetsele väljale mis tahes soovitud vormingus.

51) Loetlege Hive andmemudelis saadaolevad komponendid

Taru andmemudelis on järgmised komponendid.

Tabelid
Piirded
Kopad

52) Selgitage Hive kasutamist Hadoopi ökosüsteemis.

Hive pakub liidest Hadoopi ökosüsteemis salvestatud andmete haldamiseks. Taru kasutatakse kaardistamiseks ja HBase tabelitega töötamiseks. Taru päringud teisendatakse MapReduce'i töödeks, et varjata MapReduce'i tööde loomise ja käitamisega seotud keerukust.

53) Loetlege mitmesuguseid keerukaid andmetüüpe/kogusid, mida Hive toetab

Hive toetab järgmisi keerulisi andmetüüpe:

kaart
Struktuur
Array
Liit

54) Selgitage, kuidas Hive'i .hiverc-faili kasutatakse?

Hive'is on .hiverc lähtestamisfail. See fail laaditakse algselt siis, kui käivitame Hive'i käsurea liidese (CLI). Parameetrite algväärtused saame määrata .hiverc failis.

55) Kas ühe andmefaili jaoks saab Hive'is luua rohkem kui ühe tabeli?

Jah, me saame andmefaili jaoks luua rohkem kui ühe tabeliskeeme. Taru salvestab skeemi Hive metastore'i. Selle skeemi alusel saame samadest andmetest hankida erinevaid tulemusi.

56) Selgitage erinevaid Hive'is saadaolevaid SerDe rakendusi

Hive'is on saadaval palju SerDe rakendusi. Saate kirjutada ka oma kohandatud SerDe juurutuse. Järgmised on mõned kuulsad SerDe rakendused:

OpenCSVSerde
RegexSerDe
PiiratudJSONSerDe
ByteStreamTypedSerDe

57) Hive'is saadaolevate tabelite genereerimise funktsioonide loend

Järgmine on tabeli genereerimise funktsioonide loend:

Plahvata (massiv)
JSON_tuple()
Stack()
Plahvata (kaart)

58) Mis on taru viltune tabel?

Kaldus tabel on tabel, mis sisaldab sagedamini veergude väärtusi. Kui me Tarus määrame tabeli loomise ajal VALLATUD, kirjutatakse kallutatud väärtused eraldi failidesse ja ülejäänud väärtused lähevad teise faili.

59) Loetlege loomise käsuga loodud objektid MySQL.

Loomislausega loodud objektid MySQL on järgmised:

andmebaas
indeks
Tabel
Kasutaja
Menetlus
Trigger
sündmus
vaade
funktsioon

60) Kuidas näha andmebaasi struktuuri MySQL?

Et näha andmebaasi struktuuri MySQL, Mida saab kasutada

DESCRIBE käsk. Selle käsu süntaks on DESCRIBE Table name;.

SQL-intervjuu küsimused andmeinsenerile

61) Kuidas otsida konkreetset stringi MySQL tabeli veerg?

Kasutage stringi otsimiseks regex-operaatorit MySQL veerus. Siin saame ka määratleda erinevat tüüpi regulaaravaldisi ja otsida regexi abil.

62) Selgitage, kuidas andmeanalüütika ja suurandmed võivad ettevõtte tulusid suurendada?

Allpool on toodud viisid, kuidas andmeanalüütika ja suurandmed võivad ettevõtte tulusid suurendada.

Kasutage andmeid tõhusalt, et tagada ettevõtte kasv.
Suurendage kliendi väärtust.
Analüütiliseks muutmine personalitaseme prognooside parandamiseks.
Organisatsioonide tootmiskulude vähendamine.

Need intervjuu küsimused aitavad ka teie viva (suuline)