60+ adatmérnöki interjúkérdés és válasz 2025-ben
Adatmérnöki interjúkérdések pályakezdőknek
1) Magyarázza el az adatkezelést.
Az adatkezelés a big data-ban használt kifejezés. Középpontjában az adatgyűjtés és a kutatás alkalmazása áll. A különböző forrásokból előállított adatok csak nyers adatok. Az adatkezelés segít ezeknek a nyers adatoknak hasznos információvá alakításában.
2) Mi az adatmodellezés?
Az adatok modellezése A komplex szoftvertervezés diagramként történő dokumentálásának módszere, hogy bárki könnyen megértse. Ez a különféle adatobjektumok és a szabályok között társított adatobjektumok fogalmi ábrázolása.
3) Soroljon fel különféle tervezési sémákat az adatmodellezésben
Az adatmodellezésben alapvetően kétféle séma létezik: 1) csillagséma és 2) hópehelyséma.
4) Tegyen különbséget a strukturált és a strukturálatlan adatok között
Az alábbiakban látható a különbség a strukturált és a strukturálatlan adatok között:
Vizsgált paraméter | Strukturált adatok | Strukturálatlan adatok |
---|---|---|
Tárolás | DBMS | Nem kezelt fájlszerkezetek |
Standard | ADO.net, ODBC és SQL | STMP, XML, CSV és SMS |
Integrációs eszköz | ELT (kivonás, átalakítás, betöltés) | Kézi adatbevitel vagy kódokat tartalmazó kötegelt feldolgozás |
skálázás | A séma méretezése nehézkes | A méretezés nagyon egyszerű. |
5) Magyarázza el a Hadoop alkalmazás összes összetevőjét
Következik a Hadoop alkalmazás összetevői:
- Gyakori Hadoop: Ez a Hadoop által használt segédprogramok és könyvtárak általános készlete.
- HDFS: Ez a Hadoop-alkalmazás ahhoz a fájlrendszerhez kapcsolódik, amelyben a Hadoop-adatokat tárolják. Ez egy elosztott fájlrendszer nagy sávszélességgel.
- Hadoop MapReduce: A nagyszabású adatfeldolgozást biztosító algoritmus szerint épül fel.
- Hadoop FONAL: A Hadoop-fürtön belüli erőforrás-kezeléshez használják. Használható a felhasználók feladatütemezésére is.
6) Mi az a NameNode?
Ez a HDFS központi eleme. HDFS-adatokat tárol, és különféle fájlokat követ a fürtök között. Itt a tényleges adatok nem kerülnek tárolásra. Az adatokat a DataNodes tárolja.
7) Határozza meg a Hadoop adatfolyamot
Ez egy olyan segédprogram, amely lehetővé teszi a térkép létrehozását és csökkenti a munkahelyeket, és elküldi őket egy adott klaszterbe.
8) Mi a HDFS teljes formája?
A HDFS a Hadoop Distributed File System rövidítése.
9) Határozza meg a blokk- és blokkolvasót a HDFS-ben
A blokkok az adatfájl legkisebb egységei. A Hadoop automatikusan apró darabokra osztja a hatalmas fájlokat.
A Block Scanner ellenőrzi a DataNode-on megjelenített blokkok listáját.
10) Milyen lépések történnek, ha a Block Scanner sérült adatblokkot észlel?
A következő lépések történnek, ha a Block Scanner sérült adatblokkot talál:
1) Először is, amikor a Block Scanner sérült adatblokkot talál, a DataNode jelentést készít a NameNode-nak
2) A NameNode indítsa el az új replika létrehozásának folyamatát a sérült blokk replikájával.
3) A megfelelő replikák replikációs száma megpróbál megfelelni a replikációs tényezőnek. Ha az egyezés sérült adatblokkot talál, a rendszer nem törli.
11) Nevezzen meg két üzenetet, amelyet a NameNode kap a DataNode-tól?
A NameNode két üzenetet kap a DataNode-tól. Ezek 1) blokkjelentés és 2) szívverés.
12) Sorolja fel a különböző XML konfigurációs fájlokat a Hadoopban?
A Hadoopban öt XML konfigurációs fájl található:
- Mapred-site
- Core-site
- HDFS-oldal
- Fonal-oldal
13) Mi a nagy adat négy V-je?
A nagy adatok négy V-je:
- Sebesség
- Fajta
- kötet
- Igazság
14) Ismertesse a Hadoop funkcióit
A Hadoop fontos funkciói:
- Ez egy nyílt forráskódú keretrendszer, amely ingyenesen elérhető.
- A Hadoop sokféle hardverrel kompatibilis, és könnyen elérhető új hardver egy adott csomóponton belül.
- A Hadoop támogatja az adatok gyorsabb elosztását.
- Az adatokat a fürtben tárolja, amely független a többi művelettől.
- A Hadoop lehetővé teszi 3 replika létrehozását minden blokkhoz különböző csomópontokkal.
15) Ismertesse a Reducer főbb módszereit!
- setup (): Olyan paraméterek konfigurálására szolgál, mint a bemeneti adatok mérete és az elosztott gyorsítótár.
- cleanup(): Ez a módszer az ideiglenes fájlok tisztítására szolgál.
- Reduction(): Ez a reduktor szíve, amelyet kulcsonként egyszer hívnak meg a kapcsolódó csökkentett feladattal együtt
16) Mi a COSHH rövidítése?
A COSHH rövidítése a Heterogeneous Hadoop rendszerek osztályozási és optimalizálási alapú ütemezése.
17) Magyarázza el a csillagsémát
Csillag séma vagy Star Join Schema a Data Warehouse séma legegyszerűbb típusa. Csillagséma néven ismert, mert szerkezete olyan, mint egy csillag. A Csillag sémában a csillag közepének egy ténytáblázata és több kapcsolódó dimenziótáblázata lehet. Ez a séma nagy adathalmazok lekérdezésére szolgál.
18) Hogyan telepítsünk big data megoldást?
Kövesse az alábbi lépéseket a nagy adathalmaz megoldásának üzembe helyezéséhez.
1) Integrálja az adatokat olyan adatforrások segítségével, mint az RDBMS, SAP, MySQL, Salesforce
2) Tárolja a kivont adatokat NoSQL adatbázisban vagy HDFS-ben.
3) Telepítse a big data megoldást olyan feldolgozási keretrendszerek használatával, mint a Pig, Sparkés a MapReduce.
19) Magyarázza el az FSCK-t
A fájlrendszer-ellenőrzés vagy az FSCK a HDFS által használt parancs. Az FSCK parancs az inkonzisztenciák és a problémák ellenőrzésére szolgál a fájlban.
20) Magyarázza el a hópehely sémát
A Hópehely séma a Star Schema kiterjesztése, és további dimenziókat ad hozzá. Hópehelynek hívják, mert a diagramja úgy néz ki, mint egy hópehely. A dimenziótáblák normalizálva vannak, ami az adatokat további táblákra bontja.
21) Tegyen különbséget a csillag és a hópehely séma között
csillag | Hópehely séma |
A dimenzióhierarchiák a mérettáblázatban vannak tárolva. | Minden hierarchia külön táblákban van tárolva. |
Az adatredundancia esélye nagy | Az adatredundancia esélye kicsi. |
Nagyon egyszerű DB kialakítása van | Összetett DB kialakítású |
Gyorsabb módja a kockafeldolgozásnak | A kocka feldolgozása lassú a bonyolult összekapcsolás miatt. |
22) Magyarázza el a Hadoop elosztott fájlrendszert
A Hadoop olyan méretezhető elosztott fájlrendszerekkel működik, mint az S3, HFTP FS, FS és HDFS. A Hadoop Distributed File System a Google fájlrendszeren készült. Ezt a fájlrendszert úgy tervezték meg, hogy könnyen futhasson a számítógépes rendszer nagy fürtjén.
23) Ismertesse az adatmérnök fő feladatait
Az adatmérnököknek sok felelősségük van. Ők kezelik az adatok forrásrendszerét. Az adatmérnökök leegyszerűsítik az összetett adatstruktúrát, és megakadályozzák az adatok többszörözését. Sokszor ELT-t és adatátalakítást is biztosítanak.
24) Mi a FONAL teljes formája?
A YARN teljes formája a Yet Another Resource Negotiator.
25) Soroljon fel különféle módokat a Hadoopban
A Hadoop módok a következők: 1) Önálló mód 2) Pseudo-elosztott mód 3) Teljesen elosztott mód.
26) Hogyan lehet biztonságot elérni a Hadoopban?
Hajtsa végre a következő lépéseket a Hadoop biztonságának eléréséhez:
1) Az első lépés a kliens hitelesítési csatornájának biztosítása a szerver felé. Adjon időbélyegzőt az ügyfélnek.
2) A második lépésben az ügyfél a fogadott időbélyeggel ellátott TGS szolgáltatási jegyet kér.
3) Az utolsó lépésben a kliens szolgáltatási jegyet használ az önhitelesítéshez egy adott szerverhez.
27) Mi az a Heartbeat a Hadoopban?
A Hadoopban a NameNode és a DataNode kommunikál egymással. A szívverés az a jel, amelyet a DataNode rendszeresen küld a NameNode-nak, hogy jelezze jelenlétét.
28) Tegyen különbséget a NAS és a DAS között a Hadoopban
NAS | DAS |
A tárolási kapacitás 109 A 1012 bájtban. | A tárolási kapacitás 109 bájtban. |
A GB-nkénti kezelési költség mérsékelt. | Az egy GB-onkénti kezelési költség magas. |
Adatátvitel Ethernet vagy TCP/IP használatával. | Adatátvitel IDE/SCSI használatával |
29) Sorolja fel az adatmérnök által használt fontos mezőket vagy nyelveket
Íme néhány adatmérnök által használt mező vagy nyelv:
- Valószínűség, valamint lineáris algebra
- Gépi tanulás
- Trendelemzés és regresszió
- Hive QL és SQL adatbázisok
30) Mi az a Big Data?
Nagy mennyiségű strukturált és strukturálatlan adatról van szó, amelyet a hagyományos adattárolási módszerekkel nem lehet könnyen feldolgozni. Az adatmérnökök a Hadoop segítségével kezelik a nagy adatokat.
Adatmérnöki interjúkérdések tapasztaltaknak
31) Mi az a FIFO ütemezés?
Ez egy Hadoop Job ütemezési algoritmus. Ebben a FIFO-ütemezésben a riporter kiválasztja a jobokat egy munkasorból, először a legrégebbi jobot.
32) Említse meg azokat az alapértelmezett portszámokat, amelyeken a feladatkövető, a NameNode és a feladatkövető fut a Hadoopban
Az alapértelmezett portszámok, amelyeken a feladatkövető, a NameNode és a feladatkövető fut a Hadoopban, a következők:
- A Feladatkövető 50060-as porton fut
- A NameNode 50070 porton fut
- A Job Tracker 50030 porton fut
33) Hogyan lehet letiltani a blokkolvasót a HDFS adatcsomóponton
A HDFS adatcsomóponton a Blokkolvasó letiltásához állítsa a dfs.datanode.scan.period.hours értéket 0-ra.
34) Hogyan határozható meg a távolság két csomópont között a Hadoopban?
A távolság egyenlő a legközelebbi csomópontok távolságának összegével. A getDistance() metódus két csomópont közötti távolság kiszámítására szolgál.
35) Miért érdemes árucikkeket használni a Hadoopban?
Az árucikk hardver könnyen beszerezhető és megfizethető. Ez egy olyan rendszer, amely kompatibilis Windows, MS-DOS vagy Linux.
36) Határozza meg a replikációs tényezőt a HDFS-ben
A replikációs tényező egy fájl replikáinak teljes száma a rendszerben.
37) Milyen adatokat tárol a NameNode?
A Namenode tárolja a HDFS metaadatait, például a blokkinformációkat és a névtérinformációkat.
38) Mit értesz Rack Awareness alatt?
A Haddop-fürtben a Namenode a Datanode segítségével javítja a hálózati forgalmat, miközben olvas vagy ír minden olyan fájlt, amely közelebb van a közeli rackhez az olvasási vagy írási kéréshez. A Namenode karbantartja minden DataNode rack azonosítóját, hogy elérje a rack információkat. Ezt a koncepciót Rack Awarenessnek hívják a Hadoopban.
39) Mik a Másodlagos NameNode funkciói?
A másodlagos névcsomópont funkciói a következők:
- FsImage, amely az EditLog és az FsImage fájl másolatát tárolja.
- NameNode összeomlás: Ha a NameNode összeomlik, akkor a másodlagos NameNode FsImage-je használható a NameNode újra létrehozására.
- Ellenőrzőpont: A másodlagos névcsomópont annak ellenőrzésére használja, hogy az adatok nem sérültek-e a HDFS-ben.
- Frissítés: Automatikusan frissíti az EditLog és az FsImage fájlt. Segít frissíteni az FsImage fájlt a Másodlagos NameNode-on.
40) Mi történik, ha a NameNode nem működik, és a felhasználó új feladatot küld be?
A NameNode az egyetlen hibapont a Hadoopban, így a felhasználó nem küldhet be új feladatot, és nem tudja végrehajtani. Ha a NameNode nem működik, akkor a feladat meghiúsulhat, mivel a felhasználónak meg kell várnia a NameNode újraindulását, mielőtt bármilyen feladatot futtatna.
41) Melyek a reduktor alapvető fázisai a Hadoopban?
A Hadoop reduktorának három alapvető fázisa van:
1. Shuffle: Itt a Reducer másolja a Mapper kimenetét.
2. Rendezés: A rendezés során a Hadoop a Reducerbe rendezi a bemenetet ugyanazzal a kulccsal.
3. Csökkentés: Ebben a fázisban a kulcshoz tartozó kimeneti értékeket lecsökkentik, hogy az adatokat a végső kimenetbe konszolidálják.
42) Miért használ a Hadoop Context objektumot?
A Hadoop keretrendszer Context objektumot használ a Mapper osztállyal a fennmaradó rendszerrel való interakcióhoz. A kontextus objektum a rendszerkonfiguráció részleteit és a munkát a konstruktorában kapja meg.
Context objektumot használunk az információk átadására a setup(), a cleanup() és a map() metódusokban. Ez az objektum létfontosságú információkat tesz elérhetővé a térképi műveletek során.
43) Definiálja a Combinert a Hadoopban
Ez egy opcionális lépés a Térkép és a Kicsinyítés között. A Combiner átveszi a Map függvény kimenetét, kulcsértékpárokat hoz létre, és elküldi a Hadoop Reducernek. A Combiner feladata, hogy a Map végeredményét azonos kulccsal összesítő rekordokba foglalja össze.
44) Mi az alapértelmezett replikációs tényező a HDFS-ben Mit jelez?
A HDFS-ben elérhető alapértelmezett replikációs tényező három. Az alapértelmezett replikációs tényező azt jelzi, hogy minden adatnak három replikája lesz.
45) Mit jelent az adathelyesség a Hadoopban?
Egy Big Data rendszerben az adatok mérete óriási, ezért nincs értelme az adatokat a hálózaton keresztül mozgatni. Most a Hadoop megpróbálja közelebb vinni a számítást az adatokhoz. Így az adatok a tárolt helyen lokálisak maradnak.
46) Határozza meg a Balancer-t a HDFS-ben
A HDFS-ben a kiegyenlítő egy adminisztrációs eszköz, amelyet az adminisztrátorok használnak az adatok újbóli kiegyensúlyozására a DataNodes-ok között, és a blokkokat a túlhasználtról az alulkihasznált csomópontokra helyezik át.
47) Magyarázza el a biztonságos módot a HDFS-ben
Ez a NameNode csak olvasható módja egy fürtben. Kezdetben a NameNode csökkentett módban van. Megakadályozza az írást a fájlrendszerbe csökkentett módban. Jelenleg adatokat és statisztikákat gyűjt az összes DataNode-ról.
48) Mi az elosztott gyorsítótár jelentősége az Apache Hadoopban?
A Hadoop hasznos segédfunkcióval rendelkezik, az úgynevezett Distributed Cache, amely az alkalmazások által használt fájlok gyorsítótárazásával javítja a feladatok teljesítményét. Egy alkalmazás megadhat egy fájlt a gyorsítótár számára a JobConf konfigurációval.
A Hadoop keretrendszer ezeknek a fájloknak a replikáját olyan csomópontokká teszi, amelyeket végre kell hajtani. Ez a feladat végrehajtásának megkezdése előtt történik. Az elosztott gyorsítótár támogatja a csak olvasható fájlok, valamint a zip- és jars-fájlok terjesztését.
49) Mi az a Metastore in Hive?
Tárolja a sémát, valamint a Hive tábla helyét.
A Hive tábla határozza meg, leképezéseket és metaadatokat, amelyeket a Metastore tárol. Ez a JPOX által támogatott RDBMS-ben tárolható.
50) Mit jelent a SerDe a Hive-ben?
A SerDe a Serializer vagy Deserializer rövid neve. A Hive-ban a SerDe lehetővé teszi az adatok táblából történő olvasását és egy adott mezőbe való írását bármilyen formátumban.
51) Sorolja fel a Hive adatmodellben elérhető összetevőket
A Hive adatmodellben a következő összetevők találhatók:
- Asztalok
- válaszfalak
- Kanalak
52) Magyarázza el a Hive használatát a Hadoop ökoszisztémában.
A Hive felületet biztosít a Hadoop ökorendszerben tárolt adatok kezelésére. A Hive a HBase táblák feltérképezésére és a velük való munkavégzésre szolgál. A Hive-lekérdezéseket a rendszer MapReduce-feladatokká alakítja, hogy elrejtse a MapReduce-feladatok létrehozásával és futtatásával kapcsolatos bonyolultságot.
53) Soroljon fel különféle összetett adattípusokat/-gyűjtéseket, amelyeket a Hive támogat
A Hive a következő összetett adattípusokat támogatja:
- Térkép
- Szerkezet
- Sor
- Unió
54) Magyarázza el, hogyan kell használni a Hive-ben található .hiverc fájlt?
A Hive-ban a .hiverc az inicializálási fájl. Ez a fájl először akkor töltődik be, amikor elindítjuk a Command Line Interface (CLI) programot a Hive számára. A paraméterek kezdeti értékeit a .hiverc fájlban tudjuk beállítani.
55) Létrehozhat egynél több táblát a Hive-ban egyetlen adatfájlhoz?
Igen, egy adatfájlhoz több táblázatsémát is létrehozhatunk. A Hive a sémát a Hive Metastore-ba menti. E séma alapján ugyanazon adatokból eltérő eredményeket is lekérhetünk.
56) Ismertesse a Hive-ban elérhető különböző SerDe-megvalósításokat
A Hive-ban számos SerDe-megvalósítás érhető el. Írhat saját egyéni SerDe implementációt is. Íme néhány híres SerDe implementáció:
- OpenCSVSerde
- RegexSerDe
- ElhatároltJSONSerDe
- ByteStreamTypedSerDe
57) Listázza ki a Hive-ben elérhető táblázatgeneráló funkciókat
Az alábbiakban felsoroljuk a táblázatgeneráló függvényeket:
- Felrobban (tömb)
- JSON_tuple()
- Kazal()
- Felrobban (térkép)
58) Mi az a ferde asztal a Kaptárban?
A ferde tábla olyan táblázat, amely gyakrabban tartalmaz oszlopértékeket. Ha a Hive-ben a létrehozás során egy táblát ferdén adunk meg, a ferde értékek külön fájlba íródnak, a fennmaradó értékek pedig egy másik fájlba kerülnek.
59) Sorolja fel a create utasítással létrehozott objektumokat MySQL.
Az in create utasítással létrehozott objektumok MySQL a következő:
- adatbázis
- index
- Táblázat
- használó
- Eljárás
- ravasz
- esemény
- Kilátás
- Funkció
60) Hogyan lehet látni az adatbázis szerkezetét MySQL?
Az adatbázis szerkezetének megtekintéséhez MySQL, Akkor
DESCRIBE parancsot. A parancs szintaxisa a következő DESCRIBE Table name;
.
SQL interjúkérdések adatmérnök számára
61) Hogyan kereshet egy adott karakterláncot MySQL táblázat oszlop?
Használja a reguláris kifejezést a karakterlánc kereséséhez MySQL oszlop. Itt különféle típusú reguláris kifejezéseket is definiálhatunk, és kereshetünk a regex használatával.
62) Magyarázza el, hogyan növelheti a vállalat bevételét az adatelemzés és a big data?
Az alábbiakban bemutatjuk, hogy az adatelemzés és a big data hogyan növelheti a vállalat bevételeit:
- Hatékonyan használja fel az adatokat az üzleti növekedés biztosításához.
- Növelje az ügyfelek értékét.
- Analitikus átalakítás a létszám-előrejelzések javítása érdekében.
- A szervezetek termelési költségeinek csökkentése.
Ezek az interjúkérdések a viva-ban is segítenek.