Hadoop-haastattelun 60 parasta kysymystä ja vastausta (2025)
Tässä on Hadoop MapReducen haastattelukysymyksiä ja vastauksia tuoreemmille ja kokeneemmille hakijoille unelmatyönsä saamiseksi.
Hadoop MapReducen haastattelukysymykset
1) Mikä on Hadoop Map Reduce?
Hadoop MapReduce -kehystä käytetään suurten tietojoukkojen käsittelyyn rinnakkain Hadoop-klusterin poikki. Tietojen analysoinnissa käytetään kaksivaiheista kartta- ja vähennysprosessia.
2) Kuinka Hadoop MapReduce toimii?
MapReducessa se laskee karttavaiheen aikana jokaisen asiakirjan sanat, kun taas pienennysvaiheessa se kokoaa tiedot koko kokoelman kattavan asiakirjan mukaan. Karttavaiheen aikana syöttötiedot jaetaan osiin analysointia varten karttatehtävien avulla, jotka kulkevat rinnakkain Hadoop-kehyksessä.
👉 Ilmainen PDF-lataus: Hadoop & MapReduce haastattelukysymykset ja vastaukset
3) Selitä, mitä on sekoitus MapReducessa?
Prosessi, jolla järjestelmä suorittaa lajittelun ja siirtää karttalähdöt supistimeen tuloina, tunnetaan sekoitusna.
4) Selitä, mitä on hajautettu välimuisti MapReduce Frameworkissa?
Hajautettu välimuisti on tärkeä MapReduce-kehyksen tarjoama ominaisuus. Kun haluat jakaa tiedostoja kaikkien Hadoopin solmujen välillä Cluster, Hajautettua välimuistia käytetään. Tiedostot voivat olla suoritettavia jar-tiedostoja tai yksinkertaisia ominaisuustiedostoja.

5) Selitä mikä on NameNode Hadoopissa?
NameNode Hadoopissa on solmu, johon Hadoop tallentaa kaikki tiedoston sijaintitiedot HDFS (Hadoop Distributed File System). Toisin sanoen NameNode on HDFS-tiedostojärjestelmän keskipiste. Se pitää kirjaa kaikista tiedostojärjestelmän tiedostoista ja seuraa tiedostotietoja klusterin tai useiden koneiden välillä
6) Selitä, mikä on JobTracker Hadoopissa? Mitä toimia Hadoop seuraa?
In Hadoop MapReduce-töiden lähettämiseen ja seurantaan käytetään JobTrackeria. Työnseuranta toimii omalla JVM-prosessillaan
Job Tracker suorittaa seuraavat toiminnot Hadoopissa
- Asiakashakemus lähettää työt työnseurantaan
- JobTracker kommunikoi Name-tilassa tietojen sijainnin määrittämiseksi
- Tietojen läheltä tai käytettävissä olevista paikoista JobTracker paikantaa TaskTracker-solmut
- Valituissa TaskTracker-solmuissa se lähettää työn
- Kun tehtävä epäonnistuu, Job Tracker ilmoittaa ja päättää mitä tehdä.
- JobTracker valvoo TaskTracker-solmuja
7) Selitä mikä on sydämenlyönti HDFS:ssä?
Sydämen sykkeellä tarkoitetaan datasolmun ja nimisolmun sekä tehtäväseurannan ja työnseurantalaitteen välillä käytettävää signaalia, jos nimisolmu tai työnseuranta ei vastaa signaaliin, datasolmun tai tehtävän kanssa katsotaan olevan ongelmia. jäljitin
8) Selitä, mitä yhdistäjät ovat ja milloin sinun tulisi käyttää yhdistäjää MapReduce-työssä?
Tehokkuuden lisäämiseksi MapReduce-ohjelma, Yhdistelmiä käytetään. Tiedon määrää voidaan vähentää yhdistäjien avulla, jotka on siirrettävä reduktoriin. Jos suoritettu operaatio on kommutatiivinen ja assosiatiivinen, voit käyttää vähennyskoodiasi yhdistäjänä. Combinerin suorittamista ei taata Hadoopissa
9) Mitä tapahtuu, kun datasolmu epäonnistuu?
Kun datasolmu epäonnistuu
- Jobtracker ja namenode havaitsevat vian
- Epäonnistuneessa solmussa kaikki tehtävät ajoitetaan uudelleen
- Namenode replikoi käyttäjän tiedot toiseen solmuun
10) Selitä mitä on spekulatiivinen täytäntöönpano?
Hadoopissa spekulatiivisen suorituksen aikana käynnistetään tietty määrä päällekkäisiä tehtäviä. Eri orjasolmussa voidaan suorittaa useita kopioita samasta kartasta tai vähennystehtävästä käyttämällä Speculative Execution -toimintoa. Yksinkertaisesti sanottuna, jos tietyn aseman tehtävän suorittaminen kestää kauan, Hadoop luo päällekkäisen tehtävän toiselle levylle. Levy, joka lopettaa tehtävän ensin, säilytetään ja levyt, jotka eivät lopeta ensin, tapetaan.
11) Selitä mitkä ovat Mapperin perusparametrit?
Mapperin perusparametrit ovat
- Pitkäkirjoitettava ja teksti
- Teksti ja IntWritable
12) Selitä, mikä on MapReduce-osion tehtävä?
MapReduce-osion tehtävänä on varmistaa, että kaikki yksittäisen avaimen arvo menee samalle supistimelle, mikä auttaa lopulta jakamaan karttatulosteen tasaisesti reduktoreiden kesken.
13) Selitä, mitä eroa on tulojako- ja HDFS-lohkolla?
Tietojen looginen jako tunnetaan nimellä Split, kun taas fyysinen tietojen jako tunnetaan nimellä HDFS Block
14) Selitä mitä tapahtuu tekstimuodossa?
Tekstinsyöttömuodossa jokainen tekstitiedoston rivi on tietue. Arvo on rivin sisältö, kun taas avain on rivin tavupoikkeama. Esimerkiksi Avain: longWritable, Arvo: teksti
15) Mainitse mitkä ovat tärkeimmät konfigurointiparametrit, jotka käyttäjän on määritettävä suorittaakseen MapReduce Jobin?
MapReduce-kehyksen käyttäjän on määritettävä
- Työn syöttöpaikat hajautetussa tiedostojärjestelmässä
- Työn tulostussijainti hajautettuun tiedostojärjestelmään
- Syöttömuoto
- Tulostusmuoto
- Luokka, joka sisältää karttatoiminnon
- Luokka, joka sisältää vähennystoiminnon
- JAR-tiedosto, joka sisältää kartoitus-, vähennys- ja ohjainluokat
16) Selitä, mikä on WebDAV Hadoopissa?
Tiedostojen muokkaamisen ja päivittämisen tukemiseksi WebDAV on joukko HTTP-laajennuksia. Useimmissa käyttöjärjestelmissä WebDAV-osuudet voidaan asentaa tiedostojärjestelmiksi, joten HDFS:ää voidaan käyttää tavallisena tiedostojärjestelmänä paljastamalla HDFS WebDAV:n kautta.
17) Selitä, mikä on Sqoop Hadoopissa?
Siirtääksesi tietoja välillä Relaatiotietokannan hallinta (RDBMS) ja Hadoop HDFS käytetään työkalua, joka tunnetaan nimellä Sqoop. Sqoopin avulla tietoja voidaan siirtää RDMS:stä kuten MySQL or Oracle HDFS:ään sekä tietojen vienti HDFS-tiedostosta RDBMS:ään
18) Selitä, kuinka JobTracker ajoittaa tehtävän?
Tehtäväseuranta lähettää sykeviestejä Jobtrackerille yleensä muutaman minuutin välein varmistaakseen, että JobTracker on aktiivinen ja toimiva. Viesti ilmoittaa myös JobTrackerille käytettävissä olevien paikkojen lukumäärän, jotta JobTracker voi pysyä ajan tasalla siitä, mistä klusterin työtä voidaan delegoida
19) Selitä mikä on Sequencefileinputformat?
Sequencefileinputformaattia käytetään tiedostojen lukemiseen järjestyksessä. Se on erityinen pakattu binääritiedostomuoto, joka on optimoitu siirtämään tietoja yhden MapReduce-työn lähdön ja toisen MapReduce-työn tulon välillä.
20) Selitä, mitä conf.setMapper-luokka tekee?
Conf.setMapperclass asettaa kartoitusluokan ja kaikki karttatyöhön liittyvät asiat, kuten tietojen lukemisen ja avain-arvo-parin luomisen kartoittimesta
21) Selitä mikä Hadoop on?
Se on avoimen lähdekoodin ohjelmistokehys tietojen tallentamiseen ja sovellusten suorittamiseen hyödykelaitteistoryhmissä. Se tarjoaa valtavan prosessointitehon ja valtavan tallennustilan kaikenlaisille tiedoille.
22) Mainitse mitä eroa on RDBMS:n ja Hadoopin välillä?
RDBMS | Hadoop |
---|---|
RDBMS on relaatiotietokannan hallintajärjestelmä | Hadoop on solmupohjainen litteä rakenne |
Sitä käytettiin OLTP-käsittelyyn, kun taas Hadoop | Sitä käytetään tällä hetkellä analyyttiseen ja BIG DATA -käsittelyyn |
RDBMS:ssä tietokantaklusteri käyttää samoja datatiedostoja, jotka on tallennettu jaettuun tallennustilaan | Hadoopissa tallennustiedot voidaan tallentaa itsenäisesti jokaiseen käsittelysolmuun. |
Sinun on esikäsiteltävä tiedot ennen niiden tallentamista | sinun ei tarvitse esikäsitellä tietoja ennen niiden tallentamista |
23) Mainitsetko Hadoopin ydinkomponentit?
Hadoopin ydinkomponentteja ovat mm.
- HDFS
- MapReduce
24) Mikä on NameNode Hadoopissa?
Hadoopin NameNode on paikka, jossa Hadoop tallentaa kaikki tiedostojen sijaintitiedot HDFS:ssä. Se on pääsolmu, jolla työnseuranta toimii ja joka koostuu metatiedoista.
25) Mainitse mitä tietokomponentteja Hadoop käyttää?
Hadoopin käyttämät tietokomponentit ovat
26) Mainitse mikä on Hadoopin käyttämä tiedontallennuskomponentti?
Hadoopin käyttämä tiedontallennuskomponentti on HBase.
27) Mainitse mitkä ovat yleisimmät Hadoopissa määritetyt syöttömuodot?
Yleisimmät Hadoopissa määritetyt syöttömuodot ovat;
- TextInputFormat
- KeyValueInputFormat
- SequenceFileInputFormat
28) Mikä Hadoopissa on InputSplit?
Se jakaa syötetiedostot paloiksi ja määrittää jokaisen jaon kartoittajalle käsittelyä varten.
29) Kuinka kirjoitat mukautetun osion Hadoop-työtä varten?
Kirjoitat mukautetun osion Hadoop-työlle, seuraat seuraavaa polkua
- Luo uusi luokka, joka laajentaa Partitioner Classia
- Ohita menetelmä getPartition
- MapReducea suorittavassa kääreessä
- Lisää mukautettu osioija työhön käyttämällä menetelmäsarjaa Partitioner Class tai – lisää mukautettu osio työhön asetustiedostona
30) Onko Hadoop-työtä varten mahdollista muuttaa luotavien kartoittajien määrää?
Ei, luotavien kartoittajien määrää ei voi muuttaa. Kartoijien lukumäärä määräytyy syötejakojen lukumäärän mukaan.
31) Selitä, mikä on sekvenssitiedosto Hadoopissa?
Binääriavain/arvo-parien tallentamiseen käytetään sekvenssitiedostoa. Toisin kuin tavalliset pakatut tiedostot, sekvenssitiedosto tukee jakamista, vaikka tiedoston sisällä olevat tiedot on pakattu.
32) Kun Namenode ei toimi, mitä tapahtuu työnseurantaohjelmalle?
Namenode on HDFS:n ainoa vikapiste, joten kun Namenode ei toimi, klusterisi lähtee liikkeelle.
33) Selitä, kuinka indeksointi HDFS:ssä tehdään?
Hadoopilla on ainutlaatuinen tapa indeksoida. Kun tiedot on tallennettu lohkokoon mukaan, HDFS jatkaa tietojen viimeisen osan tallentamista, mikä kertoo, missä datan seuraava osa on.
34) Selitä, onko mahdollista etsiä tiedostoja käyttämällä yleismerkkejä?
Kyllä, on mahdollista etsiä tiedostoja käyttämällä yleismerkkejä.
35) Luettele Hadoopin kolme määritystiedostoa?
Kolme asetustiedostoa ovat
- core-site.xml
- mapred-site.xml
- hdfs-site.xml
36) Selitä, kuinka voit tarkistaa, toimiiko Namenode jps-komennon lisäksi?
jps-komennon lisäksi voit myös tarkistaa, toimivatko Namenode
/etc/init.d/hadoop-0.20-namenode tila.
37) Selitä, mikä on "kartta" ja mikä on "reducer" Hadoopissa?
Hadoopissa kartta on HDFS-kyselyn ratkaisun vaihe. Kartta lukee dataa syöttöpaikasta ja tulostaa avainarvoparin syöttötyypin mukaan.
Hadoopissa supistin kerää kartoittajan tuottaman lähdön, käsittelee sen ja luo oman lopputuloksensa.
38) Mikä tiedosto ohjaa raportointia Hadoopissa?
Hadoopissa hadoop-metrics.properties-tiedosto hallitsee raportointia.
39) Luettele verkkovaatimukset Hadoopin käyttöä varten?
Hadoopin käyttöä varten luettelo verkkovaatimuksista on:
- Salasanaton SSH-yhteys
- Secure Shell (SSH) palvelinprosessien käynnistämiseen
40) Mainitse mitä on telinetietoisuus?
Telinetietoisuus on tapa, jolla nimisolmu määrittää, kuinka lohkoja sijoitetaan telineen määritelmien perusteella.
41) Selitä, mikä on Task Tracker Hadoopissa?
Hadoopin Task Tracker on klusterin orjasolmudemoni, joka hyväksyy tehtäviä JobTrackerista. Se myös lähettää sykeviestit JobTrackerille muutaman minuutin välein vahvistaakseen, että JobTracker on edelleen elossa.
42) Mainitse mitkä demonit toimivat pääsolmussa ja orjasolmussa?
- Pääsolmussa ajettavat demonit on "NameNode"
- Jokaisessa orjasolmussa toimivat demonit ovat "Task Tracker" ja "Data"
43) Selitä, kuinka voit korjata Hadoop-koodin?
Suosituimmat menetelmät Hadoop-koodin virheenkorjaukseen ovat:
- Käyttämällä Hadoop-kehyksen tarjoamaa verkkokäyttöliittymää
- Laskurien avulla
44) Selitä, mitä ovat tallennus- ja laskentasolmut?
- Tallennussolmu on kone tai tietokone, jossa tiedostojärjestelmäsi sijaitsee käsittelytietojen tallentamista varten
- Laskentasolmu on tietokone tai kone, jossa varsinainen liiketoimintalogiikkasi suoritetaan.
45) Mainitse mikä on kontekstiobjektin käyttö?
Kontekstiobjektin avulla kartoittaja voi olla vuorovaikutuksessa muun Hadoopin kanssa
järjestelmä. Se sisältää työn konfigurointitiedot sekä liitännät, jotka mahdollistavat tulosteen lähettämisen.
46) Mainitse mikä on seuraava vaihe Mapperin tai MapTaskin jälkeen?
Seuraava vaihe Mapperin tai MapTaskin jälkeen on, että Mapperin tulosteet lajitellaan ja tulosteelle luodaan osiot.
47) Mainitse, mikä on oletusosion lukumäärä Hadoopissa?
Hadoopissa oletusosio on "Hash"-osio.
48) Selitä, mikä on RecordReaderin tarkoitus Hadoopissa?
Hadoopissa RecordReader lataa tiedot lähteestään ja muuntaa ne (avain, arvo) pareiksi, jotka sopivat kartoittajan luettavaksi.
49) Selitä, kuinka tiedot osioidaan ennen kuin ne lähetetään supistimeen, jos mukautettua osiointia ei ole määritetty Hadoopissa?
Jos Hadoopissa ei ole määritetty mukautettua osiointia, oletusosioija laskee avaimelle hajautusarvon ja määrittää osion tuloksen perusteella.
50) Selitä, mitä tapahtuu, kun Hadoop poiki työhön 50 tehtävää ja yksi tehtävä epäonnistui?
Se käynnistää tehtävän uudelleen jossain toisessa TaskTrackerissa, jos tehtävä epäonnistuu määritellyn rajan yli.
51) Mainitse mikä on paras tapa kopioida tiedostoja HDFS-klusterien välillä?
Paras tapa kopioida tiedostoja HDFS-klusterien välillä on käyttää useita solmuja ja distcp-komentoa, jolloin työkuorma jaetaan.
52) Mainitse mitä eroa on HDFS:n ja NAS:n välillä?
HDFS-tietolohkot on jaettu klusterin kaikkien koneiden paikallisten asemien kesken, kun taas NAS-data on tallennettu omistetulle laitteistolle.
53) Mainitse kuinka Hadoop eroaa muista tietojenkäsittelytyökaluista?
Hadoopissa voit lisätä tai vähentää kartoittajien määrää huolehtimatta käsiteltävien tietojen määrästä.
54) Mainitse mitä työtä conf-luokka tekee?
Job conf -luokka erottaa eri työt, jotka ovat käynnissä samassa klusterissa. Se tekee työtason asetukset, kuten työn ilmoittamisen todellisessa ympäristössä.
55) Mainitse mikä on Hadoop MapReduce APIs -sopimus avain- ja arvoluokalle?
Avain- ja arvoluokalle on olemassa kaksi Hadoop MapReduce API -sopimusta
- Arvon on määritettävä org.apache.hadoop.io.Writable-käyttöliittymä
- Avaimen on määritettävä org.apache.hadoop.io.WritableComparable-käyttöliittymä
56) Mainitse mitkä ovat kolme tilaa, joissa Hadoopia voidaan käyttää?
Kolme tilaa, joissa Hadoop voidaan suorittaa, ovat
- Pseudohajautettu tila
- Itsenäinen (paikallinen) tila
- Täysin hajautettu tila
57) Mainitse mitä tekstinsyöttömuoto tekee?
Tekstinsyöttömuoto luo riviobjektin, joka on heksadesimaaliluku. Arvoa pidetään koko rivin tekstinä, kun taas avainta pidetään riviobjektina. Mapper saa arvon "teksti"-parametrina, kun taas näppäin "longwriteable"-parametrina.
58) Mainitse kuinka monta InputSplitsiä Hadoop-kehys tekee?
Hadoop tekee 5 jakoa
- 1 jako 64 XNUMX tiedostolle
- 2 jaettua 65 Mt tiedostoille
- 2 jakoa 127 Mt tiedostoille
59) Mainitse mikä on hajautettu välimuisti Hadoopissa?
Hadoopin hajautettu välimuisti on MapReduce-kehyksen tarjoama ominaisuus. Työn suoritushetkellä sitä käytetään tiedoston välimuistiin. Framework kopioi tarvittavat tiedostot orjasolmuun ennen minkään tehtävän suorittamista kyseisessä solmussa.
60) Selitä, kuinka Hadoop Classpathilla on tärkeä rooli Hadoop-demonien pysäyttämisessä tai käynnistämisessä?
Classpath koostuu luettelosta hakemistoista, jotka sisältävät jar-tiedostoja demonien pysäyttämiseksi tai käynnistämiseksi.
Nämä haastattelukysymykset auttavat myös vivassasi (suullinen)