60 populaarseimat Hadoopi intervjuu küsimust ja vastust (2024)
Siin on Hadoop MapReduce'i intervjuu küsimused ja vastused värskematele ja kogenumatele kandidaatidele oma unistuste töökoha saamiseks.
Hadoop MapReduce'i intervjuuküsimused
1) Mis on Hadoop Map Reduce?
Suurte andmekogumite paralleelseks töötlemiseks Hadoopi klastris kasutatakse Hadoop MapReduce raamistikku. Andmeanalüüs kasutab kaheastmelist kaarti ja vähendamise protsessi.
2) Kuidas Hadoop MapReduce töötab?
MapReduce'is loendab see kaardifaasis igas dokumendis sõnu, vähendamisfaasis aga koondab andmed kogu kogu hõlmava dokumendi järgi. Kaardifaasi ajal jagatakse sisendandmed analüüsimiseks osadeks Hadoopi raamistikus paralleelselt töötavate kaardiülesannete abil.
👉 Tasuta PDF-i allalaadimine: Hadoop & MapReduce'i intervjuu küsimused ja vastused
3) Selgitage, mis on MapReduce'is segamine?
Protsessi, mille käigus süsteem sortib ja kaardi väljundid sisenditena reduktorisse edastab, nimetatakse segamiseks.
4) Selgitage, mis on MapReduce Frameworkis jaotatud vahemälu?
Distributed Cache on MapReduce'i raamistiku pakutav oluline funktsioon. Kui soovite mõnda faili jagada kõigis Hadoopi sõlmedes Cluster, Kasutatakse hajutatud vahemälu. Failid võivad olla käivitatavad jar-failid või lihtsad atribuutide failid.
5) Selgitage, mis on Hadoopis NameNode?
Hadoopi NameNode on sõlm, kuhu Hadoop salvestab kogu faili asukohateabe HDFS (Hadoopi hajutatud failisüsteem). Teisisõnu, NameNode on HDFS-failisüsteemi keskne osa. See salvestab kõik failisüsteemis olevad failid ja jälgib failiandmeid klastri või mitme masina vahel
6) Selgitage, mis on Hadoopis JobTracker? Milliseid toiminguid Hadoop järgib?
In hadoop MapReduce'i tööde esitamiseks ja jälgimiseks kasutatakse JobTrackerit. Tööjälgija töötab oma JVM-i protsessis
Job Tracker teeb Hadoopis järgmisi toiminguid
- Klienditaotlus esitab töökohad tööjälgijale
- JobTracker suhtleb andmete asukoha määramiseks režiimiga Name
- JobTracker leiab andmete lähedalt või vabade pesadega TaskTraceri sõlmed
- Valitud TaskTrackeri sõlmedel saadab see töö
- Kui ülesanne ebaõnnestub, annab Tööjälgija sellest teada ja otsustab, mida teha.
- TaskTrackeri sõlmi jälgib JobTracker
7) Selgitage, mis on HDFS-i südamelöögid?
Südamelöögiks nimetatakse signaali, mida kasutatakse andmesõlme ja nimesõlme vahel ning ülesannete jälgija ja tööjälgija vahel, kui nimesõlm või tööjälgija ei reageeri signaalile, siis peetakse andmesõlme või ülesandega seotud probleeme. jälgija
8) Selgitage, mis on kombineerijad ja millal peaksite MapReduce'i töös kombineerijat kasutama?
Tõhususe suurendamiseks Programm MapReduce, Kasutatakse kombineerijaid. Andmemahtu saab vähendada kombineerijate abil, mis tuleb reduktorisse üle kanda. Kui sooritatav toiming on kommutatiivne ja assotsiatiivne, saate oma reduktorkoodi kasutada kombineerijana. Kombinaatori täitmine ei ole Hadoopis garanteeritud
9) Mis juhtub, kui andmesõlm ebaõnnestub?
Kui andmesõlm ebaõnnestub
- Jobtracker ja namenode tuvastavad tõrke
- Ebaõnnestunud sõlmel on kõik toimingud ümber ajastatud
- Namenode kopeerib kasutaja andmed teise sõlme
10) Selgitage, mis on spekulatiivne täitmine?
Hadoopis käivitatakse spekulatiivse täitmise ajal teatud arv dubleerivaid ülesandeid. Erinevas alamsõlmes saab spekulatiivse täitmise abil teostada sama kaardi või redutseerimisülesande mitu koopiat. Lihtsamalt öeldes, kui konkreetsel draivil kulub ülesande täitmiseks kaua aega, loob Hadoop teisele kettale duplikaatülesande. Ketas, mis ülesande esimesena lõpetab, jäetakse alles ja kettad, mis esimesena ei lõpeta, tapetakse.
11) Selgitage, millised on kaardistaja põhiparameetrid?
Kaardistaja põhiparameetrid on
- LongWritable ja tekst
- Tekst ja IntWritable
12) Selgitage, mis on MapReduce'i partitsiooni funktsioon?
MapReduce'i partitsiooni funktsioon on tagada, et kogu ühe võtme väärtus läheks samale redutseerijale, mis aitab lõpuks kaardi väljundi ühtlaselt jaotada reduktorite vahel.
13) Selgitage, mis vahe on sisendi jagamisel ja HDFS-plokil?
Andmete loogilist jaotust tuntakse splitina, andmete füüsilist jaotust aga HDFS-i blokina
14) Selgitage, mis toimub tekstivormingus?
Tekstisisestusvormingus on tekstifaili iga rida kirje. Väärtus on rea sisu, samas kui võti on rea baidi nihe. Näiteks Key: longWritable, Value: text
15) Mainige, millised on peamised konfiguratsiooniparameetrid, mida kasutaja peab MapReduce Job käivitamiseks määrama?
MapReduce raamistiku kasutaja peab täpsustama
- Töö sisestuskohad hajutatud failisüsteemis
- Töö väljundi asukoht hajutatud failisüsteemis
- Sisendvorming
- Väljundvorming
- Klass, mis sisaldab kaardifunktsiooni
- Vähendamisfunktsiooni sisaldav klass
- JAR-fail, mis sisaldab kaardistamis-, reduktor- ja draiveriklasse
16) Selgitage, mis on WebDAV Hadoopis?
Failide redigeerimise ja värskendamise toetamiseks on WebDAV HTTP laienduste komplekt. Enamikus operatsioonisüsteemides saab WebDAV-i jagamisi monteerida failisüsteemidena, seega on HDFS-i standardse failisüsteemina võimalik juurde pääseda, paljastades HDFS-i WebDAV-i kaudu.
17) Selgitage, mis on Hadoopis Sqoop?
Andmete edastamiseks vahel Relatsiooniandmebaasi haldus (RDBMS) ja Hadoop HDFS kasutatakse Sqoop-nimelist tööriista. Sqoopi abil saab andmeid üle kanda RDMS-ist nagu MySQL or Oracle HDFS-i, samuti andmete eksportimist HDFS-failist RDBMS-i
18) Selgitage, kuidas JobTracker ülesande ajastab?
Tegumijälgija saadab Jobtrackerile südamelöögiteateid tavaliselt iga paari minuti järel, et veenduda, kas JobTracker on aktiivne ja töökorras. Sõnum teavitab JobTrackerit ka saadaolevate teenindusaegade arvust, nii et JobTracker saab olla kursis sellega, kus saab klastri tööd delegeerida
19) Selgitage, mis on Sequencefileinputformat?
Sequencefileinputformat kasutatakse failide järjestikuse lugemiseks. See on spetsiifiline tihendatud binaarfailivorming, mis on optimeeritud andmete edastamiseks ühe MapReduce töö väljundi ja mõne teise MapReduce töö sisendi vahel.
20) Selgitage, mida conf.setMapper klass teeb?
Conf.setMapperclass määrab kaardistaja klassi ja kõik kaarditööga seotud asjad, näiteks andmete lugemise ja võtme-väärtuste paari genereerimise kaardistajast
21) Selgitage, mis on Hadoop?
See on avatud lähtekoodiga tarkvararaamistik andmete salvestamiseks ja rakenduste käitamiseks kauba riistvara klastrites. See pakub tohutut töötlemisvõimsust ja tohutut salvestusruumi igat tüüpi andmete jaoks.
22) Mainige, mis vahe on RDBMS-il ja Hadoopil?
RDBMS | hadoop |
---|---|
RDBMS on relatsiooniline andmebaasihaldussüsteem | Hadoop on sõlmepõhine lame struktuur |
Seda kasutati OLTP töötlemiseks, samas kui Hadoopi | Praegu kasutatakse seda analüütiliseks ja BIG DATA töötlemiseks |
RDBMS-is kasutab andmebaasi klaster samu andmefaile, mis on salvestatud jagatud salvestusruumi | Hadoopis saab salvestusandmeid igas töötlemissõlmes iseseisvalt salvestada. |
Enne salvestamist peate andmeid eeltöötlema | enne salvestamist ei pea te andmeid eeltöötlema |
23) Kas mainida Hadoopi põhikomponente?
Hadoopi põhikomponentide hulka kuuluvad
- HDFS
- MapReduce
24) Mis on NameNode Hadoopis?
Hadoopi NameNode on koht, kus Hadoop salvestab kogu faili asukohateabe HDFS-is. See on põhisõlm, millel tööjälgija töötab ja koosneb metaandmetest.
25) Nimetage, milliseid andmekomponente Hadoop kasutab?
Hadoopi kasutatavad andmekomponendid on
26) Mainige, mis on Hadoopi kasutatav andmesalvestuskomponent?
Hadoopi kasutatav andmesalvestuskomponent on HBase.
27) Nimetage, millised on Hadoopis määratletud kõige levinumad sisendvormingud?
Hadoopis määratletud kõige levinumad sisendvormingud on;
- TextInputFormat
- KeyValueInputFormat
- SequenceFileInputFormat
28) Mis on Hadoopis InputSplit?
See jagab sisendfailid tükkideks ja määrab iga jaotuse töötlemiseks kaardistajale.
29) Kuidas Hadoopi töö jaoks kohandatud partitsiooni kirjutada?
Kui kirjutate Hadoopi töö jaoks kohandatud partitsiooni, järgite järgmist teed
- Looge uus klass, mis laiendab partitsiooniklassi
- Alista meetod getPartition
- MapReduce'i käivitavas ümbrises
- Lisage tööle kohandatud partitsioonija, kasutades meetodikomplekti Partitioner Class või – lisage kohandatud partitsioonija tööle konfiguratsioonifailina
30) Kas Hadoopi töö puhul on võimalik muuta loodavate kaardistajate arvu?
Ei, loodavate kaardistajate arvu pole võimalik muuta. Kaardistajate arv määratakse sisendjaotuste arvu järgi.
31) Selgitage, mis on Hadoopi jadafail?
Binaarse võtme/väärtuse paaride salvestamiseks kasutatakse jadafaili. Erinevalt tavalisest tihendatud failist toetab jadafail tükeldamist isegi siis, kui failis olevad andmed on tihendatud.
32) Mis juhtub tööjälgijaga, kui Namenode on maas?
Namenode on HDFS-i ainus tõrkepunkt, nii et kui Namenode ei tööta, lülitub teie klaster välja.
33) Selgitage, kuidas HDFS-is indekseerimine toimub?
Hadoopil on ainulaadne indekseerimisviis. Kui andmed on salvestatud vastavalt ploki suurusele, salvestab HDFS jätkuvalt andmete viimast osa, mis ütleb, kus asub andmete järgmine osa.
34) Selgitage, kas faile on võimalik otsida metamärkide abil?
Jah, faile on võimalik otsida metamärkide abil.
35) Kas loetleda Hadoopi kolm konfiguratsioonifaili?
Kolm konfiguratsioonifaili on
- core-site.xml
- mapred-site.xml
- hdfs-site.xml
36) Selgitage, kuidas saate kontrollida, kas Namenode töötab jps-käsu kasutamise kõrval?
Lisaks käsu jps kasutamisele saate kasutada ka Namenode töö kontrollimiseks
/etc/init.d/hadoop-0.20-namenode olek.
37) Selgitage, mis on Hadoopis "kaart" ja mis on "reduktor"?
Hadoopis on kaart HDFS-päringute lahendamise etapp. Kaart loeb andmeid sisendi asukohast ja väljastab võtmeväärtuste paari vastavalt sisenditüübile.
Hadoopis kogub reduktor kaardistaja genereeritud väljundi, töötleb seda ja loob oma lõpliku väljundi.
38) Milline fail kontrollib Hadoopis aruandlust?
Hadoopis juhib aruandlust fail hadoop-metrics.properties.
39) Kas Hadoopi kasutamiseks loetlege võrgunõuded?
Hadoopi kasutamiseks on võrgunõuete loend:
- Paroolita SSH-ühendus
- Secure Shell (SSH) serveriprotsesside käivitamiseks
40) Mainige, mis on riiuliteadlikkus?
Rack-teadlikkus on viis, kuidas nimesõlm määrab riiuli määratluste põhjal, kuidas plokke paigutada.
41) Selgitage, mis on Hadoopi ülesannete jälgija?
Hadoopi ülesannete jälgija on klastris olev alamsõlmedeemon, mis võtab vastu JobTrackeri ülesandeid. Samuti saadab see JobTrackerile iga paari minuti tagant südamelöögiteateid, et kinnitada, et JobTracker on endiselt elus.
42) Nimetage, millised deemonid töötavad põhisõlmes ja alamsõlmedes?
- Põhisõlmel töötavad deemonid on "NameNode"
- Igas Slave sõlmes töötavad deemonid on "Task Tracker" ja "Data"
43) Selgitage, kuidas saate Hadoopi koodi siluda?
Populaarsed meetodid Hadoopi koodi silumiseks on järgmised:
- Kasutades Hadoopi raamistiku pakutavat veebiliidest
- Loendurite abil
44) Selgitage, mis on salvestus- ja arvutussõlmed?
- Salvestussõlm on masin või arvuti, kus teie failisüsteem töötlemisandmete salvestamiseks asub
- Arvutussõlm on arvuti või masin, kus teie tegelik äriloogika täidetakse.
45) Mainige, mis on kontekstiobjekti kasu?
Kontekstiobjekt võimaldab kaardistajal suhelda ülejäänud Hadoopiga
süsteem. See sisaldab töö konfiguratsiooniandmeid ja liideseid, mis võimaldavad sellel väljundit väljastada.
46) Mainige, mis on järgmine samm pärast Mapperit või MapTaski?
Järgmine samm pärast Mapperit või MapTaski on see, et Mapperi väljundid sorteeritakse ja väljundi jaoks luuakse partitsioonid.
47) Mainige, kui palju on Hadoopi vaikepartitsioonide arv?
Hadoopis on vaikesektsiooniks räsipartitsioonija.
48) Selgitage, mis on Hadoopi RecordReaderi eesmärk?
Hadoopis laadib RecordReader andmed oma allikast ja teisendab need (võti, väärtus) paarideks, mis sobivad kaardistaja lugemiseks.
49) Selgitage, kuidas jaotatakse andmed enne reduktorisse saatmist, kui Hadoopis pole defineeritud kohandatud partitsiooni?
Kui Hadoopis pole kohandatud partitsiooni määratletud, arvutab vaikesektsioonija võtme jaoks räsiväärtuse ja määrab partitsiooni tulemuse põhjal.
50) Selgitage, mis juhtub, kui Hadoop loob töö jaoks 50 ülesannet ja üks ülesannetest ebaõnnestus?
See taaskäivitab ülesande mõnes teises TaskTrackeris uuesti, kui ülesanne ebaõnnestub rohkem kui määratud limiit.
51) Nimetage, milline on parim viis failide kopeerimiseks HDFS-klastrite vahel?
Parim viis failide kopeerimiseks HDFS-klastrite vahel on kasutada mitut sõlme ja käsku distcp, nii et töökoormus jagatakse.
52) Mainige, mis vahe on HDFS-il ja NAS-il?
HDFS-i andmeplokid on jaotatud kõigi klastris olevate masinate kohalike draivide vahel, samal ajal kui NAS-i andmed salvestatakse spetsiaalsele riistvarale.
53) Mainige, mille poolest Hadoop erineb teistest andmetöötlustööriistadest?
Hadoopis saate kaardistajate arvu suurendada või vähendada, muretsemata töödeldavate andmete mahu pärast.
54) Nimeta, mis tööd konf-klass teeb?
Job conf klass eraldab samas klastris töötavad erinevad tööd. See teeb töö taseme sätted, nagu näiteks töö deklareerimine reaalses keskkonnas.
55) Mainige, mis on Hadoop MapReduce API-de leping võtme- ja väärtusklassi jaoks?
Võtme- ja väärtusklassi jaoks on kaks Hadoop MapReduce API lepingut
- Väärtus peab määratlema liidese org.apache.hadoop.io.Writable
- Võti peab olema liidese org.apache.hadoop.io.WritableComparable määratlemine
56) Nimetage, millised on kolm režiimi, milles saab Hadoopi käitada?
Hadoopi saab käitada kolmes režiimis
- Pseudo hajutatud režiim
- Iseseisev (kohalik) režiim
- Täielikult hajutatud režiim
57) Mainige, mida tekstisisestusvorming teeb?
Tekstisisestusvorming loob reaobjekti, mis on kuueteistkümnendsüsteem. Väärtust käsitletakse terve rea tekstina, võtit aga reaobjektina. Kaardistaja saab väärtuse teksti parameetrina, klahvi aga kauakirjutatava parameetrina.
58) Mainige, mitu sisendjaotust Hadoop Framework teeb?
Hadoop teeb 5 poolitust
- 1 jaotus 64 XNUMX faili jaoks
- 2 jagatud 65 MB failide jaoks
- 2 jaotust 127 MB failide jaoks
59) Mainige, mis on Hadoopis hajutatud vahemälu?
Hadoopi hajutatud vahemälu on MapReduce'i raamistiku pakutav vahend. Töö täitmise ajal kasutatakse seda faili vahemällu salvestamiseks. Raamistik kopeerib vajalikud failid alamsõlme enne mis tahes ülesande täitmist selles sõlmes.
60) Selgitage, kuidas Hadoop Classpath mängib olulist rolli Hadoopi deemonite peatamisel või käivitamisel?
Classpath koosneb kataloogide loendist, mis sisaldavad deemonite peatamiseks või käivitamiseks mõeldud jar-faile.
Need intervjuu küsimused aitavad ka teie viva (suuline)