Οι κορυφαίες 60 ερωτήσεις και απαντήσεις για συνέντευξη Hadoop (2025)

Ακολουθούν ερωτήσεις συνέντευξης και απαντήσεις στο Hadoop MapReduce για πιο φρέσκους όσο και έμπειρους υποψηφίους για να πάρουν τη δουλειά των ονείρων τους.

Hadoop MapReduce ερωτήσεις συνέντευξης

1) Τι είναι το Hadoop Map Reduce;

Για την παράλληλη επεξεργασία μεγάλων συνόλων δεδομένων σε ένα σύμπλεγμα Hadoop, χρησιμοποιείται το πλαίσιο Hadoop MapReduce. Η ανάλυση δεδομένων χρησιμοποιεί μια διαδικασία χάρτη και μείωσης δύο βημάτων.


2) Πώς λειτουργεί το Hadoop MapReduce;

Στο MapReduce, κατά τη φάση του χάρτη, μετράει τις λέξεις σε κάθε έγγραφο, ενώ στη φάση μείωσης συγκεντρώνει τα δεδομένα σύμφωνα με το έγγραφο που καλύπτει ολόκληρη τη συλλογή. Κατά τη φάση του χάρτη, τα δεδομένα εισόδου χωρίζονται σε διαχωρισμούς για ανάλυση με εργασίες χάρτη που εκτελούνται παράλληλα σε όλο το πλαίσιο Hadoop.

👉 Δωρεάν λήψη PDF: Hadoop & MapReduce Ερωτήσεις & Απαντήσεις συνέντευξης


3) Εξηγήστε τι σημαίνει ανακάτεμα στο MapReduce;

Η διαδικασία με την οποία το σύστημα εκτελεί την ταξινόμηση και μεταφέρει τις εξόδους του χάρτη στον μειωτήρα ως είσοδο είναι γνωστή ως ανακάτεμα


4) Εξηγήστε τι κατανέμεται η προσωρινή μνήμη στο MapReduce Framework;

Το Distributed Cache είναι ένα σημαντικό χαρακτηριστικό που παρέχεται από το πλαίσιο MapReduce. Όταν θέλετε να μοιραστείτε ορισμένα αρχεία σε όλους τους κόμβους στο Hadoop Cluster, χρησιμοποιείται η κατανεμημένη κρυφή μνήμη. Τα αρχεία θα μπορούσαν να είναι ένα εκτελέσιμο αρχείο jar ή ένα απλό αρχείο ιδιοτήτων.

Hadoop MapReduce ερωτήσεις συνέντευξης
Hadoop MapReduce ερωτήσεις συνέντευξης

5) Εξηγήστε τι είναι το NameNode στο Hadoop;

Το NameNode στο Hadoop είναι ο κόμβος, όπου το Hadoop αποθηκεύει όλες τις πληροφορίες θέσης του αρχείου HDFS (Hadoop Distributed File System). Με άλλα λόγια, το NameNode είναι το κεντρικό στοιχείο ενός συστήματος αρχείων HDFS. Διατηρεί το αρχείο όλων των αρχείων στο σύστημα αρχείων και παρακολουθεί τα δεδομένα αρχείων στο σύμπλεγμα ή σε πολλαπλές μηχανές


6) Εξηγήστε τι είναι το JobTracker στο Hadoop; Ποιες είναι οι ενέργειες που ακολουθεί το Hadoop;

In Hadoop Για την υποβολή και παρακολούθηση εργασιών MapReduce, χρησιμοποιείται το JobTracker. Το Job tracker εκτελείται με τη δική του διαδικασία JVM

Το Job Tracker εκτελεί τις ακόλουθες ενέργειες στο Hadoop

  • Η εφαρμογή πελάτη υποβάλλει θέσεις εργασίας στην υπηρεσία παρακολούθησης εργασιών
  • Το JobTracker επικοινωνεί με τη λειτουργία Name για να προσδιορίσει τη θέση δεδομένων
  • Κοντά στα δεδομένα ή με διαθέσιμες υποδοχές Το JobTracker εντοπίζει κόμβους TaskTracker
  • Σε επιλεγμένους κόμβους TaskTracker, υποβάλλει την εργασία
  • Όταν μια εργασία αποτύχει, το Job tracker ειδοποιεί και αποφασίζει τι να κάνει στη συνέχεια.
  • Οι κόμβοι TaskTracker παρακολουθούνται από το JobTracker

7) Εξηγήστε τι είναι ο καρδιακός παλμός στο HDFS;

Ο καρδιακός παλμός αναφέρεται σε ένα σήμα που χρησιμοποιείται μεταξύ ενός κόμβου δεδομένων και ενός κόμβου ονόματος και μεταξύ της παρακολούθησης εργασιών και της παρακολούθησης εργασιών. ιχνηλάτης


8) Εξηγήστε τι είναι οι συνδυαστές και πότε πρέπει να χρησιμοποιήσετε έναν συνδυαστή σε μια εργασία MapReduce;

Για να αυξηθεί η αποτελεσματικότητα του Πρόγραμμα MapReduce, χρησιμοποιούνται συνδυαστές. Ο όγκος των δεδομένων μπορεί να μειωθεί με τη βοήθεια συνδυαστών που πρέπει να μεταφερθούν στους μειωτήρες. Εάν η λειτουργία που εκτελείται είναι ανταλλακτική και συσχετιστική, μπορείτε να χρησιμοποιήσετε τον κωδικό μειωτήρα σας ως συνδυαστή. Η εκτέλεση του συνδυαστή δεν είναι εγγυημένη στο Hadoop


9) Τι συμβαίνει όταν ένας κόμβος δεδομένων αποτυγχάνει;

Όταν ένας κόμβος δεδομένων αποτυγχάνει

  • Το Jobtracker και το namenode εντοπίζουν την αποτυχία
  • Στον αποτυχημένο κόμβο, όλες οι εργασίες προγραμματίζονται εκ νέου
  • Το Namenode αναπαράγει τα δεδομένα του χρήστη σε έναν άλλο κόμβο

10) Εξηγήστε τι είναι η κερδοσκοπική εκτέλεση;

Στο Hadoop κατά τη διάρκεια της κερδοσκοπικής εκτέλεσης, εκκινείται ένας συγκεκριμένος αριθμός διπλότυπων εργασιών. Σε έναν διαφορετικό υποτελή κόμβο, μπορούν να εκτελεστούν πολλαπλά αντίγραφα του ίδιου χάρτη ή εργασίας μείωσης χρησιμοποιώντας την κερδοσκοπική εκτέλεση. Με απλά λόγια, εάν μια συγκεκριμένη μονάδα δίσκου χρειάζεται πολύ χρόνο για να ολοκληρώσει μια εργασία, το Hadoop θα δημιουργήσει μια διπλή εργασία σε έναν άλλο δίσκο. Ένας δίσκος που τελειώνει πρώτος την εργασία διατηρείται και οι δίσκοι που δεν τελειώνουν πρώτοι σκοτώνονται.


11) Εξηγήστε ποιες είναι οι βασικές παράμετροι ενός Mapper;

Οι βασικές παράμετροι ενός Mapper είναι

  • LongWritable και Κείμενο
  • Κείμενο και IntWritable

12) Εξηγήστε ποια είναι η λειτουργία του διαμερίσματος MapReduce;

Η λειτουργία του διαμερίσματος MapReduce είναι να βεβαιωθεί ότι όλη η τιμή ενός μόνο κλειδιού πηγαίνει στον ίδιο μειωτήρα, κάτι που τελικά βοηθά στην ομοιόμορφη κατανομή της εξόδου του χάρτη στους μειωτήρες


13) Εξηγήστε ποια είναι η διαφορά μεταξύ ενός Input Split και ενός block HDFS;

Η λογική διαίρεση δεδομένων είναι γνωστή ως Split ενώ μια φυσική διαίρεση δεδομένων είναι γνωστή ως HDFS Block


14) Εξηγήστε τι συμβαίνει στη μορφή κειμένου;

Σε μορφή εισαγωγής κειμένου, κάθε γραμμή στο αρχείο κειμένου είναι μια εγγραφή. Η τιμή είναι το περιεχόμενο της γραμμής ενώ το κλειδί είναι η μετατόπιση byte της γραμμής. Για παράδειγμα, Key: longWritable, Value: text


15) Αναφέρετε ποιες είναι οι κύριες παράμετροι διαμόρφωσης που πρέπει να καθορίσει ο χρήστης για να εκτελέσει το MapReduce Job;

Ο χρήστης του πλαισίου MapReduce πρέπει να καθορίσει

  • Τοποθεσίες εισαγωγής της εργασίας στο κατανεμημένο σύστημα αρχείων
  • Θέση εξόδου της εργασίας στο κατανεμημένο σύστημα αρχείων
  • Μορφή εισόδου
  • Μορφή εξόδου
  • Κλάση που περιέχει τη συνάρτηση χάρτη
  • Κλάση που περιέχει τη συνάρτηση μείωσης
  • Αρχείο JAR που περιέχει τις κατηγορίες χαρτογράφησης, μειωτήρα και προγραμμάτων οδήγησης

16) Εξηγήστε τι είναι το WebDAV στο Hadoop;

Για την υποστήριξη της επεξεργασίας και της ενημέρωσης αρχείων, το WebDAV είναι ένα σύνολο επεκτάσεων στο HTTP. Στα περισσότερα λειτουργικά συστήματα, τα κοινόχρηστα στοιχεία WebDAV μπορούν να προσαρτηθούν ως συστήματα αρχείων, επομένως είναι δυνατή η πρόσβαση στο HDFS ως τυπικό σύστημα αρχείων εκθέτοντας το HDFS μέσω WebDAV.


17) Εξηγήστε τι είναι το Sqoop στο Hadoop;

Για να μεταφέρετε τα δεδομένα μεταξύ Διαχείριση σχεσιακής βάσης δεδομένων (RDBMS) και Hadoop HDFS χρησιμοποιείται ένα εργαλείο γνωστό ως Sqoop. Χρησιμοποιώντας το Sqoop τα δεδομένα μπορούν να μεταφερθούν από RDMS όπως MySQL or Oracle σε HDFS καθώς και εξαγωγή δεδομένων από αρχείο HDFS σε RDBMS


18) Εξηγήστε πώς το JobTracker προγραμματίζει μια εργασία;

Το πρόγραμμα παρακολούθησης εργασιών στέλνει μηνύματα καρδιακού παλμού στο Jobtracker συνήθως κάθε λίγα λεπτά για να βεβαιωθεί ότι το JobTracker είναι ενεργό και λειτουργεί. Το μήνυμα ενημερώνει επίσης το JobTracker σχετικά με τον αριθμό των διαθέσιμων κουλοχέρηδων, έτσι ώστε το JobTracker να μπορεί να παραμένει ενημερωμένο σχετικά με το πού μπορεί να ανατεθεί η εργασία του συμπλέγματος


19) Εξηγήστε τι είναι το Sequencefileinputformat;

Το Sequencefileinputformat χρησιμοποιείται για τη διαδοχική ανάγνωση αρχείων. Είναι μια συγκεκριμένη μορφή συμπιεσμένου δυαδικού αρχείου που έχει βελτιστοποιηθεί για τη μετάδοση δεδομένων μεταξύ της εξόδου μιας εργασίας MapReduce στην είσοδο κάποιας άλλης εργασίας MapReduce.


20) Εξηγήστε τι κάνει η κλάση conf.setMapper;

Το Conf.setMapperclass ορίζει την κλάση αντιστοίχισης και όλα τα στοιχεία που σχετίζονται με την εργασία χάρτη, όπως η ανάγνωση δεδομένων και η δημιουργία ενός ζεύγους κλειδιού-τιμής εκτός του αντιστοιχιστή

21) Εξηγήστε τι είναι το Hadoop;

Είναι ένα πλαίσιο λογισμικού ανοιχτού κώδικα για την αποθήκευση δεδομένων και την εκτέλεση εφαρμογών σε συμπλέγματα υλικού εμπορευμάτων. Παρέχει τεράστια επεξεργαστική ισχύ και τεράστιο χώρο αποθήκευσης για κάθε τύπο δεδομένων.


22) Αναφέρετε ποια είναι η διαφορά μεταξύ ενός RDBMS και του Hadoop;

RDBMS Hadoop
Το RDBMS είναι ένα σχεσιακό σύστημα διαχείρισης βάσεων δεδομένων Το Hadoop είναι μια επίπεδη δομή που βασίζεται σε κόμβους
Χρησιμοποιήθηκε για επεξεργασία OLTP ενώ το Hadoop Επί του παρόντος χρησιμοποιείται για αναλυτική και για επεξεργασία ΜΕΓΑΛΩΝ ΔΕΔΟΜΕΝΩΝ
Στο RDBMS, το σύμπλεγμα βάσης δεδομένων χρησιμοποιεί τα ίδια αρχεία δεδομένων που είναι αποθηκευμένα σε κοινόχρηστο χώρο αποθήκευσης Στο Hadoop, τα δεδομένα αποθήκευσης μπορούν να αποθηκευτούν ανεξάρτητα σε κάθε κόμβο επεξεργασίας.
Πρέπει να προεπεξεργαστείτε τα δεδομένα πριν τα αποθηκεύσετε δεν χρειάζεται να προεπεξεργάζεστε δεδομένα πριν τα αποθηκεύσετε

23) Αναφέρετε τα βασικά στοιχεία του Hadoop;

Τα βασικά συστατικά του Hadoop περιλαμβάνουν,

  • ΚΑΕ
  • ΜΕΙΩΣΗ ΧΑΡΤΗ

24) Τι είναι το NameNode στο Hadoop;

Το NameNode στο Hadoop είναι όπου το Hadoop αποθηκεύει όλες τις πληροφορίες θέσης αρχείων στο HDFS. Είναι ο κύριος κόμβος στον οποίο εκτελείται η παρακολούθηση εργασιών και αποτελείται από μεταδεδομένα.


25) Αναφέρετε ποια είναι τα στοιχεία δεδομένων που χρησιμοποιούνται από το Hadoop;

Τα στοιχεία δεδομένων που χρησιμοποιούνται από το Hadoop είναι


26) Αναφέρετε ποιο είναι το στοιχείο αποθήκευσης δεδομένων που χρησιμοποιείται από το Hadoop;

Το στοιχείο αποθήκευσης δεδομένων που χρησιμοποιείται από το Hadoop είναι το HBase.


27) Αναφέρετε ποιες είναι οι πιο κοινές μορφές εισόδου που ορίζονται στο Hadoop;

Οι πιο συνηθισμένες μορφές εισόδου που ορίζονται στο Hadoop είναι:

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Στο Hadoop τι είναι το InputSplit;

Χωρίζει τα αρχεία εισόδου σε κομμάτια και εκχωρεί κάθε διαχωρισμό σε έναν χαρτογράφο για επεξεργασία.


29) Για μια εργασία Hadoop, πώς θα γράψετε ένα προσαρμοσμένο διαμέρισμα;

Γράφετε ένα προσαρμοσμένο διαχωριστικό για μια εργασία Hadoop, ακολουθείτε την ακόλουθη διαδρομή

  • Δημιουργήστε μια νέα κλάση που επεκτείνει την Τάξη Partitioner
  • Παράκαμψη μεθόδου getPartition
  • Στο περιτύλιγμα που εκτελεί το MapReduce
  • Προσθέστε το προσαρμοσμένο διαμέρισμα στην εργασία χρησιμοποιώντας το σύνολο μεθόδων Partitioner Class ή – προσθέστε το προσαρμοσμένο διαμέρισμα στην εργασία ως αρχείο διαμόρφωσης

30) Για μια δουλειά στο Hadoop, είναι δυνατόν να αλλάξει ο αριθμός των χαρτογράφων που θα δημιουργηθούν;

Όχι, δεν είναι δυνατή η αλλαγή του αριθμού των αντιστοιχιστών που θα δημιουργηθούν. Ο αριθμός των αντιστοιχιστών καθορίζεται από τον αριθμό των διαχωρισμών εισόδου.


31) Εξηγήστε τι είναι ένα αρχείο ακολουθίας στο Hadoop;

Για την αποθήκευση δυαδικών ζευγών κλειδιών/τιμών, χρησιμοποιείται αρχείο ακολουθίας. Σε αντίθεση με το κανονικό συμπιεσμένο αρχείο, η αλληλουχία αρχείων υποστηρίζει διαχωρισμό ακόμη και όταν τα δεδομένα μέσα στο αρχείο είναι συμπιεσμένα.


32) Όταν το Namenode είναι απενεργοποιημένο, τι συμβαίνει με τον εντοπισμό εργασιών;

Το Namenode είναι το μοναδικό σημείο αποτυχίας στο HDFS, οπότε όταν το Namenode είναι εκτός λειτουργίας το σύμπλεγμα σας θα ξεκινήσει.


33) Εξηγήστε πώς γίνεται η ευρετηρίαση στο HDFS;

Το Hadoop έχει έναν μοναδικό τρόπο ευρετηρίασης. Μόλις αποθηκευτούν τα δεδομένα σύμφωνα με το μέγεθος του μπλοκ, το HDFS θα συνεχίσει να αποθηκεύει το τελευταίο μέρος των δεδομένων που λέει πού θα βρίσκεται το επόμενο μέρος των δεδομένων.


34) Εξηγήστε ότι είναι δυνατή η αναζήτηση αρχείων χρησιμοποιώντας χαρακτήρες μπαλαντέρ;

Ναι, είναι δυνατή η αναζήτηση αρχείων με χρήση χαρακτήρων μπαλαντέρ.


35) Καταγράψτε τα τρία αρχεία διαμόρφωσης του Hadoop;

Τα τρία αρχεία ρυθμίσεων είναι

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Εξηγήστε πώς μπορείτε να ελέγξετε εάν το Namenode λειτουργεί παράλληλα με τη χρήση της εντολής jps;

Εκτός από τη χρήση της εντολής jps, μπορείτε επίσης να το χρησιμοποιήσετε για να ελέγξετε αν το Namenode λειτουργεί

Κατάσταση /etc/init.d/hadoop-0.20-namenode.


37) Εξηγήστε τι είναι το "map" και τι το "reducer" στο Hadoop;

Στο Hadoop, ένας χάρτης είναι μια φάση στην επίλυση ερωτημάτων HDFS. Ένας χάρτης διαβάζει δεδομένα από μια θέση εισόδου και εξάγει ένα ζεύγος τιμών κλειδιού ανάλογα με τον τύπο εισόδου.

Στο Hadoop, ένας μειωτής συλλέγει την έξοδο που δημιουργείται από τον χαρτογράφο, την επεξεργάζεται και δημιουργεί μια τελική έξοδο από μόνος του.


38) Στο Hadoop, ποιο αρχείο ελέγχει την αναφορά στο Hadoop;

Στο Hadoop, το αρχείο hadoop-metrics.properties ελέγχει την αναφορά.


39) Για τη χρήση του Hadoop, απαριθμήστε τις απαιτήσεις δικτύου;

Για τη χρήση του Hadoop, η λίστα απαιτήσεων δικτύου είναι:

  • Σύνδεση SSH χωρίς κωδικό πρόσβασης
  • Secure Shell (SSH) για την εκκίνηση διεργασιών διακομιστή

40) Αναφέρετε τι είναι το rack awareness;

Το Rack awareness είναι ο τρόπος με τον οποίο ο namenode καθορίζει τον τρόπο τοποθέτησης μπλοκ με βάση τους ορισμούς του rack.


41) Εξηγήστε τι είναι το Task Tracker στο Hadoop;

Το Task Tracker στο Hadoop είναι ένας δαίμονας slave node στο σύμπλεγμα που δέχεται εργασίες από ένα JobTracker. Στέλνει επίσης τα μηνύματα του καρδιακού παλμού στο JobTracker, κάθε λίγα λεπτά, για να επιβεβαιώσει ότι το JobTracker είναι ακόμα ζωντανό.


42) Αναφέρετε ποιοι δαίμονες τρέχουν σε έναν κύριο κόμβο και σε κόμβους υποτελούς;

  • Οι δαίμονες που εκτελούνται στον κύριο κόμβο είναι "NameNode"
  • Οι δαίμονες που εκτελούνται σε κάθε κόμβο Slave είναι "Task Tracker" και "Data"

43) Εξηγήστε πώς μπορείτε να διορθώσετε τον κώδικα Hadoop;

Οι δημοφιλείς μέθοδοι για τον εντοπισμό σφαλμάτων κώδικα Hadoop είναι:

  • Χρησιμοποιώντας τη διεπαφή ιστού που παρέχεται από το πλαίσιο Hadoop
  • Χρησιμοποιώντας Μετρητές

44) Εξηγήστε τι είναι οι κόμβοι αποθήκευσης και υπολογισμού;

  • Ο κόμβος αποθήκευσης είναι το μηχάνημα ή ο υπολογιστής όπου βρίσκεται το σύστημα αρχείων σας για την αποθήκευση των δεδομένων επεξεργασίας
  • Ο κόμβος υπολογισμού είναι ο υπολογιστής ή το μηχάνημα όπου θα εκτελεστεί η πραγματική επιχειρηματική λογική σας.

45) Αναφέρετε ποια είναι η χρήση του Αντικειμένου περιβάλλοντος;

Το Context Object δίνει τη δυνατότητα στον χαρτογράφο να αλληλεπιδρά με το υπόλοιπο Hadoop

Σύστημα. Περιλαμβάνει δεδομένα διαμόρφωσης για την εργασία, καθώς και διεπαφές που της επιτρέπουν να εκπέμπει έξοδο.


46) Αναφέρετε ποιο είναι το επόμενο βήμα μετά το Mapper ή το MapTask;

Το επόμενο βήμα μετά το Mapper ή το MapTask είναι ότι τα αποτελέσματα του Mapper ταξινομούνται και θα δημιουργηθούν διαμερίσματα για την έξοδο.


47) Αναφέρετε ποιος είναι ο αριθμός των προεπιλεγμένων διαμερισμάτων στο Hadoop;

Στο Hadoop, το προεπιλεγμένο πρόγραμμα διαμερισμάτων είναι ένα Διαμέρισμα "Hash".


48) Εξηγήστε ποιος είναι ο σκοπός του RecordReader στο Hadoop;

Στο Hadoop, το RecordReader φορτώνει τα δεδομένα από την πηγή τους και τα μετατρέπει σε ζεύγη (κλειδί, τιμή) κατάλληλα για ανάγνωση από τον Mapper.


49) Εξηγήστε πώς γίνεται η κατάτμηση των δεδομένων πριν σταλούν στον μειωτήρα, εάν δεν έχει οριστεί προσαρμοσμένο διαχωριστικό στο Hadoop;

Εάν δεν έχει οριστεί προσαρμοσμένο διαχωριστικό στο Hadoop, τότε ένας προεπιλεγμένος διαχωριστής υπολογίζει μια τιμή κατακερματισμού για το κλειδί και εκχωρεί το διαμέρισμα με βάση το αποτέλεσμα.


50) Εξηγήστε τι συμβαίνει όταν ο Hadoop δημιούργησε 50 εργασίες για μια εργασία και μία από τις εργασίες απέτυχε;

Θα επανεκκινήσει ξανά την εργασία σε κάποιο άλλο TaskTracker εάν η εργασία αποτύχει περισσότερο από το καθορισμένο όριο.


51) Αναφέρετε ποιος είναι ο καλύτερος τρόπος αντιγραφής αρχείων μεταξύ συμπλεγμάτων HDFS;

Ο καλύτερος τρόπος για να αντιγράψετε αρχεία μεταξύ συμπλεγμάτων HDFS είναι χρησιμοποιώντας πολλούς κόμβους και την εντολή distcp, έτσι ώστε ο φόρτος εργασίας να είναι κοινόχρηστος.


52) Αναφέρετε ποια είναι η διαφορά μεταξύ HDFS και NAS;

Τα μπλοκ δεδομένων HDFS διανέμονται σε τοπικές μονάδες δίσκου όλων των μηχανημάτων σε ένα σύμπλεγμα, ενώ τα δεδομένα NAS αποθηκεύονται σε αποκλειστικό υλικό.


53) Αναφέρετε σε τι διαφέρει το Hadoop από άλλα εργαλεία επεξεργασίας δεδομένων;

Στο Hadoop, μπορείτε να αυξήσετε ή να μειώσετε τον αριθμό των αντιστοιχιστών χωρίς να ανησυχείτε για τον όγκο των δεδομένων προς επεξεργασία.


54) Αναφέρετε τι δουλειά κάνει η τάξη conf;

Job conf class χωρίζει διαφορετικές εργασίες που εκτελούνται στο ίδιο σύμπλεγμα. Κάνει τις ρυθμίσεις επιπέδου εργασίας, όπως η δήλωση εργασίας σε πραγματικό περιβάλλον.


55) Αναφέρετε τι είναι το συμβόλαιο Hadoop MapReduce API για μια κλάση κλειδιού και αξίας;

Για μια κλάση κλειδιού και τιμής, υπάρχουν δύο συμβόλαια Hadoop MapReduce API

  • Η τιμή πρέπει να καθορίζει τη διεπαφή org.apache.hadoop.io.Writable
  • Το κλειδί πρέπει να είναι ο καθορισμός της διεπαφής org.apache.hadoop.io.WritableComparable

56) Αναφέρετε ποιες είναι οι τρεις λειτουργίες με τις οποίες μπορεί να εκτελεστεί το Hadoop;

Οι τρεις τρόποι με τους οποίους μπορεί να εκτελεστεί το Hadoop είναι

  • Ψευδοκατανεμημένη λειτουργία
  • Αυτόνομη (τοπική) λειτουργία
  • Πλήρως κατανεμημένη λειτουργία

57) Αναφέρετε τι κάνει η μορφή εισαγωγής κειμένου;

Η μορφή εισαγωγής κειμένου θα δημιουργήσει ένα αντικείμενο γραμμής που είναι δεκαεξαδικός αριθμός. Η τιμή θεωρείται ως ολόκληρο κείμενο γραμμής ενώ το κλειδί θεωρείται ως αντικείμενο γραμμής. Ο χαρτογράφος θα λάβει την τιμή ως παράμετρος «κείμενο» ενώ το κλειδί ως παράμετρος «μακρύγραψε».


58) Αναφέρετε πόσα InputSplit γίνονται από ένα Hadoop Framework;

Ο Hadoop θα κάνει 5 χωρίσματα

  • 1 διαχωρισμός για αρχεία 64K
  • 2 split για αρχεία 65mb
  • 2 διαχωρισμοί για αρχεία 127mb

59) Αναφέρετε τι είναι η κατανεμημένη κρυφή μνήμη στο Hadoop;

Η κατανεμημένη κρυφή μνήμη στο Hadoop είναι μια διευκόλυνση που παρέχεται από το πλαίσιο MapReduce. Κατά τη στιγμή της εκτέλεσης της εργασίας, χρησιμοποιείται για την προσωρινή αποθήκευση του αρχείου. Το Framework αντιγράφει τα απαραίτητα αρχεία στον υποτελή κόμβο πριν από την εκτέλεση οποιασδήποτε εργασίας σε αυτόν τον κόμβο.


60) Εξηγήστε πώς το Hadoop Classpath παίζει ζωτικό ρόλο στη διακοπή ή την έναρξη στους δαίμονες Hadoop;

Το Classpath θα αποτελείται από μια λίστα καταλόγων που περιέχουν αρχεία jar για να σταματήσετε ή να ξεκινήσετε τους δαίμονες.

Αυτές οι ερωτήσεις συνέντευξης θα βοηθήσουν επίσης στο viva (προφορικά) σας