Πώς να εγκαταστήσετε το Hadoop με ρύθμιση παραμέτρων βήμα προς βήμα στο Linux Ubuntu

Σε αυτό το σεμινάριο, θα σας οδηγήσουμε βήμα προς βήμα στη διαδικασία εγκατάστασης του Apache Hadoop σε ένα κουτί Linux (Ubuntu). Αυτή είναι η διαδικασία 2 μερών

Υπάρχουν 2 Προϋποθέσεις

Μέρος 1) Λήψη και εγκατάσταση του Hadoop

Βήμα 1) Προσθέστε έναν χρήστη συστήματος Hadoop χρησιμοποιώντας την παρακάτω εντολή

sudo addgroup hadoop_

Κατεβάστε και εγκαταστήστε το Hadoop

sudo adduser --ingroup hadoop_ hduser_

Κατεβάστε και εγκαταστήστε το Hadoop

Εισαγάγετε τον κωδικό πρόσβασης, το όνομα και άλλα στοιχεία.

ΣΗΜΕΊΩΣΗ: Υπάρχει πιθανότητα σφάλματος που αναφέρεται παρακάτω σε αυτήν τη διαδικασία εγκατάστασης και εγκατάστασης.

"Το hduser δεν βρίσκεται στο αρχείο sudoers. Αυτό το περιστατικό θα αναφερθεί».

Κατεβάστε και εγκαταστήστε το Hadoop

Αυτό το σφάλμα μπορεί να επιλυθεί με την είσοδο ως χρήστης root

Κατεβάστε και εγκαταστήστε το Hadoop

Εκτελέστε την εντολή

sudo adduser hduser_ sudo

Κατεβάστε και εγκαταστήστε το Hadoop

Re-login as hduser_

Κατεβάστε και εγκαταστήστε το Hadoop

Βήμα 2) Διαμόρφωση SSH

Για τη διαχείριση κόμβων σε ένα σύμπλεγμα, το Hadoop απαιτεί πρόσβαση SSH

Πρώτα, αλλάξτε χρήστη, πληκτρολογήστε την ακόλουθη εντολή

su - hduser_

Κατεβάστε και εγκαταστήστε το Hadoop

Αυτή η εντολή θα δημιουργήσει ένα νέο κλειδί.

ssh-keygen -t rsa -P ""

Κατεβάστε και εγκαταστήστε το Hadoop

Ενεργοποιήστε την πρόσβαση SSH σε τοπικό μηχάνημα χρησιμοποιώντας αυτό το κλειδί.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Κατεβάστε και εγκαταστήστε το Hadoop

Τώρα δοκιμάστε τη ρύθμιση SSH συνδέοντας τον localhost ως χρήστης 'hduser'.

ssh localhost

Κατεβάστε και εγκαταστήστε το Hadoop

Σημείωση: Λάβετε υπόψη ότι εάν δείτε παρακάτω σφάλμα ως απάντηση στο 'ssh localhost', τότε υπάρχει πιθανότητα το SSH να μην είναι διαθέσιμο σε αυτό το σύστημα-

Κατεβάστε και εγκαταστήστε το Hadoop

Για να επιλύσετε αυτό -

Εκκαθάριση SSH χρησιμοποιώντας,

sudo apt-get purge openssh-server

Είναι καλή πρακτική να κάνετε καθαρισμό πριν από την έναρξη της εγκατάστασης

Κατεβάστε και εγκαταστήστε το Hadoop

Εγκαταστήστε το SSH χρησιμοποιώντας την εντολή-

sudo apt-get install openssh-server

Κατεβάστε και εγκαταστήστε το Hadoop

Βήμα 3) Το επόμενο βήμα είναι να Κατεβάστε το Hadoop

Κατεβάστε και εγκαταστήστε το Hadoop

Επιλέξτε Σταθερό

Κατεβάστε και εγκαταστήστε το Hadoop

Επιλέξτε το αρχείο tar.gz (όχι το αρχείο με src)

Κατεβάστε και εγκαταστήστε το Hadoop

Μόλις ολοκληρωθεί η λήψη, μεταβείτε στον κατάλογο που περιέχει το αρχείο tar

Κατεβάστε και εγκαταστήστε το Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Κατεβάστε και εγκαταστήστε το Hadoop

Τώρα, μετονομάστε το hadoop-2.2.0 σε hadoop

sudo mv hadoop-2.2.0 hadoop

Κατεβάστε και εγκαταστήστε το Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Κατεβάστε και εγκαταστήστε το Hadoop

Μέρος 2) Διαμόρφωση του Hadoop

Βήμα 1) Τροποποίηση ~ / .bashrc φιλέτο

Προσθέστε τις ακόλουθες γραμμές στο τέλος του αρχείου ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Διαμόρφωση του Hadoop

Τώρα, δημιουργήστε αυτήν τη διαμόρφωση περιβάλλοντος χρησιμοποιώντας την παρακάτω εντολή

. ~/.bashrc

Διαμόρφωση του Hadoop

Βήμα 2) Διαμορφώσεις που σχετίζονται με το HDFS

σετ JAVA_HOME μέσα στο αρχείο $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Διαμόρφωση του Hadoop

Διαμόρφωση του Hadoop

Με

Διαμόρφωση του Hadoop

Υπάρχουν δύο παράμετροι σε $HADOOP_HOME/etc/hadoop/core-site.xml που πρέπει να ρυθμιστούν-

1. 'hadoop.tmp.dir' – Χρησιμοποιείται για τον καθορισμό ενός καταλόγου που θα χρησιμοποιηθεί από το Hadoop για την αποθήκευση των αρχείων δεδομένων του.

2. 'fs.default.name' – Αυτό καθορίζει το προεπιλεγμένο σύστημα αρχείων.

Για να ορίσετε αυτές τις παραμέτρους, ανοίξτε το core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Διαμόρφωση του Hadoop

Αντιγράψτε την κάτω γραμμή ανάμεσα στις ετικέτες

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Διαμόρφωση του Hadoop

Πλοηγηθείτε στον κατάλογο $HADOOP_HOME/etc/Hadoop

Διαμόρφωση του Hadoop

Τώρα, δημιουργήστε τον κατάλογο που αναφέρεται στο core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Διαμόρφωση του Hadoop

Εκχωρήστε δικαιώματα στον κατάλογο

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Διαμόρφωση του Hadoop

sudo chmod 750 <Path of Directory created in above step>

Διαμόρφωση του Hadoop

Βήμα 3) Διαμόρφωση μείωσης χάρτη

Πριν ξεκινήσετε με αυτές τις διαμορφώσεις, ας ορίσουμε τη διαδρομή HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Και μπείτε

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Διαμόρφωση του Hadoop

Επόμενη εισαγωγή

sudo chmod +x /etc/profile.d/hadoop.sh

Διαμόρφωση του Hadoop

Βγείτε από το Terminal και επανεκκινήστε ξανά

Πληκτρολογήστε echo $HADOOP_HOME. Για επαλήθευση της διαδρομής

Διαμόρφωση του Hadoop

Τώρα αντιγράψτε αρχεία

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Διαμόρφωση του Hadoop

Ανοίξτε το mapred-site.xml φιλέτο

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Διαμόρφωση του Hadoop

Προσθέστε παρακάτω γραμμές ρύθμισης μεταξύ των ετικετών και

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Διαμόρφωση του Hadoop

Ανοικτό $HADOOP_HOME/etc/hadoop/hdfs-site.xml ως κατωτέρω,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Διαμόρφωση του Hadoop

Προσθέστε παρακάτω γραμμές ρύθμισης μεταξύ ετικετών και

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Διαμόρφωση του Hadoop

Δημιουργήστε έναν κατάλογο που καθορίζεται στην παραπάνω ρύθμιση-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Διαμόρφωση του Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Διαμόρφωση του Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Διαμόρφωση του Hadoop

Βήμα 4) Πριν ξεκινήσουμε το Hadoop για πρώτη φορά, μορφοποιήστε το HDFS χρησιμοποιώντας την παρακάτω εντολή

$HADOOP_HOME/bin/hdfs namenode -format

Διαμόρφωση του Hadoop

Βήμα 5) Ξεκινήστε το σύμπλεγμα ενός κόμβου Hadoop χρησιμοποιώντας την παρακάτω εντολή

$HADOOP_HOME/sbin/start-dfs.sh

Έξοδος της παραπάνω εντολής

Διαμόρφωση του Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Διαμόρφωση του Hadoop

Χρησιμοποιώντας 'jps' εργαλείο/εντολή, επαληθεύστε εάν όλες οι διεργασίες που σχετίζονται με το Hadoop εκτελούνται ή όχι.

Διαμόρφωση του Hadoop

Εάν το Hadoop έχει ξεκινήσει με επιτυχία, τότε μια έξοδος jps θα πρέπει να εμφανίζει NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Βήμα 6) Σταματώντας το Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Διαμόρφωση του Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Διαμόρφωση του Hadoop