Comment installer Hadoop avec une configuration étape par étape sous Linux Ubuntu

Dans ce tutoriel, nous vous guiderons étape par étape pour installer Apache Hadoop sur une machine Linux (Ubuntu). Il s'agit d'un processus en 2 parties

Il ya 2 Pré-requis

Partie 1) Téléchargez et installez Hadoop

Étape 1) Ajoutez un utilisateur du système Hadoop à l'aide de la commande ci-dessous

sudo addgroup hadoop_

Téléchargez et installez Hadoop

sudo adduser --ingroup hadoop_ hduser_

Téléchargez et installez Hadoop

Entrez votre mot de passe, votre nom et d'autres détails.

NOTE: Il existe une possibilité d'erreur mentionnée ci-dessous dans ce processus de configuration et d'installation.

« hduser n'est pas dans le fichier sudoers. Cet incident sera signalé.

Téléchargez et installez Hadoop

Cette erreur peut être résolue en vous connectant en tant qu'utilisateur root

Téléchargez et installez Hadoop

Exécuter la commande

sudo adduser hduser_ sudo

Téléchargez et installez Hadoop

Re-login as hduser_

Téléchargez et installez Hadoop

Étape 2) Configurer SSH

Afin de gérer les nœuds d'un cluster, Hadoop nécessite un accès SSH

Tout d’abord, changez d’utilisateur, entrez la commande suivante

su - hduser_

Téléchargez et installez Hadoop

Cette commande créera une nouvelle clé.

ssh-keygen -t rsa -P ""

Téléchargez et installez Hadoop

Activez l'accès SSH à la machine locale à l'aide de cette clé.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Téléchargez et installez Hadoop

Testez maintenant la configuration SSH en vous connectant à localhost en tant qu'utilisateur « hduser ».

ssh localhost

Téléchargez et installez Hadoop

Attention: Veuillez noter que si vous voyez l'erreur ci-dessous en réponse à « ssh localhost », il est alors possible que SSH ne soit pas disponible sur ce système.

Téléchargez et installez Hadoop

Pour résoudre ce problème –

Purger SSH en utilisant,

sudo apt-get purge openssh-server

Il est de bonne pratique de purger avant le début de l'installation

Téléchargez et installez Hadoop

Installez SSH à l'aide de la commande-

sudo apt-get install openssh-server

Téléchargez et installez Hadoop

Étape 3) La prochaine étape est de Télécharger Hadoop

Téléchargez et installez Hadoop

Sélectionnez Écurie

Téléchargez et installez Hadoop

Sélectionnez le fichier tar.gz (pas le fichier avec src)

Téléchargez et installez Hadoop

Une fois le téléchargement terminé, accédez au répertoire contenant le fichier tar

Téléchargez et installez Hadoop

Entrée,

sudo tar xzf hadoop-2.2.0.tar.gz

Téléchargez et installez Hadoop

Maintenant, renommez hadoop-2.2.0 en hadoop

sudo mv hadoop-2.2.0 hadoop

Téléchargez et installez Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Téléchargez et installez Hadoop

Partie 2) Configurer Hadoop

Étape 1) modifier ~ / .bashrc filet

Ajouter les lignes suivantes à la fin du fichier ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Configurer Hadoop

Maintenant, recherchez cette configuration d'environnement à l'aide de la commande ci-dessous

. ~/.bashrc

Configurer Hadoop

Étape 2) Configurations liées à HDFS

Ensemble JAVA_HOME dossier intérieur $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Configurer Hadoop

Configurer Hadoop

Chez

Configurer Hadoop

Il y a deux paramètres dans $HADOOP_HOME/etc/hadoop/core-site.xml qui doivent être réglés-

1. 'hadoop.tmp.dir' – Utilisé pour spécifier un répertoire qui sera utilisé par Hadoop pour stocker ses fichiers de données.

2. 'fs.default.name' – Ceci spécifie le système de fichiers par défaut.

Pour définir ces paramètres, ouvrez core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Configurer Hadoop

Copiez la ligne ci-dessous entre les balises

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Configurer Hadoop

Naviguez jusqu'au répertoire $HADOOP_HOME/etc/Hadoop

Configurer Hadoop

Maintenant, créez le répertoire mentionné dans core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Configurer Hadoop

Accorder des autorisations au répertoire

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Configurer Hadoop

sudo chmod 750 <Path of Directory created in above step>

Configurer Hadoop

Étape 3) Configuration de réduction de carte

Avant de commencer ces configurations, définissons le chemin HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Et entrez

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Configurer Hadoop

Entrez ensuite

sudo chmod +x /etc/profile.d/hadoop.sh

Configurer Hadoop

Quittez le terminal et redémarrez à nouveau

Tapez écho $HADOOP_HOME. Pour vérifier le chemin

Configurer Hadoop

Copiez maintenant les fichiers

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configurer Hadoop

Ouvrez le mapred-site.xml filet

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configurer Hadoop

Ajoutez ci-dessous des lignes de réglage entre les balises et

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Configurer Hadoop

Ouvert $HADOOP_HOME/etc/hadoop/hdfs-site.xml comme ci-dessous,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Configurer Hadoop

Ajouter ci-dessous des lignes de réglage entre les balises et

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Configurer Hadoop

Créez un répertoire spécifié dans le paramètre ci-dessus-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Configurer Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Configurer Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Configurer Hadoop

Étape 4) Avant de démarrer Hadoop pour la première fois, formatez HDFS à l'aide de la commande ci-dessous

$HADOOP_HOME/bin/hdfs namenode -format

Configurer Hadoop

Étape 5) Démarrez le cluster à nœud unique Hadoop à l'aide de la commande ci-dessous

$HADOOP_HOME/sbin/start-dfs.sh

Une sortie de la commande ci-dessus

Configurer Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Configurer Hadoop

En utilisant 'jps' outil/commande, vérifiez si tous les processus liés à Hadoop sont en cours d'exécution ou non.

Configurer Hadoop

Si Hadoop a démarré avec succès, une sortie de jps devrait afficher NameNode, NodeManager, ResourceManager, SecondNameNode, DataNode.

Étape 6) Arrêter Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Configurer Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Configurer Hadoop