Comment installer Hadoop avec une configuration étape par étape sous Linux Ubuntu

Dans ce tutoriel, nous vous guiderons étape par étape pour installer Apache Hadoop sur une machine Linux (Ubuntu). Il s'agit d'un processus en 2 parties

Partie 1) Téléchargez et installez Hadoop
Partie 2) Configurer Hadoop

Il ya 2 Pré-requis :

Vous devez avoir Ubuntu Installé et en cours d'exécution
Vous devez avoir Java Installé.

Partie 1) Téléchargez et installez Hadoop

Étape 1) Ajoutez un utilisateur du système Hadoop à l'aide de la commande ci-dessous

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Entrez votre mot de passe, votre nom et d'autres détails.

NOTE: Il existe une possibilité d'erreur mentionnée ci-dessous dans ce processus de configuration et d'installation.

« hduser n'est pas dans le fichier sudoers. Cet incident sera signalé.

Cette erreur peut être résolue en vous connectant en tant qu'utilisateur root

Exécuter la commande

sudo adduser hduser_ sudo

Re-login as hduser_

Étape 2) Configurer SSH

Afin de gérer les nœuds d'un cluster, Hadoop nécessite un accès SSH

Tout d’abord, changez d’utilisateur, entrez la commande suivante

su - hduser_

Cette commande créera une nouvelle clé.

ssh-keygen -t rsa -P ""

Activez l'accès SSH à la machine locale à l'aide de cette clé.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Testez maintenant la configuration SSH en vous connectant à localhost en tant qu'utilisateur « hduser ».

ssh localhost

Remarque: Veuillez noter que si vous voyez l'erreur ci-dessous en réponse à « ssh localhost », il est alors possible que SSH ne soit pas disponible sur ce système.

Pour résoudre ce problème –

Purger SSH en utilisant,

sudo apt-get purge openssh-server

Il est de bonne pratique de purger avant le début de l'installation

Installez SSH à l'aide de la commande-

sudo apt-get install openssh-server

Étape 3) La prochaine étape est de Télécharger Hadoop

Sélectionnez Écurie

Sélectionnez le fichier tar.gz (pas le fichier avec src)

Une fois le téléchargement terminé, accédez au répertoire contenant le fichier tar

Entrée,

sudo tar xzf hadoop-2.2.0.tar.gz

Maintenant, renommez hadoop-2.2.0 en hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Partie 2) Configurer Hadoop

Étape 1) modifier ~ / .bashrc filet

Ajouter les lignes suivantes à la fin du fichier ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Maintenant, recherchez cette configuration d'environnement à l'aide de la commande ci-dessous

. ~/.bashrc

Étape 2) Configurations liées à HDFS

complet » JAVA_HOME dossier intérieur $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Il y a deux paramètres dans $HADOOP_HOME/etc/hadoop/core-site.xml qui doivent être réglés-

1. 'hadoop.tmp.dir' – Utilisé pour spécifier un répertoire qui sera utilisé par Hadoop pour stocker ses fichiers de données.

2. 'fs.default.name' – Ceci spécifie le système de fichiers par défaut.

Pour définir ces paramètres, ouvrez core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Copiez la ligne ci-dessous entre les balises

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Naviguez jusqu'au répertoire $HADOOP_HOME/etc/Hadoop

Maintenant, créez le répertoire mentionné dans core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Accorder des autorisations au répertoire

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

sudo chmod 750 <Path of Directory created in above step>

Étape 3) Configuration de réduction de carte

Avant de commencer ces configurations, définissons le chemin HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Et entrez

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Entrez ensuite

sudo chmod +x /etc/profile.d/hadoop.sh

Quittez le terminal et redémarrez à nouveau

Tapez écho $HADOOP_HOME. Pour vérifier le chemin

Copiez maintenant les fichiers

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Ouvrez le mapred-site.xml filet

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Ajoutez ci-dessous des lignes de réglage entre les balises et

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Open $HADOOP_HOME/etc/hadoop/hdfs-site.xml comme ci-dessous,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Ajouter ci-dessous des lignes de réglage entre les balises et

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Créez un répertoire spécifié dans le paramètre ci-dessus-

sudo mkdir -p <Path of Directory used in above setting>

sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>

sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 <Path of Directory created in above step>

sudo chmod 750 /home/hduser_/hdfs

Étape 4) Avant de démarrer Hadoop pour la première fois, formatez HDFS à l'aide de la commande ci-dessous

$HADOOP_HOME/bin/hdfs namenode -format

Étape 5) Démarrez le cluster à nœud unique Hadoop à l'aide de la commande ci-dessous

$HADOOP_HOME/sbin/start-dfs.sh

Une sortie de la commande ci-dessus

$HADOOP_HOME/sbin/start-yarn.sh

En utilisant 'jps' outil/commande, vérifiez si tous les processus liés à Hadoop sont en cours d'exécution ou non.

Si Hadoop a démarré avec succès, une sortie de jps devrait afficher NameNode, NodeManager, ResourceManager, SecondNameNode, DataNode.

Étape 6) Arrêter Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh

Partie 1) Téléchargez et installez Hadoop

ARTICLES LIÉS

Partie 2) Configurer Hadoop

Enregistrez-vous pour recevoir le bulletin d'informations