Comment installer Hadoop avec une configuration étape par étape sous Linux Ubuntu
Dans ce tutoriel, nous vous guiderons étape par étape pour installer Apache Hadoop sur une machine Linux (Ubuntu). Il s'agit d'un processus en 2 parties
Il ya 2 Pré-requis
- Vous devez avoir Ubuntu Installé et en cours d'exécution
- Vous devez avoir Java Installé.
Partie 1) Téléchargez et installez Hadoop
Étape 1) Ajoutez un utilisateur du système Hadoop à l'aide de la commande ci-dessous
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Entrez votre mot de passe, votre nom et d'autres détails.
NOTE: Il existe une possibilité d'erreur mentionnée ci-dessous dans ce processus de configuration et d'installation.
« hduser n'est pas dans le fichier sudoers. Cet incident sera signalé.
Cette erreur peut être résolue en vous connectant en tant qu'utilisateur root
Exécuter la commande
sudo adduser hduser_ sudo
Re-login as hduser_
Étape 2) Configurer SSH
Afin de gérer les nœuds d'un cluster, Hadoop nécessite un accès SSH
Tout d’abord, changez d’utilisateur, entrez la commande suivante
su - hduser_
Cette commande créera une nouvelle clé.
ssh-keygen -t rsa -P ""
Activez l'accès SSH à la machine locale à l'aide de cette clé.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Testez maintenant la configuration SSH en vous connectant à localhost en tant qu'utilisateur « hduser ».
ssh localhost
Attention: Veuillez noter que si vous voyez l'erreur ci-dessous en réponse à « ssh localhost », il est alors possible que SSH ne soit pas disponible sur ce système.
Pour résoudre ce problème –
Purger SSH en utilisant,
sudo apt-get purge openssh-server
Il est de bonne pratique de purger avant le début de l'installation
Installez SSH à l'aide de la commande-
sudo apt-get install openssh-server
Étape 3) La prochaine étape est de Télécharger Hadoop
Sélectionnez Écurie
Sélectionnez le fichier tar.gz (pas le fichier avec src)
Une fois le téléchargement terminé, accédez au répertoire contenant le fichier tar
Entrée,
sudo tar xzf hadoop-2.2.0.tar.gz
Maintenant, renommez hadoop-2.2.0 en hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Partie 2) Configurer Hadoop
Étape 1) modifier ~ / .bashrc filet
Ajouter les lignes suivantes à la fin du fichier ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Maintenant, recherchez cette configuration d'environnement à l'aide de la commande ci-dessous
. ~/.bashrc
Étape 2) Configurations liées à HDFS
Ensemble JAVA_HOME dossier intérieur $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Chez
Il y a deux paramètres dans $HADOOP_HOME/etc/hadoop/core-site.xml qui doivent être réglés-
1. 'hadoop.tmp.dir' – Utilisé pour spécifier un répertoire qui sera utilisé par Hadoop pour stocker ses fichiers de données.
2. 'fs.default.name' – Ceci spécifie le système de fichiers par défaut.
Pour définir ces paramètres, ouvrez core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copiez la ligne ci-dessous entre les balises
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Naviguez jusqu'au répertoire $HADOOP_HOME/etc/Hadoop
Maintenant, créez le répertoire mentionné dans core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Accorder des autorisations au répertoire
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Étape 3) Configuration de réduction de carte
Avant de commencer ces configurations, définissons le chemin HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Et entrez
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Entrez ensuite
sudo chmod +x /etc/profile.d/hadoop.sh
Quittez le terminal et redémarrez à nouveau
Tapez écho $HADOOP_HOME. Pour vérifier le chemin
Copiez maintenant les fichiers
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Ouvrez le mapred-site.xml filet
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Ajoutez ci-dessous des lignes de réglage entre les balises et
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Ouvert $HADOOP_HOME/etc/hadoop/hdfs-site.xml comme ci-dessous,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Ajouter ci-dessous des lignes de réglage entre les balises et
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Créez un répertoire spécifié dans le paramètre ci-dessus-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Étape 4) Avant de démarrer Hadoop pour la première fois, formatez HDFS à l'aide de la commande ci-dessous
$HADOOP_HOME/bin/hdfs namenode -format
Étape 5) Démarrez le cluster à nœud unique Hadoop à l'aide de la commande ci-dessous
$HADOOP_HOME/sbin/start-dfs.sh
Une sortie de la commande ci-dessus
$HADOOP_HOME/sbin/start-yarn.sh
En utilisant 'jps' outil/commande, vérifiez si tous les processus liés à Hadoop sont en cours d'exécution ou non.
Si Hadoop a démarré avec succès, une sortie de jps devrait afficher NameNode, NodeManager, ResourceManager, SecondNameNode, DataNode.
Étape 6) Arrêter Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh