Cómo instalar Hadoop con configuración paso a paso en Linux Ubuntu
En este tutorial, lo guiaremos a través del proceso paso a paso para instalar Apache Hadoop en una caja Linux (Ubuntu). Este es un proceso de 2 partes.
Hay 2 Requisitos previos
- Usted debe tener Ubuntu instalado y funcionando
- Usted debe tener Java Instalado.
Parte 1) Descargar e instalar Hadoop
Paso 1) Agregue un usuario del sistema Hadoop usando el siguiente comando
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Ingrese su contraseña, nombre y otros datos.
NOTA: Existe la posibilidad de que se produzca el error mencionado a continuación en este proceso de configuración e instalación.
“hduser no está en el archivo sudoers. Este incidente será reportado."
Este error se puede resolver iniciando sesión como usuario root.
Ejecutar el comando
sudo adduser hduser_ sudo
Re-login as hduser_
Paso 2) Configurar SSH
Para administrar nodos en un clúster, Hadoop requiere acceso SSH
Primero, cambie de usuario e ingrese el siguiente comando
su - hduser_
Este comando creará una nueva clave.
ssh-keygen -t rsa -P ""
Habilite el acceso SSH a la máquina local usando esta clave.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Ahora pruebe la configuración SSH conectándose a localhost como usuario "hduser".
ssh localhost
Nota: Tenga en cuenta que si ve el siguiente error en respuesta a "ssh localhost", existe la posibilidad de que SSH no esté disponible en este sistema.
Para resolver esto –
Purgue SSH usando,
sudo apt-get purge openssh-server
Es una buena práctica purgar antes del inicio de la instalación.
Instale SSH usando el comando-
sudo apt-get install openssh-server
Paso 3) El siguiente paso es Descargar Hadoop
Seleccione Estable
Seleccione el archivo tar.gz (no el archivo con src)
Una vez que se complete la descarga, navegue hasta el directorio que contiene el archivo tar.
Enter,
sudo tar xzf hadoop-2.2.0.tar.gz
Ahora, cambie el nombre de hadoop-2.2.0 como hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Parte 2) Configurar Hadoop
Paso 1) modificar ~ / .bashrc presentar
Añade las siguientes líneas al final del archivo ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Ahora, obtenga la configuración de este entorno usando el siguiente comando
. ~/.bashrc
Paso 2) Configuraciones relacionadas con HDFS
Set JAVA_HOME archivo interior $HADOOP_HOME/etc/hadoop/hadoop-env.sh
En nuestro
Hay dos parámetros en $HADOOP_HOME/etc/hadoop/core-site.xml que deben configurarse
1. 'hadoop.tmp.dir' – Se utiliza para especificar un directorio que Hadoop utilizará para almacenar sus archivos de datos.
2. 'fs.nombre.predeterminado' – Esto especifica el sistema de archivos predeterminado.
Para configurar estos parámetros, abra core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copie la línea siguiente entre las etiquetas
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Navega al directorio $HADOOP_HOME/etc/Hadoop
Ahora, cree el directorio mencionado en core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Conceder permisos al directorio
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Paso 3) Configuración de reducción de mapa
Antes de comenzar con estas configuraciones, establezcamos la ruta HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
y entrar
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Siguiente entrar
sudo chmod +x /etc/profile.d/hadoop.sh
Salga de la Terminal y reinicie nuevamente
Escriba eco $HADOOP_HOME. Para verificar la ruta
Ahora copia archivos
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Abra la mapred-sitio.xml presentar
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Agregue las siguientes líneas de configuración entre las etiquetas y
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Abierto $HADOOP_HOME/etc/hadoop/hdfs-site.xml como a continuación,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Agregue las siguientes líneas de configuración entre las etiquetas y
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Cree un directorio especificado en la configuración anterior.
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Paso 4) Antes de iniciar Hadoop por primera vez, formatee HDFS usando el siguiente comando
$HADOOP_HOME/bin/hdfs namenode -format
Paso 5) Inicie un clúster de nodo único de Hadoop con el siguiente comando
$HADOOP_HOME/sbin/start-dfs.sh
Una salida del comando anterior
$HADOOP_HOME/sbin/start-yarn.sh
Gracias a 'jp' herramienta/comando, verifique si todos los procesos relacionados con Hadoop se están ejecutando o no.
Si Hadoop se inició correctamente, la salida de jps debería mostrar NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Paso 6) Detener Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh