Cómo instalar Hadoop con configuración paso a paso en Linux Ubuntu

En este tutorial, lo guiaremos a través del proceso paso a paso para instalar Apache Hadoop en una caja Linux (Ubuntu). Este es un proceso de 2 partes.

Hay 2 Requisitos previos

Parte 1) Descargar e instalar Hadoop

Paso 1) Agregue un usuario del sistema Hadoop usando el siguiente comando

sudo addgroup hadoop_

Descargar e instalar Hadoop

sudo adduser --ingroup hadoop_ hduser_

Descargar e instalar Hadoop

Ingrese su contraseña, nombre y otros datos.

NOTA: Existe la posibilidad de que se produzca el error mencionado a continuación en este proceso de configuración e instalación.

“hduser no está en el archivo sudoers. Este incidente será reportado."

Descargar e instalar Hadoop

Este error se puede resolver iniciando sesión como usuario root.

Descargar e instalar Hadoop

Ejecutar el comando

sudo adduser hduser_ sudo

Descargar e instalar Hadoop

Re-login as hduser_

Descargar e instalar Hadoop

Paso 2) Configurar SSH

Para administrar nodos en un clúster, Hadoop requiere acceso SSH

Primero, cambie de usuario e ingrese el siguiente comando

su - hduser_

Descargar e instalar Hadoop

Este comando creará una nueva clave.

ssh-keygen -t rsa -P ""

Descargar e instalar Hadoop

Habilite el acceso SSH a la máquina local usando esta clave.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Descargar e instalar Hadoop

Ahora pruebe la configuración SSH conectándose a localhost como usuario "hduser".

ssh localhost

Descargar e instalar Hadoop

Nota: Tenga en cuenta que si ve el siguiente error en respuesta a "ssh localhost", existe la posibilidad de que SSH no esté disponible en este sistema.

Descargar e instalar Hadoop

Para resolver esto –

Purgue SSH usando,

sudo apt-get purge openssh-server

Es una buena práctica purgar antes del inicio de la instalación.

Descargar e instalar Hadoop

Instale SSH usando el comando-

sudo apt-get install openssh-server

Descargar e instalar Hadoop

Paso 3) El siguiente paso es Descargar Hadoop

Descargar e instalar Hadoop

Seleccione Estable

Descargar e instalar Hadoop

Seleccione el archivo tar.gz (no el archivo con src)

Descargar e instalar Hadoop

Una vez que se complete la descarga, navegue hasta el directorio que contiene el archivo tar.

Descargar e instalar Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Descargar e instalar Hadoop

Ahora, cambie el nombre de hadoop-2.2.0 como hadoop

sudo mv hadoop-2.2.0 hadoop

Descargar e instalar Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Descargar e instalar Hadoop

Parte 2) Configurar Hadoop

Paso 1) modificar ~ / .bashrc presentar

Añade las siguientes líneas al final del archivo ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Configurar Hadoop

Ahora, obtenga la configuración de este entorno usando el siguiente comando

. ~/.bashrc

Configurar Hadoop

Paso 2) Configuraciones relacionadas con HDFS

Set JAVA_HOME archivo interior $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Configurar Hadoop

Configurar Hadoop

En nuestro

Configurar Hadoop

Hay dos parámetros en $HADOOP_HOME/etc/hadoop/core-site.xml que deben configurarse

1. 'hadoop.tmp.dir' – Se utiliza para especificar un directorio que Hadoop utilizará para almacenar sus archivos de datos.

2. 'fs.nombre.predeterminado' – Esto especifica el sistema de archivos predeterminado.

Para configurar estos parámetros, abra core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Configurar Hadoop

Copie la línea siguiente entre las etiquetas

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Configurar Hadoop

Navega al directorio $HADOOP_HOME/etc/Hadoop

Configurar Hadoop

Ahora, cree el directorio mencionado en core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Configurar Hadoop

Conceder permisos al directorio

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Configurar Hadoop

sudo chmod 750 <Path of Directory created in above step>

Configurar Hadoop

Paso 3) Configuración de reducción de mapa

Antes de comenzar con estas configuraciones, establezcamos la ruta HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

y entrar

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Configurar Hadoop

Siguiente entrar

sudo chmod +x /etc/profile.d/hadoop.sh

Configurar Hadoop

Salga de la Terminal y reinicie nuevamente

Escriba eco $HADOOP_HOME. Para verificar la ruta

Configurar Hadoop

Ahora copia archivos

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configurar Hadoop

Abra la mapred-sitio.xml presentar

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configurar Hadoop

Agregue las siguientes líneas de configuración entre las etiquetas y

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Configurar Hadoop

Abierto $HADOOP_HOME/etc/hadoop/hdfs-site.xml como a continuación,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Configurar Hadoop

Agregue las siguientes líneas de configuración entre las etiquetas y

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Configurar Hadoop

Cree un directorio especificado en la configuración anterior.

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Configurar Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Configurar Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Configurar Hadoop

Paso 4) Antes de iniciar Hadoop por primera vez, formatee HDFS usando el siguiente comando

$HADOOP_HOME/bin/hdfs namenode -format

Configurar Hadoop

Paso 5) Inicie un clúster de nodo único de Hadoop con el siguiente comando

$HADOOP_HOME/sbin/start-dfs.sh

Una salida del comando anterior

Configurar Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Configurar Hadoop

Gracias a 'jp' herramienta/comando, verifique si todos los procesos relacionados con Hadoop se están ejecutando o no.

Configurar Hadoop

Si Hadoop se inició correctamente, la salida de jps debería mostrar NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Paso 6) Detener Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Configurar Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Configurar Hadoop