Como instalar o Hadoop com configuração passo a passo no Linux Ubuntu

Neste tutorial, mostraremos passo a passo o processo de instalação do Apache Hadoop em uma caixa Linux (Ubuntu). Este é um processo de 2 partes

Existem 2 Pré-requisitos

Parte 1) Baixe e instale o Hadoop

Passo 1) Adicione um usuário do sistema Hadoop usando o comando abaixo

sudo addgroup hadoop_

Baixe e instale o Hadoop

sudo adduser --ingroup hadoop_ hduser_

Baixe e instale o Hadoop

Digite sua senha, nome e outros detalhes.

OBSERVAÇÃO: Existe a possibilidade de erro mencionado abaixo neste processo de configuração e instalação.

“hduser não está no arquivo sudoers. Este incidente será relatado."

Baixe e instale o Hadoop

Este erro pode ser resolvido fazendo login como usuário root

Baixe e instale o Hadoop

Execute o comando

sudo adduser hduser_ sudo

Baixe e instale o Hadoop

Re-login as hduser_

Baixe e instale o Hadoop

Passo 2) Configurar SSH

Para gerenciar nós em um cluster, o Hadoop requer acesso SSH

Primeiro, troque de usuário, digite o seguinte comando

su - hduser_

Baixe e instale o Hadoop

Este comando criará uma nova chave.

ssh-keygen -t rsa -P ""

Baixe e instale o Hadoop

Habilite o acesso SSH à máquina local usando esta chave.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Baixe e instale o Hadoop

Agora teste a configuração do SSH conectando-se ao localhost como usuário 'hduser'.

ssh localhost

Baixe e instale o Hadoop

Nota: Observe que se você vir o erro abaixo em resposta a 'ssh localhost', é possível que o SSH não esteja disponível neste sistema-

Baixe e instale o Hadoop

Para resolver isso –

Limpe o SSH usando,

sudo apt-get purge openssh-server

É uma boa prática limpar antes do início da instalação

Baixe e instale o Hadoop

Instale o SSH usando o comando-

sudo apt-get install openssh-server

Baixe e instale o Hadoop

Passo 3) O próximo passo é Baixar Hadoop

Baixe e instale o Hadoop

Selecione Estável

Baixe e instale o Hadoop

Selecione o arquivo tar.gz (não o arquivo com src)

Baixe e instale o Hadoop

Assim que o download for concluído, navegue até o diretório que contém o arquivo tar

Baixe e instale o Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Baixe e instale o Hadoop

Agora, renomeie hadoop-2.2.0 como hadoop

sudo mv hadoop-2.2.0 hadoop

Baixe e instale o Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Baixe e instale o Hadoop

Parte 2) Configurar o Hadoop

Passo 1) modificar ~ / .bashrc lima

Adicione as seguintes linhas ao final do arquivo ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Configurar Hadoop

Agora, obtenha esta configuração de ambiente usando o comando abaixo

. ~/.bashrc

Configurar Hadoop

Passo 2) Configurações relacionadas ao HDFS

Conjunto JAVA_HOME arquivo interno $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Configurar Hadoop

Configurar Hadoop

Com

Configurar Hadoop

Existem dois parâmetros em $HADOOP_HOME/etc/hadoop/core-site.xml que precisam ser configurados

1. 'hadoop.tmp.dir' - Usado para especificar um diretório que será usado pelo Hadoop para armazenar seus arquivos de dados.

2. 'fs.default.nome' – Isso especifica o sistema de arquivos padrão.

Para definir esses parâmetros, abra core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Configurar Hadoop

Copie a linha abaixo entre as tags

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Configurar Hadoop

Navegue até o diretório $HADOOP_HOME/etc/Hadoop

Configurar Hadoop

Agora, crie o diretório mencionado em core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Configurar Hadoop

Conceda permissões ao diretório

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Configurar Hadoop

sudo chmod 750 <Path of Directory created in above step>

Configurar Hadoop

Passo 3) Configuração de redução de mapa

Antes de começar com essas configurações, vamos definir o caminho HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

E entre

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Configurar Hadoop

Em seguida, insira

sudo chmod +x /etc/profile.d/hadoop.sh

Configurar Hadoop

Saia do Terminal e reinicie novamente

Digite echo $HADOOP_HOME. Para verificar o caminho

Configurar Hadoop

Agora copie os arquivos

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configurar Hadoop

Abra o mapred-site.xml lima

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configurar Hadoop

Adicione abaixo as linhas de configuração entre as tags e

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Configurar Hadoop

Abra $HADOOP_HOME/etc/hadoop/hdfs-site.xml como abaixo,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Configurar Hadoop

Adicione abaixo as linhas de configuração entre as tags e

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Configurar Hadoop

Crie um diretório especificado na configuração acima-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Configurar Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Configurar Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Configurar Hadoop

Passo 4) Antes de iniciarmos o Hadoop pela primeira vez, formate o HDFS usando o comando abaixo

$HADOOP_HOME/bin/hdfs namenode -format

Configurar Hadoop

Passo 5) Inicie o cluster de nó único do Hadoop usando o comando abaixo

$HADOOP_HOME/sbin/start-dfs.sh

Uma saída do comando acima

Configurar Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Configurar Hadoop

Utilizar painéis de piso ResinDek em sua unidade de self-storage em vez de concreto oferece diversos benefícios: 'jps' ferramenta/comando, verifique se todos os processos relacionados ao Hadoop estão em execução ou não.

Configurar Hadoop

Se o Hadoop tiver sido iniciado com sucesso, uma saída do jps deverá mostrar NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Passo 6) Parando o Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Configurar Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Configurar Hadoop

Resuma esta postagem com: