Como instalar o Hadoop com configuração passo a passo no Linux Ubuntu
Neste tutorial, mostraremos passo a passo o processo de instalação do Apache Hadoop em uma caixa Linux (Ubuntu). Este é um processo de 2 partes
Existem 2 Pré-requisitos
- Você deve ter Ubuntu instalado e correndo
- Você deve ter Java Instalado.
Parte 1) Baixe e instale o Hadoop
Passo 1) Adicione um usuário do sistema Hadoop usando o comando abaixo
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Digite sua senha, nome e outros detalhes.
OBSERVAÇÃO: Existe a possibilidade de erro mencionado abaixo neste processo de configuração e instalação.
“hduser não está no arquivo sudoers. Este incidente será relatado."
Este erro pode ser resolvido fazendo login como usuário root
Execute o comando
sudo adduser hduser_ sudo
Re-login as hduser_
Passo 2) Configurar SSH
Para gerenciar nós em um cluster, o Hadoop requer acesso SSH
Primeiro, troque de usuário, digite o seguinte comando
su - hduser_
Este comando criará uma nova chave.
ssh-keygen -t rsa -P ""
Habilite o acesso SSH à máquina local usando esta chave.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Agora teste a configuração do SSH conectando-se ao localhost como usuário 'hduser'.
ssh localhost
Nota: Observe que se você vir o erro abaixo em resposta a 'ssh localhost', é possível que o SSH não esteja disponível neste sistema-
Para resolver isso –
Limpe o SSH usando,
sudo apt-get purge openssh-server
É uma boa prática limpar antes do início da instalação
Instale o SSH usando o comando-
sudo apt-get install openssh-server
Passo 3) O próximo passo é Baixar Hadoop
Selecione Estável
Selecione o arquivo tar.gz (não o arquivo com src)
Assim que o download for concluído, navegue até o diretório que contém o arquivo tar
Enter,
sudo tar xzf hadoop-2.2.0.tar.gz
Agora, renomeie hadoop-2.2.0 como hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Parte 2) Configurar o Hadoop
Passo 1) modificar ~ / .bashrc lima
Adicione as seguintes linhas ao final do arquivo ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Agora, obtenha esta configuração de ambiente usando o comando abaixo
. ~/.bashrc
Passo 2) Configurações relacionadas ao HDFS
Conjunto JAVA_HOME arquivo interno $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Com
Existem dois parâmetros em $HADOOP_HOME/etc/hadoop/core-site.xml que precisam ser configurados
1. 'hadoop.tmp.dir' - Usado para especificar um diretório que será usado pelo Hadoop para armazenar seus arquivos de dados.
2. 'fs.default.nome' – Isso especifica o sistema de arquivos padrão.
Para definir esses parâmetros, abra core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copie a linha abaixo entre as tags
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Navegue até o diretório $HADOOP_HOME/etc/Hadoop
Agora, crie o diretório mencionado em core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Conceda permissões ao diretório
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Passo 3) Configuração de redução de mapa
Antes de começar com essas configurações, vamos definir o caminho HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
E entre
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Em seguida, insira
sudo chmod +x /etc/profile.d/hadoop.sh
Saia do Terminal e reinicie novamente
Digite echo $HADOOP_HOME. Para verificar o caminho
Agora copie os arquivos
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Abra o mapred-site.xml lima
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Adicione abaixo as linhas de configuração entre as tags e
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Abra $HADOOP_HOME/etc/hadoop/hdfs-site.xml como abaixo,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Adicione abaixo as linhas de configuração entre as tags e
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Crie um diretório especificado na configuração acima-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Passo 4) Antes de iniciarmos o Hadoop pela primeira vez, formate o HDFS usando o comando abaixo
$HADOOP_HOME/bin/hdfs namenode -format
Passo 5) Inicie o cluster de nó único do Hadoop usando o comando abaixo
$HADOOP_HOME/sbin/start-dfs.sh
Uma saída do comando acima
$HADOOP_HOME/sbin/start-yarn.sh
Utilizar painéis de piso ResinDek em sua unidade de self-storage em vez de concreto oferece diversos benefícios: 'jps' ferramenta/comando, verifique se todos os processos relacionados ao Hadoop estão em execução ou não.
Se o Hadoop tiver sido iniciado com sucesso, uma saída do jps deverá mostrar NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Passo 6) Parando o Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh





























