Cum se instalează Hadoop cu configurarea pas cu pas pe Linux Ubuntu

În acest tutorial, vă vom ghida prin procesul pas cu pas pentru a instala Apache Hadoop pe o cutie Linux (Ubuntu). Acesta este un proces din 2 părți

Există 2 Cerințe preliminare

Partea 1) Descărcați și instalați Hadoop

Pas 1) Adăugați un utilizator de sistem Hadoop folosind comanda de mai jos

sudo addgroup hadoop_

Descărcați și instalați Hadoop

sudo adduser --ingroup hadoop_ hduser_

Descărcați și instalați Hadoop

Introduceți parola, numele și alte detalii.

NOTĂ: Există o posibilitate de eroare menționată mai jos în acest proces de configurare și instalare.

„hduser nu se află în fișierul sudoers. Acest incident va fi raportat.”

Descărcați și instalați Hadoop

Această eroare poate fi rezolvată prin autentificare ca utilizator root

Descărcați și instalați Hadoop

Executați comanda

sudo adduser hduser_ sudo

Descărcați și instalați Hadoop

Re-login as hduser_

Descărcați și instalați Hadoop

Pas 2) Configurați SSH

Pentru a gestiona nodurile dintr-un cluster, Hadoop necesită acces SSH

Mai întâi, schimbați utilizatorul, introduceți următoarea comandă

su - hduser_

Descărcați și instalați Hadoop

Această comandă va crea o cheie nouă.

ssh-keygen -t rsa -P ""

Descărcați și instalați Hadoop

Activați accesul SSH la mașina locală folosind această cheie.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Descărcați și instalați Hadoop

Acum testați configurarea SSH conectându-vă la localhost ca utilizator „hduser”.

ssh localhost

Descărcați și instalați Hadoop

Notă: Vă rugăm să rețineți, dacă vedeți mai jos o eroare ca răspuns la „ssh localhost”, atunci există posibilitatea ca SSH să nu fie disponibil pe acest sistem-

Descărcați și instalați Hadoop

Pentru a rezolva asta -

Curățați SSH folosind,

sudo apt-get purge openssh-server

Este o practică bună să curățați înainte de începerea instalării

Descărcați și instalați Hadoop

Instalați SSH folosind comanda-

sudo apt-get install openssh-server

Descărcați și instalați Hadoop

Pas 3) Următorul pas este să Descărcați Hadoop

Descărcați și instalați Hadoop

Selectați Stabil

Descărcați și instalați Hadoop

Selectați fișierul tar.gz (nu fișierul cu src)

Descărcați și instalați Hadoop

Odată ce descărcarea este completă, navigați la directorul care conține fișierul tar

Descărcați și instalați Hadoop

Introduce,

sudo tar xzf hadoop-2.2.0.tar.gz

Descărcați și instalați Hadoop

Acum, redenumiți hadoop-2.2.0 ca hadoop

sudo mv hadoop-2.2.0 hadoop

Descărcați și instalați Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Descărcați și instalați Hadoop

Partea 2) Configurați Hadoop

Pas 1) Modifica ~ / .bashrc fişier

Adăugați următoarele linii la sfârșitul fișierului ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Configurați Hadoop

Acum, generați această configurație de mediu folosind comanda de mai jos

. ~/.bashrc

Configurați Hadoop

Pas 2) Configurații legate de HDFS

set JAVA_HOME în interiorul fișierului $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Configurați Hadoop

Configurați Hadoop

cu

Configurați Hadoop

Există doi parametri în $HADOOP_HOME/etc/hadoop/core-site.xml care trebuie setate-

1. „hadoop.tmp.dir” – Folosit pentru a specifica un director care va fi folosit de Hadoop pentru a-și stoca fișierele de date.

2. „fs.default.name” – Aceasta specifică sistemul de fișiere implicit.

Pentru a seta acești parametri, deschideți core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Configurați Hadoop

Copiați rândul de mai jos între etichete

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Configurați Hadoop

Navigați la director $HADOOP_HOME/etc/Hadoop

Configurați Hadoop

Acum, creați directorul menționat în core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Configurați Hadoop

Acordați permisiuni pentru director

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Configurați Hadoop

sudo chmod 750 <Path of Directory created in above step>

Configurați Hadoop

Pas 3) Configurație de reducere a hărții

Înainte de a începe cu aceste configurații, să setăm calea HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Și Intră

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Configurați Hadoop

Apoi intrați

sudo chmod +x /etc/profile.d/hadoop.sh

Configurați Hadoop

Ieșiți din terminal și reporniți din nou

Tastați echo $HADOOP_HOME. Pentru a verifica calea

Configurați Hadoop

Acum copiați fișierele

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configurați Hadoop

Deschideți mapred-site.xml fişier

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configurați Hadoop

Adăugați mai jos liniile de setare între etichete și

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Configurați Hadoop

Operatii Deschise $HADOOP_HOME/etc/hadoop/hdfs-site.xml ca mai jos,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Configurați Hadoop

Adăugați mai jos linii de setare între etichete și

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Configurați Hadoop

Creați un director specificat în setarea de mai sus-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Configurați Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Configurați Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Configurați Hadoop

Pas 4) Înainte de a începe Hadoop pentru prima dată, formatați HDFS folosind comanda de mai jos

$HADOOP_HOME/bin/hdfs namenode -format

Configurați Hadoop

Pas 5) Porniți clusterul Hadoop cu un singur nod folosind comanda de mai jos

$HADOOP_HOME/sbin/start-dfs.sh

O ieșire a comenzii de mai sus

Configurați Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Configurați Hadoop

Utilizarea 'jps' instrument/comandă, verificați dacă toate procesele legate de Hadoop rulează sau nu.

Configurați Hadoop

Dacă Hadoop a pornit cu succes, atunci o ieșire a jps ar trebui să arate NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Pas 6) Oprirea lui Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Configurați Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Configurați Hadoop