Cum se instalează Hadoop cu configurarea pas cu pas pe Linux Ubuntu
În acest tutorial, vă vom ghida prin procesul pas cu pas pentru a instala Apache Hadoop pe o cutie Linux (Ubuntu). Acesta este un proces din 2 părți
Există 2 Cerințe preliminare
- Trebuie să aveți Ubuntu instalat și alergând
- Trebuie să aveți Java Instalat.
Partea 1) Descărcați și instalați Hadoop
Pas 1) Adăugați un utilizator de sistem Hadoop folosind comanda de mai jos
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Introduceți parola, numele și alte detalii.
NOTĂ: Există o posibilitate de eroare menționată mai jos în acest proces de configurare și instalare.
„hduser nu se află în fișierul sudoers. Acest incident va fi raportat.”
Această eroare poate fi rezolvată prin autentificare ca utilizator root
Executați comanda
sudo adduser hduser_ sudo
Re-login as hduser_
Pas 2) Configurați SSH
Pentru a gestiona nodurile dintr-un cluster, Hadoop necesită acces SSH
Mai întâi, schimbați utilizatorul, introduceți următoarea comandă
su - hduser_
Această comandă va crea o cheie nouă.
ssh-keygen -t rsa -P ""
Activați accesul SSH la mașina locală folosind această cheie.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Acum testați configurarea SSH conectându-vă la localhost ca utilizator „hduser”.
ssh localhost
Notă: Vă rugăm să rețineți, dacă vedeți mai jos o eroare ca răspuns la „ssh localhost”, atunci există posibilitatea ca SSH să nu fie disponibil pe acest sistem-
Pentru a rezolva asta -
Curățați SSH folosind,
sudo apt-get purge openssh-server
Este o practică bună să curățați înainte de începerea instalării
Instalați SSH folosind comanda-
sudo apt-get install openssh-server
Pas 3) Următorul pas este să Descărcați Hadoop
Selectați Stabil
Selectați fișierul tar.gz (nu fișierul cu src)
Odată ce descărcarea este completă, navigați la directorul care conține fișierul tar
Introduce,
sudo tar xzf hadoop-2.2.0.tar.gz
Acum, redenumiți hadoop-2.2.0 ca hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Partea 2) Configurați Hadoop
Pas 1) Modifica ~ / .bashrc fişier
Adăugați următoarele linii la sfârșitul fișierului ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Acum, generați această configurație de mediu folosind comanda de mai jos
. ~/.bashrc
Pas 2) Configurații legate de HDFS
set JAVA_HOME în interiorul fișierului $HADOOP_HOME/etc/hadoop/hadoop-env.sh
cu
Există doi parametri în $HADOOP_HOME/etc/hadoop/core-site.xml care trebuie setate-
1. „hadoop.tmp.dir” – Folosit pentru a specifica un director care va fi folosit de Hadoop pentru a-și stoca fișierele de date.
2. „fs.default.name” – Aceasta specifică sistemul de fișiere implicit.
Pentru a seta acești parametri, deschideți core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copiați rândul de mai jos între etichete
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Navigați la director $HADOOP_HOME/etc/Hadoop
Acum, creați directorul menționat în core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Acordați permisiuni pentru director
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Pas 3) Configurație de reducere a hărții
Înainte de a începe cu aceste configurații, să setăm calea HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Și Intră
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Apoi intrați
sudo chmod +x /etc/profile.d/hadoop.sh
Ieșiți din terminal și reporniți din nou
Tastați echo $HADOOP_HOME. Pentru a verifica calea
Acum copiați fișierele
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Deschideți mapred-site.xml fişier
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Adăugați mai jos liniile de setare între etichete și
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Operatii Deschise $HADOOP_HOME/etc/hadoop/hdfs-site.xml ca mai jos,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Adăugați mai jos linii de setare între etichete și
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Creați un director specificat în setarea de mai sus-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Pas 4) Înainte de a începe Hadoop pentru prima dată, formatați HDFS folosind comanda de mai jos
$HADOOP_HOME/bin/hdfs namenode -format
Pas 5) Porniți clusterul Hadoop cu un singur nod folosind comanda de mai jos
$HADOOP_HOME/sbin/start-dfs.sh
O ieșire a comenzii de mai sus
$HADOOP_HOME/sbin/start-yarn.sh
Utilizarea 'jps' instrument/comandă, verificați dacă toate procesele legate de Hadoop rulează sau nu.
Dacă Hadoop a pornit cu succes, atunci o ieșire a jps ar trebui să arate NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Pas 6) Oprirea lui Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh