Hur man installerar Hadoop med steg-för-steg-konfiguration på Linux Ubuntu

I den här handledningen tar vi dig genom steg för steg-processen för att installera Apache Hadoop på en Linux-box (Ubuntu). Detta är en process i två delar

Det finns 2 Förutsättningar

Del 1) Ladda ner och installera Hadoop

Steg 1) Lägg till en Hadoop-systemanvändare med kommandot nedan

sudo addgroup hadoop_

Ladda ner och installera Hadoop

sudo adduser --ingroup hadoop_ hduser_

Ladda ner och installera Hadoop

Ange ditt lösenord, namn och andra detaljer.

OBS: Det finns en möjlighet för nedan nämnda fel i den här installations- och installationsprocessen.

"hduser finns inte i sudoers-filen. Denna händelse kommer att rapporteras.”

Ladda ner och installera Hadoop

Detta fel kan lösas genom att logga in som root-användare

Ladda ner och installera Hadoop

Kör kommandot

sudo adduser hduser_ sudo

Ladda ner och installera Hadoop

Re-login as hduser_

Ladda ner och installera Hadoop

Steg 2) Konfigurera SSH

För att hantera noder i ett kluster kräver Hadoop SSH-åtkomst

Byt användare först, skriv in följande kommando

su - hduser_

Ladda ner och installera Hadoop

Detta kommando skapar en ny nyckel.

ssh-keygen -t rsa -P ""

Ladda ner och installera Hadoop

Aktivera SSH-åtkomst till lokal maskin med denna nyckel.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Ladda ner och installera Hadoop

Testa nu SSH-inställningen genom att ansluta till localhost som 'hduser'-användare.

ssh localhost

Ladda ner och installera Hadoop

Notera: Observera att om du ser felet nedan som svar på 'ssh localhost', så finns det en möjlighet att SSH inte är tillgängligt på detta system-

Ladda ner och installera Hadoop

För att lösa detta –

Rensa SSH med,

sudo apt-get purge openssh-server

Det är bra att rensa innan installationen påbörjas

Ladda ner och installera Hadoop

Installera SSH med kommandot-

sudo apt-get install openssh-server

Ladda ner och installera Hadoop

Steg 3) Nästa steg är att Ladda ner Hadoop

Ladda ner och installera Hadoop

Välj Stabil

Ladda ner och installera Hadoop

Välj filen tar.gz (inte filen med src)

Ladda ner och installera Hadoop

När en nedladdning är klar, navigera till katalogen som innehåller tar-filen

Ladda ner och installera Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Ladda ner och installera Hadoop

Byt nu namn på hadoop-2.2.0 till hadoop

sudo mv hadoop-2.2.0 hadoop

Ladda ner och installera Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Ladda ner och installera Hadoop

Del 2) Konfigurera Hadoop

Steg 1) Ändra ~ / .bashrc fil

Lägg till följande rader i slutet av filen ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Konfigurera Hadoop

Käll nu in den här miljökonfigurationen med kommandot nedan

. ~/.bashrc

Konfigurera Hadoop

Steg 2) Konfigurationer relaterade till HDFS

uppsättning JAVA_HOME inuti filen $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Konfigurera Hadoop

Konfigurera Hadoop

Med

Konfigurera Hadoop

Det finns två parametrar i $HADOOP_HOME/etc/hadoop/core-site.xml som måste ställas in-

1. 'hadoop.tmp.dir' – Används för att ange en katalog som ska användas av Hadoop för att lagra dess datafiler.

2. 'fs.default.name' – Detta anger standardfilsystemet.

För att ställa in dessa parametrar, öppna core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Konfigurera Hadoop

Kopiera nedanstående rad mellan taggarna

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Konfigurera Hadoop

Navigera till katalogen $HADOOP_HOME/etc/Hadoop

Konfigurera Hadoop

Skapa nu katalogen som nämns i core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Konfigurera Hadoop

Ge behörigheter till katalogen

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Konfigurera Hadoop

sudo chmod 750 <Path of Directory created in above step>

Konfigurera Hadoop

Steg 3) Map Reduce Configuration

Innan du börjar med dessa konfigurationer, låt oss ställa in HADOOP_HOME-sökvägen

sudo gedit /etc/profile.d/hadoop.sh

Och Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Konfigurera Hadoop

Ange nästa

sudo chmod +x /etc/profile.d/hadoop.sh

Konfigurera Hadoop

Stäng terminalen och starta om igen

Skriv echo $HADOOP_HOME. För att verifiera sökvägen

Konfigurera Hadoop

Kopiera nu filer

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Konfigurera Hadoop

Öppna mapred-site.xml fil

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Konfigurera Hadoop

Lägg till nedanstående rader med inställning mellan taggar och

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Konfigurera Hadoop

Öppen $HADOOP_HOME/etc/hadoop/hdfs-site.xml som nedan,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Konfigurera Hadoop

Lägg till nedanstående inställningsrader mellan taggar och

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Konfigurera Hadoop

Skapa en katalog specificerad i ovanstående inställning-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Konfigurera Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Konfigurera Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Konfigurera Hadoop

Steg 4) Innan vi startar Hadoop för första gången, formatera HDFS med kommandot nedan

$HADOOP_HOME/bin/hdfs namenode -format

Konfigurera Hadoop

Steg 5) Starta Hadoop enkelnodkluster med kommandot nedan

$HADOOP_HOME/sbin/start-dfs.sh

En utdata av ovanstående kommando

Konfigurera Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Konfigurera Hadoop

Använda 'jps' verktyg/kommando, verifiera om alla Hadoop-relaterade processer körs eller inte.

Konfigurera Hadoop

Om Hadoop har startat framgångsrikt bör en utdata av jps visa NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Steg 6) Stoppar Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Konfigurera Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Konfigurera Hadoop