Hvordan installere Hadoop med trinnvis konfigurasjon på Linux Ubuntu

I denne opplæringen tar vi deg gjennom trinnvis prosess for å installere Apache Hadoop på en Linux-boks (Ubuntu). Dette er en 2-delt prosess

Det er 2 Forutsetninger

Del 1) Last ned og installer Hadoop

Trinn 1) Legg til en Hadoop-systembruker ved å bruke kommandoen nedenfor

sudo addgroup hadoop_

Last ned og installer Hadoop

sudo adduser --ingroup hadoop_ hduser_

Last ned og installer Hadoop

Skriv inn passord, navn og andre detaljer.

NOTAT: Det er en mulighet for feil i denne oppsetts- og installasjonsprosessen nedenfor.

"hduser er ikke i sudoers-filen. Denne hendelsen vil bli rapportert."

Last ned og installer Hadoop

Denne feilen kan løses ved å logge på som root-bruker

Last ned og installer Hadoop

Utfør kommandoen

sudo adduser hduser_ sudo

Last ned og installer Hadoop

Re-login as hduser_

Last ned og installer Hadoop

Trinn 2) Konfigurer SSH

For å administrere noder i en klynge, krever Hadoop SSH-tilgang

Bytt bruker først, skriv inn følgende kommando

su - hduser_

Last ned og installer Hadoop

Denne kommandoen vil opprette en ny nøkkel.

ssh-keygen -t rsa -P ""

Last ned og installer Hadoop

Aktiver SSH-tilgang til lokal maskin ved hjelp av denne nøkkelen.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Last ned og installer Hadoop

Test nå SSH-oppsettet ved å koble til localhost som 'hduser'-bruker.

ssh localhost

Last ned og installer Hadoop

OBS: Vær oppmerksom på at hvis du ser feilen nedenfor som svar på 'ssh localhost', er det en mulighet for at SSH ikke er tilgjengelig på dette systemet-

Last ned og installer Hadoop

For å løse dette –

Tøm SSH ved å bruke,

sudo apt-get purge openssh-server

Det er god praksis å rense før installasjonen starter

Last ned og installer Hadoop

Installer SSH ved å bruke kommandoen-

sudo apt-get install openssh-server

Last ned og installer Hadoop

Trinn 3) Neste trinn er å Last ned Hadoop

Last ned og installer Hadoop

Velg Stabil

Last ned og installer Hadoop

Velg tar.gz-filen (ikke filen med src)

Last ned og installer Hadoop

Når en nedlasting er fullført, naviger til katalogen som inneholder tar-filen

Last ned og installer Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Last ned og installer Hadoop

Gi nytt navn til hadoop-2.2.0 til hadoop

sudo mv hadoop-2.2.0 hadoop

Last ned og installer Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Last ned og installer Hadoop

Del 2) Konfigurer Hadoop

Trinn 1) endre ~ / .bashrc fil

Legg til følgende linjer til slutten av filen ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Konfigurer Hadoop

Nå, kilde denne miljøkonfigurasjonen ved å bruke kommandoen nedenfor

. ~/.bashrc

Konfigurer Hadoop

Trinn 2) Konfigurasjoner relatert til HDFS

Sett Java_home. inne i filen $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Konfigurer Hadoop

Konfigurer Hadoop

Med

Konfigurer Hadoop

Det er to parametere i $HADOOP_HOME/etc/hadoop/core-site.xml som må stilles inn-

1. 'hadoop.tmp.dir' – Brukes til å spesifisere en katalog som skal brukes av Hadoop til å lagre datafilene.

2. 'fs.default.name' – Dette spesifiserer standard filsystem.

For å angi disse parameterne, åpne core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Konfigurer Hadoop

Kopier under linjen mellom tagger

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Konfigurer Hadoop

Naviger til katalogen $HADOOP_HOME/etc/Hadoop

Konfigurer Hadoop

Lag nå katalogen nevnt i core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Konfigurer Hadoop

Gi tillatelser til katalogen

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Konfigurer Hadoop

sudo chmod 750 <Path of Directory created in above step>

Konfigurer Hadoop

Trinn 3) Kartreduser konfigurasjon

Før du begynner med disse konfigurasjonene, la oss angi HADOOP_HOME-banen

sudo gedit /etc/profile.d/hadoop.sh

Og Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Konfigurer Hadoop

Neste inn

sudo chmod +x /etc/profile.d/hadoop.sh

Konfigurer Hadoop

Gå ut av terminalen og start på nytt

Skriv echo $HADOOP_HOME. For å bekrefte banen

Konfigurer Hadoop

Kopier nå filer

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Konfigurer Hadoop

Åpne mapred-site.xml fil

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Konfigurer Hadoop

Legg til linjene med innstilling mellom tagger og

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Konfigurer Hadoop

Åpen $HADOOP_HOME/etc/hadoop/hdfs-site.xml som Nedenfor,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Konfigurer Hadoop

Legg til innstillingslinjer nedenfor mellom tagger og

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Konfigurer Hadoop

Opprett en katalog spesifisert i innstillingen ovenfor-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Konfigurer Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Konfigurer Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Konfigurer Hadoop

Trinn 4) Før vi starter Hadoop for første gang, formater HDFS med kommandoen nedenfor

$HADOOP_HOME/bin/hdfs namenode -format

Konfigurer Hadoop

Trinn 5) Start Hadoop single node cluster ved å bruke kommandoen nedenfor

$HADOOP_HOME/sbin/start-dfs.sh

En utgang av kommandoen ovenfor

Konfigurer Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Konfigurer Hadoop

Ved hjelp av 'jps' verktøy/kommando, kontroller om alle Hadoop-relaterte prosesser kjører eller ikke.

Konfigurer Hadoop

Hvis Hadoop har startet vellykket, bør en utgang av jps vise NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Trinn 6) Stopper Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Konfigurer Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Konfigurer Hadoop