Hvordan installere Hadoop med trinnvis konfigurasjon på Linux Ubuntu
I denne opplæringen tar vi deg gjennom trinnvis prosess for å installere Apache Hadoop på en Linux-boks (Ubuntu). Dette er en 2-delt prosess
Det er 2 Forutsetninger
- Du må ha Ubuntu installerte og løping
- Du må ha Java Installert.
Del 1) Last ned og installer Hadoop
Trinn 1) Legg til en Hadoop-systembruker ved å bruke kommandoen nedenfor
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Skriv inn passord, navn og andre detaljer.
NOTAT: Det er en mulighet for feil i denne oppsetts- og installasjonsprosessen nedenfor.
"hduser er ikke i sudoers-filen. Denne hendelsen vil bli rapportert."
Denne feilen kan løses ved å logge på som root-bruker
Utfør kommandoen
sudo adduser hduser_ sudo
Re-login as hduser_
Trinn 2) Konfigurer SSH
For å administrere noder i en klynge, krever Hadoop SSH-tilgang
Bytt bruker først, skriv inn følgende kommando
su - hduser_
Denne kommandoen vil opprette en ny nøkkel.
ssh-keygen -t rsa -P ""
Aktiver SSH-tilgang til lokal maskin ved hjelp av denne nøkkelen.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Test nå SSH-oppsettet ved å koble til localhost som 'hduser'-bruker.
ssh localhost
OBS: Vær oppmerksom på at hvis du ser feilen nedenfor som svar på 'ssh localhost', er det en mulighet for at SSH ikke er tilgjengelig på dette systemet-
For å løse dette –
Tøm SSH ved å bruke,
sudo apt-get purge openssh-server
Det er god praksis å rense før installasjonen starter
Installer SSH ved å bruke kommandoen-
sudo apt-get install openssh-server
Trinn 3) Neste trinn er å Last ned Hadoop
Velg Stabil
Velg tar.gz-filen (ikke filen med src)
Når en nedlasting er fullført, naviger til katalogen som inneholder tar-filen
Enter,
sudo tar xzf hadoop-2.2.0.tar.gz
Gi nytt navn til hadoop-2.2.0 til hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Del 2) Konfigurer Hadoop
Trinn 1) endre ~ / .bashrc fil
Legg til følgende linjer til slutten av filen ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Nå, kilde denne miljøkonfigurasjonen ved å bruke kommandoen nedenfor
. ~/.bashrc
Trinn 2) Konfigurasjoner relatert til HDFS
Sett Java_home. inne i filen $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Med
Det er to parametere i $HADOOP_HOME/etc/hadoop/core-site.xml som må stilles inn-
1. 'hadoop.tmp.dir' – Brukes til å spesifisere en katalog som skal brukes av Hadoop til å lagre datafilene.
2. 'fs.default.name' – Dette spesifiserer standard filsystem.
For å angi disse parameterne, åpne core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Kopier under linjen mellom tagger
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Naviger til katalogen $HADOOP_HOME/etc/Hadoop
Lag nå katalogen nevnt i core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Gi tillatelser til katalogen
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Trinn 3) Kartreduser konfigurasjon
Før du begynner med disse konfigurasjonene, la oss angi HADOOP_HOME-banen
sudo gedit /etc/profile.d/hadoop.sh
Og Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Neste inn
sudo chmod +x /etc/profile.d/hadoop.sh
Gå ut av terminalen og start på nytt
Skriv echo $HADOOP_HOME. For å bekrefte banen
Kopier nå filer
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Åpne mapred-site.xml fil
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Legg til linjene med innstilling mellom tagger og
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Åpen $HADOOP_HOME/etc/hadoop/hdfs-site.xml som Nedenfor,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Legg til innstillingslinjer nedenfor mellom tagger og
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Opprett en katalog spesifisert i innstillingen ovenfor-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Trinn 4) Før vi starter Hadoop for første gang, formater HDFS med kommandoen nedenfor
$HADOOP_HOME/bin/hdfs namenode -format
Trinn 5) Start Hadoop single node cluster ved å bruke kommandoen nedenfor
$HADOOP_HOME/sbin/start-dfs.sh
En utgang av kommandoen ovenfor
$HADOOP_HOME/sbin/start-yarn.sh
Ved hjelp av 'jps' verktøy/kommando, kontroller om alle Hadoop-relaterte prosesser kjører eller ikke.
Hvis Hadoop har startet vellykket, bør en utgang av jps vise NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Trinn 6) Stopper Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh