Hoe Hadoop te installeren met stapsgewijze configuratie op Linux Ubuntu
In deze tutorial nemen we je stap voor stap mee door het proces om Apache Hadoop op een Linux-box te installeren (Ubuntu). Dit is een 2-delig proces
Er zijn 2 Voorwaarden
- U moet beschikken over Ubuntu geïnstalleerd en rennen
- U moet beschikken over Java Geïnstalleerd.
Deel 1) Download en installeer Hadoop
Stap 1) Voeg een Hadoop-systeemgebruiker toe met behulp van de onderstaande opdracht
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Voer uw wachtwoord, naam en andere gegevens in.
NOTITIE: Er is een mogelijkheid van de hieronder genoemde fout in dit installatie- en installatieproces.
“hduser staat niet in het sudoers-bestand. Dit incident zal worden gerapporteerd.”
Deze fout kan worden opgelost door in te loggen als rootgebruiker
Voer het commando uit
sudo adduser hduser_ sudo
Re-login as hduser_
Stap 2) SSH configureren
Om knooppunten in een cluster te beheren, heeft Hadoop SSH-toegang nodig
Wissel eerst van gebruiker en voer de volgende opdracht in
su - hduser_
Met deze opdracht wordt een nieuwe sleutel gemaakt.
ssh-keygen -t rsa -P ""
Schakel SSH-toegang tot de lokale machine in met deze sleutel.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Test nu de SSH-installatie door verbinding te maken met localhost als 'hduser'-gebruiker.
ssh localhost
Opmerking: Let op: als u onderstaande foutmelding ziet als reactie op 'ssh localhost', bestaat de mogelijkheid dat SSH niet beschikbaar is op dit systeem:
Om dit op te lossen –
SSH opschonen met behulp van,
sudo apt-get purge openssh-server
Het is een goede gewoonte om te zuiveren voordat u met de installatie begint
Installeer SSH met behulp van de opdracht-
sudo apt-get install openssh-server
Stap 3) De volgende stap is om Hadop downloaden
Selecteer Stabiel
Selecteer het tar.gz-bestand (niet het bestand met src)
Zodra een download is voltooid, navigeert u naar de map met het tar-bestand
Enter,
sudo tar xzf hadoop-2.2.0.tar.gz
Hernoem nu hadoop-2.2.0 naar hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Deel 2) Hadoop configureren
Stap 1) wijzigen ~ / .bashrc filet
Voeg de volgende regels toe aan het einde van het bestand ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Bron nu deze omgevingsconfiguratie met behulp van onderstaande opdracht
. ~/.bashrc
Stap 2) Configuraties gerelateerd aan HDFS
Zet de JAVA_HOME binnen bestand $HADOOP_HOME/etc/hadoop/hadoop-env.sh
met
Er zijn twee parameters in $HADOOP_HOME/etc/hadoop/core-site.xml die moeten worden ingesteld-
1. 'hadoop.tmp.dir' – Wordt gebruikt om een map op te geven die door Hadoop zal worden gebruikt om zijn gegevensbestanden op te slaan.
2. 'fs.default.naam' – Dit specificeert het standaardbestandssysteem.
Om deze parameters in te stellen, opent u core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Kopieer de onderstaande regel tussen tags
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Navigeer naar de map $HADOOP_HOME/etc/Hadoop
Maak nu de map aan die wordt vermeld in core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Verleen machtigingen aan de map
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Stap 3) Kaart Verminder configuratie
Voordat u met deze configuraties begint, moeten we het HADOOP_HOME-pad instellen
sudo gedit /etc/profile.d/hadoop.sh
En kom binnen
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Volgende invoer
sudo chmod +x /etc/profile.d/hadoop.sh
Verlaat de terminal en start opnieuw op
Typ echo $HADOOP_HOME. Om het pad te verifiëren
Kopieer nu bestanden
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Open de mapred-site.xml filet
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Voeg onderstaande regels met instellingen toe tussen tags En
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Open $HADOOP_HOME/etc/hadoop/hdfs-site.xml zoals hieronder,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Voeg onderstaande regels met instellingen toe tussen tags En
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Maak een map gespecificeerd in bovenstaande instelling-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Stap 4) Voordat we Hadoop voor de eerste keer starten, formatteert u HDFS met behulp van onderstaande opdracht
$HADOOP_HOME/bin/hdfs namenode -format
Stap 5) Start Hadoop single node cluster met behulp van onderstaande opdracht
$HADOOP_HOME/sbin/start-dfs.sh
Een uitvoer van bovenstaande opdracht
$HADOOP_HOME/sbin/start-yarn.sh
gebruik 'jps' tool/opdracht, controleer of alle Hadoop-gerelateerde processen actief zijn of niet.
Als Hadoop succesvol is gestart, zou een uitvoer van jps NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode moeten tonen.
Stap 6) Hadoop stoppen
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh