Hoe Hadoop te installeren met stapsgewijze configuratie op Linux Ubuntu

In deze tutorial nemen we je stap voor stap mee door het proces om Apache Hadoop op een Linux-box te installeren (Ubuntu). Dit is een 2-delig proces

Er zijn 2 Voorwaarden

Deel 1) Download en installeer Hadoop

Stap 1) Voeg een Hadoop-systeemgebruiker toe met behulp van de onderstaande opdracht

sudo addgroup hadoop_

Download en installeer Hadoop

sudo adduser --ingroup hadoop_ hduser_

Download en installeer Hadoop

Voer uw wachtwoord, naam en andere gegevens in.

NOTITIE: Er is een mogelijkheid van de hieronder genoemde fout in dit installatie- en installatieproces.

โ€œhduser staat niet in het sudoers-bestand. Dit incident zal worden gerapporteerd.โ€

Download en installeer Hadoop

Deze fout kan worden opgelost door in te loggen als rootgebruiker

Download en installeer Hadoop

Voer het commando uit

sudo adduser hduser_ sudo

Download en installeer Hadoop

Re-login as hduser_

Download en installeer Hadoop

Stap 2) SSH configureren

Om knooppunten in een cluster te beheren, heeft Hadoop SSH-toegang nodig

Wissel eerst van gebruiker en voer de volgende opdracht in

su - hduser_

Download en installeer Hadoop

Met deze opdracht wordt een nieuwe sleutel gemaakt.

ssh-keygen -t rsa -P ""

Download en installeer Hadoop

Schakel SSH-toegang tot de lokale machine in met deze sleutel.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Download en installeer Hadoop

Test nu de SSH-installatie door verbinding te maken met localhost als 'hduser'-gebruiker.

ssh localhost

Download en installeer Hadoop

Let op: Let op: als u onderstaande foutmelding ziet als reactie op 'ssh localhost', bestaat de mogelijkheid dat SSH niet beschikbaar is op dit systeem:

Download en installeer Hadoop

Om dit op te lossen โ€“

SSH opschonen met behulp van,

sudo apt-get purge openssh-server

Het is een goede gewoonte om te zuiveren voordat u met de installatie begint

Download en installeer Hadoop

Installeer SSH met behulp van de opdracht-

sudo apt-get install openssh-server

Download en installeer Hadoop

Stap 3) De volgende stap is om Hadop downloaden

Download en installeer Hadoop

Selecteer Stabiel

Download en installeer Hadoop

Selecteer het tar.gz-bestand (niet het bestand met src)

Download en installeer Hadoop

Zodra een download is voltooid, navigeert u naar de map met het tar-bestand

Download en installeer Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Download en installeer Hadoop

Hernoem nu hadoop-2.2.0 naar hadoop

sudo mv hadoop-2.2.0 hadoop

Download en installeer Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Download en installeer Hadoop

Deel 2) Hadoop configureren

Stap 1) wijzigen ~ / .bashrc filet

Voeg de volgende regels toe aan het einde van het bestand ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Configureer Hadoop

Bron nu deze omgevingsconfiguratie met behulp van onderstaande opdracht

. ~/.bashrc

Configureer Hadoop

Stap 2) Configuraties gerelateerd aan HDFS

Set JAVA_HOME binnen bestand $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Configureer Hadoop

Configureer Hadoop

Met

Configureer Hadoop

Er zijn twee parameters in $HADOOP_HOME/etc/hadoop/core-site.xml die moeten worden ingesteld-

1. 'hadoop.tmp.dir' โ€“ Wordt gebruikt om een โ€‹โ€‹map op te geven die door Hadoop zal worden gebruikt om zijn gegevensbestanden op te slaan.

2. 'fs.default.naam' โ€“ Dit specificeert het standaardbestandssysteem.

Om deze parameters in te stellen, opent u core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Configureer Hadoop

Kopieer de onderstaande regel tussen tags

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Configureer Hadoop

Navigeer naar de map $HADOOP_HOME/etc/Hadoop

Configureer Hadoop

Maak nu de map aan die wordt vermeld in core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Configureer Hadoop

Verleen machtigingen aan de map

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Configureer Hadoop

sudo chmod 750 <Path of Directory created in above step>

Configureer Hadoop

Stap 3) Kaart Verminder configuratie

Voordat u met deze configuraties begint, moeten we het HADOOP_HOME-pad instellen

sudo gedit /etc/profile.d/hadoop.sh

En kom binnen

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Configureer Hadoop

Volgende invoer

sudo chmod +x /etc/profile.d/hadoop.sh

Configureer Hadoop

Verlaat de terminal en start opnieuw op

Typ echo $HADOOP_HOME. Om het pad te verifiรซren

Configureer Hadoop

Kopieer nu bestanden

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configureer Hadoop

Open de mapred-site.xml filet

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configureer Hadoop

Voeg onderstaande regels met instellingen toe tussen tags En

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Configureer Hadoop

Open $HADOOP_HOME/etc/hadoop/hdfs-site.xml zoals hieronder,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Configureer Hadoop

Voeg onderstaande regels met instellingen toe tussen tags En

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Configureer Hadoop

Maak een map gespecificeerd in bovenstaande instelling-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Configureer Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Configureer Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Configureer Hadoop

Stap 4) Voordat we Hadoop voor de eerste keer starten, formatteert u HDFS met behulp van onderstaande opdracht

$HADOOP_HOME/bin/hdfs namenode -format

Configureer Hadoop

Stap 5) Start Hadoop single node cluster met behulp van onderstaande opdracht

$HADOOP_HOME/sbin/start-dfs.sh

Een uitvoer van bovenstaande opdracht

Configureer Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Configureer Hadoop

gebruik 'jps' tool/opdracht, controleer of alle Hadoop-gerelateerde processen actief zijn of niet.

Configureer Hadoop

Als Hadoop succesvol is gestart, zou een uitvoer van jps NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode moeten tonen.

Stap 6) stopping Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Configureer Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Configureer Hadoop

Vat dit bericht samen met: