Hoe Hadoop te installeren met stapsgewijze configuratie op Linux Ubuntu

In deze tutorial nemen we je stap voor stap mee door het proces om Apache Hadoop op een Linux-box te installeren (Ubuntu). Dit is een 2-delig proces

Er zijn 2 Voorwaarden

Deel 1) Download en installeer Hadoop

Stap 1) Voeg een Hadoop-systeemgebruiker toe met behulp van de onderstaande opdracht

sudo addgroup hadoop_

Download en installeer Hadoop

sudo adduser --ingroup hadoop_ hduser_

Download en installeer Hadoop

Voer uw wachtwoord, naam en andere gegevens in.

NOTITIE: Er is een mogelijkheid van de hieronder genoemde fout in dit installatie- en installatieproces.

“hduser staat niet in het sudoers-bestand. Dit incident zal worden gerapporteerd.”

Download en installeer Hadoop

Deze fout kan worden opgelost door in te loggen als rootgebruiker

Download en installeer Hadoop

Voer het commando uit

sudo adduser hduser_ sudo

Download en installeer Hadoop

Re-login as hduser_

Download en installeer Hadoop

Stap 2) SSH configureren

Om knooppunten in een cluster te beheren, heeft Hadoop SSH-toegang nodig

Wissel eerst van gebruiker en voer de volgende opdracht in

su - hduser_

Download en installeer Hadoop

Met deze opdracht wordt een nieuwe sleutel gemaakt.

ssh-keygen -t rsa -P ""

Download en installeer Hadoop

Schakel SSH-toegang tot de lokale machine in met deze sleutel.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Download en installeer Hadoop

Test nu de SSH-installatie door verbinding te maken met localhost als 'hduser'-gebruiker.

ssh localhost

Download en installeer Hadoop

Opmerking: Let op: als u onderstaande foutmelding ziet als reactie op 'ssh localhost', bestaat de mogelijkheid dat SSH niet beschikbaar is op dit systeem:

Download en installeer Hadoop

Om dit op te lossen –

SSH opschonen met behulp van,

sudo apt-get purge openssh-server

Het is een goede gewoonte om te zuiveren voordat u met de installatie begint

Download en installeer Hadoop

Installeer SSH met behulp van de opdracht-

sudo apt-get install openssh-server

Download en installeer Hadoop

Stap 3) De volgende stap is om Hadop downloaden

Download en installeer Hadoop

Selecteer Stabiel

Download en installeer Hadoop

Selecteer het tar.gz-bestand (niet het bestand met src)

Download en installeer Hadoop

Zodra een download is voltooid, navigeert u naar de map met het tar-bestand

Download en installeer Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Download en installeer Hadoop

Hernoem nu hadoop-2.2.0 naar hadoop

sudo mv hadoop-2.2.0 hadoop

Download en installeer Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Download en installeer Hadoop

Deel 2) Hadoop configureren

Stap 1) wijzigen ~ / .bashrc filet

Voeg de volgende regels toe aan het einde van het bestand ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Configureer Hadoop

Bron nu deze omgevingsconfiguratie met behulp van onderstaande opdracht

. ~/.bashrc

Configureer Hadoop

Stap 2) Configuraties gerelateerd aan HDFS

Zet de JAVA_HOME binnen bestand $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Configureer Hadoop

Configureer Hadoop

met

Configureer Hadoop

Er zijn twee parameters in $HADOOP_HOME/etc/hadoop/core-site.xml die moeten worden ingesteld-

1. 'hadoop.tmp.dir' – Wordt gebruikt om een ​​map op te geven die door Hadoop zal worden gebruikt om zijn gegevensbestanden op te slaan.

2. 'fs.default.naam' – Dit specificeert het standaardbestandssysteem.

Om deze parameters in te stellen, opent u core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Configureer Hadoop

Kopieer de onderstaande regel tussen tags

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Configureer Hadoop

Navigeer naar de map $HADOOP_HOME/etc/Hadoop

Configureer Hadoop

Maak nu de map aan die wordt vermeld in core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Configureer Hadoop

Verleen machtigingen aan de map

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Configureer Hadoop

sudo chmod 750 <Path of Directory created in above step>

Configureer Hadoop

Stap 3) Kaart Verminder configuratie

Voordat u met deze configuraties begint, moeten we het HADOOP_HOME-pad instellen

sudo gedit /etc/profile.d/hadoop.sh

En kom binnen

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Configureer Hadoop

Volgende invoer

sudo chmod +x /etc/profile.d/hadoop.sh

Configureer Hadoop

Verlaat de terminal en start opnieuw op

Typ echo $HADOOP_HOME. Om het pad te verifiëren

Configureer Hadoop

Kopieer nu bestanden

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configureer Hadoop

Open de mapred-site.xml filet

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configureer Hadoop

Voeg onderstaande regels met instellingen toe tussen tags En

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Configureer Hadoop

Open $HADOOP_HOME/etc/hadoop/hdfs-site.xml zoals hieronder,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Configureer Hadoop

Voeg onderstaande regels met instellingen toe tussen tags En

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Configureer Hadoop

Maak een map gespecificeerd in bovenstaande instelling-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Configureer Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Configureer Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Configureer Hadoop

Stap 4) Voordat we Hadoop voor de eerste keer starten, formatteert u HDFS met behulp van onderstaande opdracht

$HADOOP_HOME/bin/hdfs namenode -format

Configureer Hadoop

Stap 5) Start Hadoop single node cluster met behulp van onderstaande opdracht

$HADOOP_HOME/sbin/start-dfs.sh

Een uitvoer van bovenstaande opdracht

Configureer Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Configureer Hadoop

gebruik 'jps' tool/opdracht, controleer of alle Hadoop-gerelateerde processen actief zijn of niet.

Configureer Hadoop

Als Hadoop succesvol is gestart, zou een uitvoer van jps NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode moeten tonen.

Stap 6) Hadoop stoppen

$HADOOP_HOME/sbin/stop-dfs.sh

Configureer Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Configureer Hadoop