Come installare Hadoop con la configurazione passo passo su Linux Ubuntu

In questo tutorial, ti guideremo passo dopo passo attraverso il processo per installare Apache Hadoop su un box Linux (Ubuntu). Questo รจ un processo in 2 parti

Ci sono 2 Prerequisiti

Parte 1) Scarica e installa Hadoop

Passo 1) Aggiungi un utente del sistema Hadoop utilizzando il comando seguente

sudo addgroup hadoop_

Scarica e installa Hadoop

sudo adduser --ingroup hadoop_ hduser_

Scarica e installa Hadoop

Inserisci la tua password, il tuo nome e altri dettagli.

NOTA: Esiste la possibilitร  che si verifichi l'errore indicato di seguito in questo processo di configurazione e installazione.

โ€œhduser non รจ nel file sudoers. Questo incidente verrร  segnalatoโ€.

Scarica e installa Hadoop

Questo errore puรฒ essere risolto accedendo come utente root

Scarica e installa Hadoop

Esegui il comando

sudo adduser hduser_ sudo

Scarica e installa Hadoop

Re-login as hduser_

Scarica e installa Hadoop

Passo 2) Configura SSH

Per gestire i nodi in un cluster, Hadoop richiede l'accesso SSH

Per prima cosa, cambia utente, immetti il โ€‹โ€‹seguente comando

su - hduser_

Scarica e installa Hadoop

Questo comando creerร  una nuova chiave.

ssh-keygen -t rsa -P ""

Scarica e installa Hadoop

Abilita l'accesso SSH al computer locale utilizzando questa chiave.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Scarica e installa Hadoop

Ora prova la configurazione SSH connettendoti a localhost come utente "hduser".

ssh localhost

Scarica e installa Hadoop

Nota: Tieni presente che se vedi l'errore di seguito in risposta a "ssh localhost", esiste la possibilitร  che SSH non sia disponibile su questo sistema-

Scarica e installa Hadoop

Per risolvere questo โ€“

Elimina SSH utilizzando,

sudo apt-get purge openssh-server

รˆ buona norma eseguire l'eliminazione prima dell'inizio dell'installazione

Scarica e installa Hadoop

Installa SSH usando il comando-

sudo apt-get install openssh-server

Scarica e installa Hadoop

Passo 3) Il prossimo passo รจ Scarica Hadoop

Scarica e installa Hadoop

Seleziona Stabile

Scarica e installa Hadoop

Seleziona il file tar.gz (non il file con src)

Scarica e installa Hadoop

Una volta completato il download, vai alla directory contenente il file tar

Scarica e installa Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Scarica e installa Hadoop

Ora, rinomina hadoop-2.2.0 come hadoop

sudo mv hadoop-2.2.0 hadoop

Scarica e installa Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Scarica e installa Hadoop

Parte 2) Configurare Hadoop

Passo 1) modificare ~ / .bashrc filetto

Aggiungere le seguenti righe alla fine del file ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Configura Hadoop

Ora, ottieni la configurazione di questo ambiente utilizzando il comando seguente

. ~/.bashrc

Configura Hadoop

Passo 2) Configurazioni relative a HDFS

Impostato JAVA_HOME file interno $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Configura Hadoop

Configura Hadoop

Con

Configura Hadoop

Sono presenti due parametri $HADOOP_HOME/etc/hadoop/core-site.xml che devono essere impostati-

1. 'hadoop.tmp.dir' โ€“ Utilizzato per specificare una directory che verrร  utilizzata da Hadoop per archiviare i propri file di dati.

2. 'fs.default.nome' โ€“ Questo specifica il file system predefinito.

Per impostare questi parametri, aprire core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Configura Hadoop

Copia la riga sottostante tra i tag

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Configura Hadoop

Passare alla directory $HADOOP_HOME/etc/Hadoop

Configura Hadoop

Ora crea la directory menzionata in core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Configura Hadoop

Concedere le autorizzazioni alla directory

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Configura Hadoop

sudo chmod 750 <Path of Directory created in above step>

Configura Hadoop

Passo 3) Mappa Riduci configurazione

Prima di iniziare con queste configurazioni, impostiamo il percorso HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Ed entra

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Configura Hadoop

Avanti entra

sudo chmod +x /etc/profile.d/hadoop.sh

Configura Hadoop

Uscire dal Terminale e riavviare di nuovo

Digita echo $HADOOP_HOME. Per verificare il percorso

Configura Hadoop

Ora copia i file

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configura Hadoop

Aprire il sito-mapred.xml filetto

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Configura Hadoop

Aggiungi le righe di impostazione sottostanti tra i tag E

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Configura Hadoop

Apri $HADOOP_HOME/etc/hadoop/hdfs-site.xml come sotto,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Configura Hadoop

Aggiungi sotto le righe di impostazione tra i tag E

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Configura Hadoop

Crea una directory specificata nell'impostazione precedente-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Configura Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Configura Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Configura Hadoop

Passo 4) Prima di avviare Hadoop per la prima volta, formatta HDFS utilizzando il comando seguente

$HADOOP_HOME/bin/hdfs namenode -format

Configura Hadoop

Passo 5) Avvia il cluster Hadoop a nodo singolo utilizzando il comando seguente

$HADOOP_HOME/sbin/start-dfs.sh

Un output del comando precedente

Configura Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Configura Hadoop

utilizzando 'jps' strumento/comando, verificare se tutti i processi correlati a Hadoop sono in esecuzione o meno.

Configura Hadoop

Se Hadoop รจ stato avviato correttamente, un output di jps dovrebbe mostrare NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Passo 6) Fermareping Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Configura Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Configura Hadoop

Riassumi questo post con: