Come installare Hadoop con la configurazione passo passo su Linux Ubuntu
In questo tutorial, ti guideremo passo dopo passo attraverso il processo per installare Apache Hadoop su un box Linux (Ubuntu). Questo รจ un processo in 2 parti
Ci sono 2 Prerequisiti
- ร necessario disporre di Ubuntu installato e in esecuzione
- ร necessario disporre di Java Installato.
Parte 1) Scarica e installa Hadoop
Passo 1) Aggiungi un utente del sistema Hadoop utilizzando il comando seguente
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Inserisci la tua password, il tuo nome e altri dettagli.
NOTA: Esiste la possibilitร che si verifichi l'errore indicato di seguito in questo processo di configurazione e installazione.
โhduser non รจ nel file sudoers. Questo incidente verrร segnalatoโ.
Questo errore puรฒ essere risolto accedendo come utente root
Esegui il comando
sudo adduser hduser_ sudo
Re-login as hduser_
Passo 2) Configura SSH
Per gestire i nodi in un cluster, Hadoop richiede l'accesso SSH
Per prima cosa, cambia utente, immetti il โโseguente comando
su - hduser_
Questo comando creerร una nuova chiave.
ssh-keygen -t rsa -P ""
Abilita l'accesso SSH al computer locale utilizzando questa chiave.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Ora prova la configurazione SSH connettendoti a localhost come utente "hduser".
ssh localhost
Nota: Tieni presente che se vedi l'errore di seguito in risposta a "ssh localhost", esiste la possibilitร che SSH non sia disponibile su questo sistema-
Per risolvere questo โ
Elimina SSH utilizzando,
sudo apt-get purge openssh-server
ร buona norma eseguire l'eliminazione prima dell'inizio dell'installazione
Installa SSH usando il comando-
sudo apt-get install openssh-server
Passo 3) Il prossimo passo รจ Scarica Hadoop
Seleziona Stabile
Seleziona il file tar.gz (non il file con src)
Una volta completato il download, vai alla directory contenente il file tar
Enter,
sudo tar xzf hadoop-2.2.0.tar.gz
Ora, rinomina hadoop-2.2.0 come hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Parte 2) Configurare Hadoop
Passo 1) modificare ~ / .bashrc filetto
Aggiungere le seguenti righe alla fine del file ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Ora, ottieni la configurazione di questo ambiente utilizzando il comando seguente
. ~/.bashrc
Passo 2) Configurazioni relative a HDFS
Impostato JAVA_HOME file interno $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Con
Sono presenti due parametri $HADOOP_HOME/etc/hadoop/core-site.xml che devono essere impostati-
1. 'hadoop.tmp.dir' โ Utilizzato per specificare una directory che verrร utilizzata da Hadoop per archiviare i propri file di dati.
2. 'fs.default.nome' โ Questo specifica il file system predefinito.
Per impostare questi parametri, aprire core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copia la riga sottostante tra i tag
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Passare alla directory $HADOOP_HOME/etc/Hadoop
Ora crea la directory menzionata in core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Concedere le autorizzazioni alla directory
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Passo 3) Mappa Riduci configurazione
Prima di iniziare con queste configurazioni, impostiamo il percorso HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Ed entra
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Avanti entra
sudo chmod +x /etc/profile.d/hadoop.sh
Uscire dal Terminale e riavviare di nuovo
Digita echo $HADOOP_HOME. Per verificare il percorso
Ora copia i file
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Aprire il sito-mapred.xml filetto
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Aggiungi le righe di impostazione sottostanti tra i tag E
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Apri $HADOOP_HOME/etc/hadoop/hdfs-site.xml come sotto,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Aggiungi sotto le righe di impostazione tra i tag E
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Crea una directory specificata nell'impostazione precedente-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Passo 4) Prima di avviare Hadoop per la prima volta, formatta HDFS utilizzando il comando seguente
$HADOOP_HOME/bin/hdfs namenode -format
Passo 5) Avvia il cluster Hadoop a nodo singolo utilizzando il comando seguente
$HADOOP_HOME/sbin/start-dfs.sh
Un output del comando precedente
$HADOOP_HOME/sbin/start-yarn.sh
utilizzando 'jps' strumento/comando, verificare se tutti i processi correlati a Hadoop sono in esecuzione o meno.
Se Hadoop รจ stato avviato correttamente, un output di jps dovrebbe mostrare NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Passo 6) Fermareping Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh





























