Jak zainstalować Hadoop z konfiguracją krok po kroku w systemie Linux Ubuntu

W tym samouczku przeprowadzimy Cię krok po kroku przez proces instalacji Apache Hadoop na komputerze z systemem Linux (Ubuntu). Jest to proces dwuczęściowy

Istnieje 2 Wymagania wstępne

Część 1) Pobierz i zainstaluj Hadoop

Krok 1) Dodaj użytkownika systemu Hadoop za pomocą poniższego polecenia

sudo addgroup hadoop_

Pobierz i zainstaluj Hadoopa

sudo adduser --ingroup hadoop_ hduser_

Pobierz i zainstaluj Hadoopa

Wprowadź swoje hasło, imię i inne dane.

UWAGA: Istnieje możliwość wystąpienia niżej wymienionego błędu w procesie konfiguracji i instalacji.

„hduser nie znajduje się w pliku sudoers. Zdarzenie to zostanie zgłoszone.”

Pobierz i zainstaluj Hadoopa

Ten błąd można rozwiązać, logując się jako użytkownik root

Pobierz i zainstaluj Hadoopa

Wykonaj polecenie

sudo adduser hduser_ sudo

Pobierz i zainstaluj Hadoopa

Re-login as hduser_

Pobierz i zainstaluj Hadoopa

Krok 2) Skonfiguruj SSH

Aby zarządzać węzłami w klastrze, Hadoop wymaga dostępu SSH

Najpierw zmień użytkownika i wprowadź następujące polecenie

su - hduser_

Pobierz i zainstaluj Hadoopa

To polecenie utworzy nowy klucz.

ssh-keygen -t rsa -P ""

Pobierz i zainstaluj Hadoopa

Włącz dostęp SSH do komputera lokalnego za pomocą tego klucza.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Pobierz i zainstaluj Hadoopa

Teraz przetestuj konfigurację SSH, łącząc się z localhost jako użytkownik „hduser”.

ssh localhost

Pobierz i zainstaluj Hadoopa

Uwaga: Pamiętaj, że jeśli w odpowiedzi na „ssh localhost” zobaczysz poniższy błąd, istnieje możliwość, że protokół SSH nie jest dostępny w tym systemie-

Pobierz i zainstaluj Hadoopa

Aby rozwiązać ten problem –

Usuń SSH za pomocą,

sudo apt-get purge openssh-server

Dobrą praktyką jest oczyszczenie przed rozpoczęciem instalacji

Pobierz i zainstaluj Hadoopa

Zainstaluj SSH za pomocą polecenia-

sudo apt-get install openssh-server

Pobierz i zainstaluj Hadoopa

Krok 3) Następnym krokiem jest Pobierz Hadoopa

Pobierz i zainstaluj Hadoopa

Wybierz Stabilny

Pobierz i zainstaluj Hadoopa

Wybierz plik tar.gz (nie plik z src)

Pobierz i zainstaluj Hadoopa

Po zakończeniu pobierania przejdź do katalogu zawierającego plik tar

Pobierz i zainstaluj Hadoopa

Enter

sudo tar xzf hadoop-2.2.0.tar.gz

Pobierz i zainstaluj Hadoopa

Teraz zmień nazwę hadoop-2.2.0 na hadoop

sudo mv hadoop-2.2.0 hadoop

Pobierz i zainstaluj Hadoopa

sudo chown -R hduser_:hadoop_ hadoop

Pobierz i zainstaluj Hadoopa

Część 2) Skonfiguruj Hadoop

Krok 1) modyfikować ~ / .bashrc filet

Dodaj następujące linie na końcu pliku ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Skonfiguruj Hadoopa

Teraz pobierz tę konfigurację środowiska za pomocą poniższego polecenia

. ~/.bashrc

Skonfiguruj Hadoopa

Krok 2) Konfiguracje związane z HDFS

Zestaw JAVA_HOME wewnątrz pliku $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Skonfiguruj Hadoopa

Skonfiguruj Hadoopa

Wraz z

Skonfiguruj Hadoopa

Znajdują się w nim dwa parametry $HADOOP_HOME/etc/hadoop/core-site.xml które należy ustawić-

1. „hadoop.tmp.dir” – Służy do określenia katalogu, który będzie używany przez Hadoop do przechowywania plików danych.

2. 'fs.domyślna.nazwa' – Określa domyślny system plików.

Aby ustawić te parametry, otwórz plik core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Skonfiguruj Hadoopa

Skopiuj poniższy wiersz pomiędzy tagami

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Skonfiguruj Hadoopa

Przejdź do katalogu $HADOOP_HOME/etc/Hadoop

Skonfiguruj Hadoopa

Teraz utwórz katalog wymieniony w core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Skonfiguruj Hadoopa

Nadaj uprawnienia do katalogu

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Skonfiguruj Hadoopa

sudo chmod 750 <Path of Directory created in above step>

Skonfiguruj Hadoopa

Krok 3) Mapa Zmniejsz konfigurację

Zanim zaczniesz od tych konfiguracji, ustawmy ścieżkę HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

I wejdź

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Skonfiguruj Hadoopa

Dalej wejdź

sudo chmod +x /etc/profile.d/hadoop.sh

Skonfiguruj Hadoopa

Wyjdź z terminala i uruchom ponownie ponownie

Wpisz echo $HADOOP_HOME. Aby zweryfikować ścieżkę

Skonfiguruj Hadoopa

Teraz skopiuj pliki

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Skonfiguruj Hadoopa

Otwórz mapred-site.xml filet

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Skonfiguruj Hadoopa

Dodaj poniższe linie ustawień pomiędzy tagami I

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Skonfiguruj Hadoopa

Otwarte $HADOOP_HOME/etc/hadoop/hdfs-site.xml jak poniżej,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Skonfiguruj Hadoopa

Dodaj poniższe linie ustawień pomiędzy tagami I

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Skonfiguruj Hadoopa

Utwórz katalog określony w powyższym ustawieniu-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Skonfiguruj Hadoopa

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Skonfiguruj Hadoopa

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Skonfiguruj Hadoopa

Krok 4) Zanim po raz pierwszy uruchomimy Hadoop, sformatuj HDFS za pomocą poniższego polecenia

$HADOOP_HOME/bin/hdfs namenode -format

Skonfiguruj Hadoopa

Krok 5) Uruchom klaster jednowęzłowy Hadoop za pomocą poniższego polecenia

$HADOOP_HOME/sbin/start-dfs.sh

Wynik powyższego polecenia

Skonfiguruj Hadoopa

$HADOOP_HOME/sbin/start-yarn.sh

Skonfiguruj Hadoopa

Korzystanie z „jps” narzędzie/polecenie, sprawdź, czy wszystkie procesy związane z Hadoopem są uruchomione, czy nie.

Skonfiguruj Hadoopa

Jeśli Hadoop został uruchomiony pomyślnie, wynik jps powinien pokazywać NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Krok 6) Zatrzymywanie Hadoopa

$HADOOP_HOME/sbin/stop-dfs.sh

Skonfiguruj Hadoopa

$HADOOP_HOME/sbin/stop-yarn.sh

Skonfiguruj Hadoopa