Jak zainstalować Hadoop z konfiguracją krok po kroku w systemie Linux Ubuntu
W tym samouczku przeprowadzimy Cię krok po kroku przez proces instalacji Apache Hadoop na komputerze z systemem Linux (Ubuntu). Jest to proces dwuczęściowy
Istnieje 2 Wymagania wstępne
- Musisz mieć Ubuntu zainstalowany i bieganie
- Musisz mieć Java Zainstalowany.
Część 1) Pobierz i zainstaluj Hadoop
Krok 1) Dodaj użytkownika systemu Hadoop za pomocą poniższego polecenia
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Wprowadź swoje hasło, imię i inne dane.
UWAGA: Istnieje możliwość wystąpienia niżej wymienionego błędu w procesie konfiguracji i instalacji.
„hduser nie znajduje się w pliku sudoers. Zdarzenie to zostanie zgłoszone.”
Ten błąd można rozwiązać, logując się jako użytkownik root
Wykonaj polecenie
sudo adduser hduser_ sudo
Re-login as hduser_
Krok 2) Skonfiguruj SSH
Aby zarządzać węzłami w klastrze, Hadoop wymaga dostępu SSH
Najpierw zmień użytkownika i wprowadź następujące polecenie
su - hduser_
To polecenie utworzy nowy klucz.
ssh-keygen -t rsa -P ""
Włącz dostęp SSH do komputera lokalnego za pomocą tego klucza.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Teraz przetestuj konfigurację SSH, łącząc się z localhost jako użytkownik „hduser”.
ssh localhost
Uwaga: Pamiętaj, że jeśli w odpowiedzi na „ssh localhost” zobaczysz poniższy błąd, istnieje możliwość, że protokół SSH nie jest dostępny w tym systemie-
Aby rozwiązać ten problem –
Usuń SSH za pomocą,
sudo apt-get purge openssh-server
Dobrą praktyką jest oczyszczenie przed rozpoczęciem instalacji
Zainstaluj SSH za pomocą polecenia-
sudo apt-get install openssh-server
Krok 3) Następnym krokiem jest Pobierz Hadoopa
Wybierz Stabilny
Wybierz plik tar.gz (nie plik z src)
Po zakończeniu pobierania przejdź do katalogu zawierającego plik tar
Enter
sudo tar xzf hadoop-2.2.0.tar.gz
Teraz zmień nazwę hadoop-2.2.0 na hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Część 2) Skonfiguruj Hadoop
Krok 1) modyfikować ~ / .bashrc filet
Dodaj następujące linie na końcu pliku ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Teraz pobierz tę konfigurację środowiska za pomocą poniższego polecenia
. ~/.bashrc
Krok 2) Konfiguracje związane z HDFS
Zestaw JAVA_HOME wewnątrz pliku $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Wraz z
Znajdują się w nim dwa parametry $HADOOP_HOME/etc/hadoop/core-site.xml które należy ustawić-
1. „hadoop.tmp.dir” – Służy do określenia katalogu, który będzie używany przez Hadoop do przechowywania plików danych.
2. 'fs.domyślna.nazwa' – Określa domyślny system plików.
Aby ustawić te parametry, otwórz plik core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Skopiuj poniższy wiersz pomiędzy tagami
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Przejdź do katalogu $HADOOP_HOME/etc/Hadoop
Teraz utwórz katalog wymieniony w core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Nadaj uprawnienia do katalogu
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Krok 3) Mapa Zmniejsz konfigurację
Zanim zaczniesz od tych konfiguracji, ustawmy ścieżkę HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
I wejdź
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Dalej wejdź
sudo chmod +x /etc/profile.d/hadoop.sh
Wyjdź z terminala i uruchom ponownie ponownie
Wpisz echo $HADOOP_HOME. Aby zweryfikować ścieżkę
Teraz skopiuj pliki
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Otwórz mapred-site.xml filet
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Dodaj poniższe linie ustawień pomiędzy tagami I
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Otwarte $HADOOP_HOME/etc/hadoop/hdfs-site.xml jak poniżej,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Dodaj poniższe linie ustawień pomiędzy tagami I
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Utwórz katalog określony w powyższym ustawieniu-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Krok 4) Zanim po raz pierwszy uruchomimy Hadoop, sformatuj HDFS za pomocą poniższego polecenia
$HADOOP_HOME/bin/hdfs namenode -format
Krok 5) Uruchom klaster jednowęzłowy Hadoop za pomocą poniższego polecenia
$HADOOP_HOME/sbin/start-dfs.sh
Wynik powyższego polecenia
$HADOOP_HOME/sbin/start-yarn.sh
Korzystanie z „jps” narzędzie/polecenie, sprawdź, czy wszystkie procesy związane z Hadoopem są uruchomione, czy nie.
Jeśli Hadoop został uruchomiony pomyślnie, wynik jps powinien pokazywać NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Krok 6) Zatrzymywanie Hadoopa
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh