Як інсталювати Hadoop із покроковою конфігурацією в Linux Ubuntu

У цьому підручнику ми покроково розглянемо процес встановлення Apache Hadoop на системі Linux (Ubuntu). Це 2 частини процесу

Є 2 Передумови

Частина 1) Завантажте та встановіть Hadoop

Крок 1) Додайте користувача системи Hadoop за допомогою наведеної нижче команди

sudo addgroup hadoop_

Завантажте та встановіть Hadoop

sudo adduser --ingroup hadoop_ hduser_

Завантажте та встановіть Hadoop

Введіть пароль, ім'я та інші дані.

ПРИМІТКА: Існує ймовірність згаданої нижче помилки в цьому процесі налаштування та встановлення.

«hduser немає у файлі sudoers. Про цей інцидент буде повідомлено».

Завантажте та встановіть Hadoop

Цю помилку можна усунути, увійшовши як користувач root

Завантажте та встановіть Hadoop

Виконайте команду

sudo adduser hduser_ sudo

Завантажте та встановіть Hadoop

Re-login as hduser_

Завантажте та встановіть Hadoop

Крок 2) Налаштувати SSH

Щоб керувати вузлами в кластері, Hadoop вимагає доступу SSH

Спочатку змініть користувача, введіть таку команду

su - hduser_

Завантажте та встановіть Hadoop

Ця команда створить новий ключ.

ssh-keygen -t rsa -P ""

Завантажте та встановіть Hadoop

Увімкніть доступ SSH до локальної машини за допомогою цього ключа.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Завантажте та встановіть Hadoop

Тепер перевірте налаштування SSH, підключившись до localhost як користувач «hduser».

ssh localhost

Завантажте та встановіть Hadoop

Примітка: Будь ласка, зверніть увагу: якщо ви бачите нижче помилку у відповідь на «ssh localhost», то, можливо, SSH недоступний у цій системі-

Завантажте та встановіть Hadoop

Щоб вирішити це –

Очистити SSH за допомогою,

sudo apt-get purge openssh-server

Рекомендується очистити перед початком встановлення

Завантажте та встановіть Hadoop

Встановіть SSH за допомогою команди-

sudo apt-get install openssh-server

Завантажте та встановіть Hadoop

Крок 3) Наступний крок - це Завантажити Hadoop

Завантажте та встановіть Hadoop

Виберіть Стабільний

Завантажте та встановіть Hadoop

Виберіть файл tar.gz (не файл із src)

Завантажте та встановіть Hadoop

Після завершення завантаження перейдіть до каталогу, що містить файл tar

Завантажте та встановіть Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Завантажте та встановіть Hadoop

Тепер перейменуйте hadoop-2.2.0 на hadoop

sudo mv hadoop-2.2.0 hadoop

Завантажте та встановіть Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Завантажте та встановіть Hadoop

Частина 2) Налаштуйте Hadoop

Крок 1) Змінювати ~ / .bashrc файл

Додайте наступні рядки в кінець файлу ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Налаштувати Hadoop

Тепер створіть цю конфігурацію середовища за допомогою наведеної нижче команди

. ~/.bashrc

Налаштувати Hadoop

Крок 2) Конфігурації, пов’язані з HDFS

Установка JAVA_HOME внутрішній файл $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Налаштувати Hadoop

Налаштувати Hadoop

З

Налаштувати Hadoop

Є два параметри $HADOOP_HOME/etc/hadoop/core-site.xml які потрібно встановити-

1. 'hadoop.tmp.dir' – Використовується для визначення каталогу, який буде використовуватися Hadoop для зберігання файлів даних.

2. 'fs.default.name' – Це вказує файлову систему за замовчуванням.

Щоб встановити ці параметри, відкрийте core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Налаштувати Hadoop

Скопіюйте рядок нижче між тегами

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Налаштувати Hadoop

Перейдіть до каталогу $HADOOP_HOME/etc/Hadoop

Налаштувати Hadoop

Тепер створіть каталог, згаданий у core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Налаштувати Hadoop

Надайте дозволи на каталог

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Налаштувати Hadoop

sudo chmod 750 <Path of Directory created in above step>

Налаштувати Hadoop

Крок 3) Map Reduce Configuration

Перш ніж почати з цими налаштуваннями, давайте встановимо шлях HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

І Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Налаштувати Hadoop

Далі введіть

sudo chmod +x /etc/profile.d/hadoop.sh

Налаштувати Hadoop

Вийдіть із терміналу та перезапустіть його знову

Введіть echo $HADOOP_HOME. Щоб перевірити шлях

Налаштувати Hadoop

Тепер скопіюйте файли

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Налаштувати Hadoop

Відкрийте mapred-site.xml файл

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Налаштувати Hadoop

Додайте нижче рядки налаштувань між тегами і

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Налаштувати Hadoop

відкритий $HADOOP_HOME/etc/hadoop/hdfs-site.xml як зазначено нижче,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Налаштувати Hadoop

Додайте нижче рядки налаштувань між тегами і

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Налаштувати Hadoop

Створіть каталог, указаний у налаштуванні вище-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Налаштувати Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Налаштувати Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Налаштувати Hadoop

Крок 4) Перш ніж запускати Hadoop вперше, відформатуйте HDFS за допомогою наведеної нижче команди

$HADOOP_HOME/bin/hdfs namenode -format

Налаштувати Hadoop

Крок 5) Запустіть одновузловий кластер Hadoop за допомогою наведеної нижче команди

$HADOOP_HOME/sbin/start-dfs.sh

Вихід команди вище

Налаштувати Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Налаштувати Hadoop

використання 'jps' інструмент/команда, перевірте, чи всі пов’язані з Hadoop процеси запущені чи ні.

Налаштувати Hadoop

Якщо Hadoop запущено успішно, вихід jps має відображати NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Крок 6) Зупинка Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Налаштувати Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Налаштувати Hadoop