Як інсталювати Hadoop із покроковою конфігурацією в Linux Ubuntu
У цьому підручнику ми покроково розглянемо процес встановлення Apache Hadoop на системі Linux (Ubuntu). Це 2 частини процесу
Є 2 Передумови
- Ви повинні бути Ubuntu встановлений і біг
- Ви повинні бути Java Встановлено.
Частина 1) Завантажте та встановіть Hadoop
Крок 1) Додайте користувача системи Hadoop за допомогою наведеної нижче команди
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Введіть пароль, ім'я та інші дані.
ПРИМІТКА: Існує ймовірність згаданої нижче помилки в цьому процесі налаштування та встановлення.
«hduser немає у файлі sudoers. Про цей інцидент буде повідомлено».
Цю помилку можна усунути, увійшовши як користувач root
Виконайте команду
sudo adduser hduser_ sudo
Re-login as hduser_
Крок 2) Налаштувати SSH
Щоб керувати вузлами в кластері, Hadoop вимагає доступу SSH
Спочатку змініть користувача, введіть таку команду
su - hduser_
Ця команда створить новий ключ.
ssh-keygen -t rsa -P ""
Увімкніть доступ SSH до локальної машини за допомогою цього ключа.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Тепер перевірте налаштування SSH, підключившись до localhost як користувач «hduser».
ssh localhost
Примітка: Будь ласка, зверніть увагу: якщо ви бачите нижче помилку у відповідь на «ssh localhost», то, можливо, SSH недоступний у цій системі-
Щоб вирішити це –
Очистити SSH за допомогою,
sudo apt-get purge openssh-server
Рекомендується очистити перед початком встановлення
Встановіть SSH за допомогою команди-
sudo apt-get install openssh-server
Крок 3) Наступний крок - це Завантажити Hadoop
Виберіть Стабільний
Виберіть файл tar.gz (не файл із src)
Після завершення завантаження перейдіть до каталогу, що містить файл tar
Enter,
sudo tar xzf hadoop-2.2.0.tar.gz
Тепер перейменуйте hadoop-2.2.0 на hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Частина 2) Налаштуйте Hadoop
Крок 1) Змінювати ~ / .bashrc файл
Додайте наступні рядки в кінець файлу ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Тепер створіть цю конфігурацію середовища за допомогою наведеної нижче команди
. ~/.bashrc
Крок 2) Конфігурації, пов’язані з HDFS
Установка JAVA_HOME внутрішній файл $HADOOP_HOME/etc/hadoop/hadoop-env.sh
З
Є два параметри $HADOOP_HOME/etc/hadoop/core-site.xml які потрібно встановити-
1. 'hadoop.tmp.dir' – Використовується для визначення каталогу, який буде використовуватися Hadoop для зберігання файлів даних.
2. 'fs.default.name' – Це вказує файлову систему за замовчуванням.
Щоб встановити ці параметри, відкрийте core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Скопіюйте рядок нижче між тегами
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Перейдіть до каталогу $HADOOP_HOME/etc/Hadoop
Тепер створіть каталог, згаданий у core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Надайте дозволи на каталог
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Крок 3) Map Reduce Configuration
Перш ніж почати з цими налаштуваннями, давайте встановимо шлях HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
І Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Далі введіть
sudo chmod +x /etc/profile.d/hadoop.sh
Вийдіть із терміналу та перезапустіть його знову
Введіть echo $HADOOP_HOME. Щоб перевірити шлях
Тепер скопіюйте файли
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Відкрийте mapred-site.xml файл
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Додайте нижче рядки налаштувань між тегами і
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
відкритий $HADOOP_HOME/etc/hadoop/hdfs-site.xml як зазначено нижче,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Додайте нижче рядки налаштувань між тегами і
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Створіть каталог, указаний у налаштуванні вище-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Крок 4) Перш ніж запускати Hadoop вперше, відформатуйте HDFS за допомогою наведеної нижче команди
$HADOOP_HOME/bin/hdfs namenode -format
Крок 5) Запустіть одновузловий кластер Hadoop за допомогою наведеної нижче команди
$HADOOP_HOME/sbin/start-dfs.sh
Вихід команди вище
$HADOOP_HOME/sbin/start-yarn.sh
використання 'jps' інструмент/команда, перевірте, чи всі пов’язані з Hadoop процеси запущені чи ні.
Якщо Hadoop запущено успішно, вихід jps має відображати NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Крок 6) Зупинка Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh