Как установить Hadoop с пошаговой настройкой в ​​Linux Ubuntu

В этом руководстве мы шаг за шагом проведем вас через процесс установки Apache Hadoop на Linux-компьютере (Ubuntu). Это двухэтапный процесс

Есть две разные Предпосылки

Часть 1) Загрузите и установите Hadoop

Шаг 1) Добавьте пользователя системы Hadoop, используя команду ниже

sudo addgroup hadoop_

Загрузите и установите Hadoop

sudo adduser --ingroup hadoop_ hduser_

Загрузите и установите Hadoop

Введите свой пароль, имя и другие данные.

ПРИМЕЧАНИЕ: В процессе установки и установки существует вероятность возникновения описанной ниже ошибки.

«hduser отсутствует в файле sudoers. Об этом инциденте будет сообщено».

Загрузите и установите Hadoop

Эту ошибку можно устранить, войдя в систему как пользователь root.

Загрузите и установите Hadoop

Выполнить команду

sudo adduser hduser_ sudo

Загрузите и установите Hadoop

Re-login as hduser_

Загрузите и установите Hadoop

Шаг 2) Настроить SSH

Для управления узлами в кластере Hadoop требуется доступ по SSH.

Сначала смените пользователя, введите следующую команду

su - hduser_

Загрузите и установите Hadoop

Эта команда создаст новый ключ.

ssh-keygen -t rsa -P ""

Загрузите и установите Hadoop

Включите SSH-доступ к локальному компьютеру с помощью этого ключа.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Загрузите и установите Hadoop

Теперь проверьте настройку SSH, подключившись к локальному хосту как пользователь «hduser».

ssh localhost

Загрузите и установите Hadoop

Примечание: Обратите внимание: если вы видите ошибку ниже в ответ на «ssh localhost», то есть вероятность, что SSH недоступен в этой системе.

Загрузите и установите Hadoop

Чтобы решить эту проблему –

Очистите SSH с помощью,

sudo apt-get purge openssh-server

Рекомендуется выполнить очистку перед началом установки.

Загрузите и установите Hadoop

Установите SSH с помощью команды:

sudo apt-get install openssh-server

Загрузите и установите Hadoop

Шаг 3) Следующий шаг - Скачать Hadoop

Загрузите и установите Hadoop

Выберите стабильную

Загрузите и установите Hadoop

Выберите файл tar.gz (а не файл с src).

Загрузите и установите Hadoop

После завершения загрузки перейдите в каталог, содержащий tar-файл.

Загрузите и установите Hadoop

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Загрузите и установите Hadoop

Теперь переименуйте Hadoop-2.2.0 в Hadoop.

sudo mv hadoop-2.2.0 hadoop

Загрузите и установите Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Загрузите и установите Hadoop

Часть 2) Настройка Hadoop

Шаг 1) Изменить ~ / .bashrc файл

Добавьте следующие строки в конец файла ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Настроить Hadoop

Теперь создайте эту конфигурацию среды, используя команду ниже.

. ~/.bashrc

Настроить Hadoop

Шаг 2) Конфигурации, связанные с HDFS

Поставьте JAVA_HOME внутри файла $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Настроить Hadoop

Настроить Hadoop

В

Настроить Hadoop

Есть два параметра в $HADOOP_HOME/etc/hadoop/core-site.xml которые необходимо установить-

1. 'hadoop.tmp.dir' – Используется для указания каталога, который будет использоваться Hadoop для хранения файлов данных.

2. 'fs.default.name' – Это определяет файловую систему по умолчанию.

Чтобы установить эти параметры, откройте core-site.xml.

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Настроить Hadoop

Скопировать строку ниже между тегами

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Настроить Hadoop

Перейти в каталог $HADOOP_HOME/etc/Hadoop

Настроить Hadoop

Теперь создайте каталог, упомянутый в core-site.xml.

sudo mkdir -p <Path of Directory used in above setting>

Настроить Hadoop

Предоставить разрешения для каталога

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Настроить Hadoop

sudo chmod 750 <Path of Directory created in above step>

Настроить Hadoop

Шаг 3) Карта сокращения конфигурации

Прежде чем приступить к этим конфигурациям, давайте установим путь HADOOP_HOME.

sudo gedit /etc/profile.d/hadoop.sh

и введите

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Настроить Hadoop

Далее введите

sudo chmod +x /etc/profile.d/hadoop.sh

Настроить Hadoop

Выйдите из терминала и перезапустите снова

Введите echo $HADOOP_HOME. Чтобы проверить путь

Настроить Hadoop

Теперь скопируйте файлы

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Настроить Hadoop

Откройте приложение сопоставленный-site.xml файл

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Настроить Hadoop

Добавьте ниже строки настроек между тегами и

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Настроить Hadoop

Откройте $HADOOP_HOME/etc/hadoop/hdfs-site.xml как показано ниже,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Настроить Hadoop

Добавьте ниже строки настроек между тегами и

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Настроить Hadoop

Создайте каталог, указанный в настройке выше:

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Настроить Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Настроить Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Настроить Hadoop

Шаг 4) Прежде чем мы запустим Hadoop в первый раз, отформатируйте HDFS, используя команду ниже.

$HADOOP_HOME/bin/hdfs namenode -format

Настроить Hadoop

Шаг 5) Запустите кластер Hadoop с одним узлом, используя команду ниже.

$HADOOP_HOME/sbin/start-dfs.sh

Вывод приведенной выше команды

Настроить Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Настроить Hadoop

. 'джпс' инструмент/команда, проверьте, запущены ли все процессы, связанные с Hadoop, или нет.

Настроить Hadoop

Если Hadoop запустился успешно, в выводе jps должны появиться NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Шаг 6) Остановка Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Настроить Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Настроить Hadoop