Как установить Hadoop с пошаговой настройкой в Linux Ubuntu
В этом руководстве мы шаг за шагом проведем вас через процесс установки Apache Hadoop на Linux-компьютере (Ubuntu). Это двухэтапный процесс
Есть две разные Предпосылки
- Вы должны иметь Ubuntu установлен и работает
- Вы должны иметь Java Установлен.
Часть 1) Загрузите и установите Hadoop
Шаг 1) Добавьте пользователя системы Hadoop, используя команду ниже
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Введите свой пароль, имя и другие данные.
ПРИМЕЧАНИЕ: В процессе установки и установки существует вероятность возникновения описанной ниже ошибки.
«hduser отсутствует в файле sudoers. Об этом инциденте будет сообщено».
Эту ошибку можно устранить, войдя в систему как пользователь root.
Выполнить команду
sudo adduser hduser_ sudo
Re-login as hduser_
Шаг 2) Настроить SSH
Для управления узлами в кластере Hadoop требуется доступ по SSH.
Сначала смените пользователя, введите следующую команду
su - hduser_
Эта команда создаст новый ключ.
ssh-keygen -t rsa -P ""
Включите SSH-доступ к локальному компьютеру с помощью этого ключа.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Теперь проверьте настройку SSH, подключившись к локальному хосту как пользователь «hduser».
ssh localhost
Примечание: Обратите внимание: если вы видите ошибку ниже в ответ на «ssh localhost», то есть вероятность, что SSH недоступен в этой системе.
Чтобы решить эту проблему –
Очистите SSH с помощью,
sudo apt-get purge openssh-server
Рекомендуется выполнить очистку перед началом установки.
Установите SSH с помощью команды:
sudo apt-get install openssh-server
Шаг 3) Следующий шаг - Скачать Hadoop
Выберите стабильную
Выберите файл tar.gz (а не файл с src).
После завершения загрузки перейдите в каталог, содержащий tar-файл.
Enter,
sudo tar xzf hadoop-2.2.0.tar.gz
Теперь переименуйте Hadoop-2.2.0 в Hadoop.
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Часть 2) Настройка Hadoop
Шаг 1) Изменить ~ / .bashrc файл
Добавьте следующие строки в конец файла ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Теперь создайте эту конфигурацию среды, используя команду ниже.
. ~/.bashrc
Шаг 2) Конфигурации, связанные с HDFS
Поставьте JAVA_HOME внутри файла $HADOOP_HOME/etc/hadoop/hadoop-env.sh
В
Есть два параметра в $HADOOP_HOME/etc/hadoop/core-site.xml которые необходимо установить-
1. 'hadoop.tmp.dir' – Используется для указания каталога, который будет использоваться Hadoop для хранения файлов данных.
2. 'fs.default.name' – Это определяет файловую систему по умолчанию.
Чтобы установить эти параметры, откройте core-site.xml.
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Скопировать строку ниже между тегами
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Перейти в каталог $HADOOP_HOME/etc/Hadoop
Теперь создайте каталог, упомянутый в core-site.xml.
sudo mkdir -p <Path of Directory used in above setting>
Предоставить разрешения для каталога
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Шаг 3) Карта сокращения конфигурации
Прежде чем приступить к этим конфигурациям, давайте установим путь HADOOP_HOME.
sudo gedit /etc/profile.d/hadoop.sh
и введите
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Далее введите
sudo chmod +x /etc/profile.d/hadoop.sh
Выйдите из терминала и перезапустите снова
Введите echo $HADOOP_HOME. Чтобы проверить путь
Теперь скопируйте файлы
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Откройте приложение сопоставленный-site.xml файл
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Добавьте ниже строки настроек между тегами и
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Откройте $HADOOP_HOME/etc/hadoop/hdfs-site.xml как показано ниже,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Добавьте ниже строки настроек между тегами и
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Создайте каталог, указанный в настройке выше:
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Шаг 4) Прежде чем мы запустим Hadoop в первый раз, отформатируйте HDFS, используя команду ниже.
$HADOOP_HOME/bin/hdfs namenode -format
Шаг 5) Запустите кластер Hadoop с одним узлом, используя команду ниже.
$HADOOP_HOME/sbin/start-dfs.sh
Вывод приведенной выше команды
$HADOOP_HOME/sbin/start-yarn.sh
. 'джпс' инструмент/команда, проверьте, запущены ли все процессы, связанные с Hadoop, или нет.
Если Hadoop запустился успешно, в выводе jps должны появиться NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Шаг 6) Остановка Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh