Как да инсталирате Hadoop с конфигурация стъпка по стъпка на Linux Ubuntu

В този урок ще ви преведем стъпка по стъпка през процеса за инсталиране на Apache Hadoop на Linux кутия (Ubuntu). Това е процес от 2 части

Има 2 Предпоставки

Част 1) Изтеглете и инсталирайте Hadoop

Стъпка 1) Добавете системен потребител на Hadoop, като използвате командата по-долу

sudo addgroup hadoop_

Изтеглете и инсталирайте Hadoop

sudo adduser --ingroup hadoop_ hduser_

Изтеглете и инсталирайте Hadoop

Въведете вашата парола, име и други подробности.

ЗАБЕЛЕЖКА: Има възможност за посочена по-долу грешка в този процес на настройка и инсталиране.

„hduser не е във файла sudoers. Този инцидент ще бъде докладван."

Изтеглете и инсталирайте Hadoop

Тази грешка може да бъде разрешена чрез влизане като root потребител

Изтеглете и инсталирайте Hadoop

Изпълнете командата

sudo adduser hduser_ sudo

Изтеглете и инсталирайте Hadoop

Re-login as hduser_

Изтеглете и инсталирайте Hadoop

Стъпка 2) Конфигурирайте SSH

За да управлява възли в клъстер, Hadoop изисква SSH достъп

Първо, превключете потребителя, въведете следната команда

su - hduser_

Изтеглете и инсталирайте Hadoop

Тази команда ще създаде нов ключ.

ssh-keygen -t rsa -P ""

Изтеглете и инсталирайте Hadoop

Разрешете SSH достъп до локална машина с помощта на този ключ.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Изтеглете и инсталирайте Hadoop

Сега тествайте настройката на SSH, като се свържете с localhost като потребител „hduser“.

ssh localhost

Изтеглете и инсталирайте Hadoop

Забележка: Моля, имайте предвид, че ако видите грешка по-долу в отговор на „ssh localhost“, тогава има възможност SSH да не е наличен в тази система-

Изтеглете и инсталирайте Hadoop

За да разрешите това –

Изчистете SSH с помощта на,

sudo apt-get purge openssh-server

Добра практика е да се прочисти преди началото на инсталацията

Изтеглете и инсталирайте Hadoop

Инсталирайте SSH с помощта на командата-

sudo apt-get install openssh-server

Изтеглете и инсталирайте Hadoop

Стъпка 3) Следващата стъпка е да Изтеглете Hadoop

Изтеглете и инсталирайте Hadoop

Изберете Стабилен

Изтеглете и инсталирайте Hadoop

Изберете файла tar.gz (не файла с src)

Изтеглете и инсталирайте Hadoop

След като изтеглянето приключи, отидете до директорията, съдържаща tar файла

Изтеглете и инсталирайте Hadoop

Въведете,

sudo tar xzf hadoop-2.2.0.tar.gz

Изтеглете и инсталирайте Hadoop

Сега преименувайте hadoop-2.2.0 на hadoop

sudo mv hadoop-2.2.0 hadoop

Изтеглете и инсталирайте Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Изтеглете и инсталирайте Hadoop

Част 2) Конфигурирайте Hadoop

Стъпка 1) Промяна ~ / .bashrc досие

Добавете следните редове в края на файла ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Конфигурирайте Hadoop

Сега извлечете тази конфигурация на средата, като използвате командата по-долу

. ~/.bashrc

Конфигурирайте Hadoop

Стъпка 2) Конфигурации, свързани с HDFS

комплект JAVA_HOME вътрешен файл $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Конфигурирайте Hadoop

Конфигурирайте Hadoop

с

Конфигурирайте Hadoop

Има два параметъра $HADOOP_HOME/etc/hadoop/core-site.xml които трябва да бъдат зададени-

1. 'hadoop.tmp.dir' – Използва се за указване на директория, която ще се използва от Hadoop за съхраняване на неговите файлове с данни.

2. 'fs.default.name' – Това определя файловата система по подразбиране.

За да зададете тези параметри, отворете core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Конфигурирайте Hadoop

Копирайте под реда между таговете

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Конфигурирайте Hadoop

Отидете до директорията $HADOOP_HOME/etc/Hadoop

Конфигурирайте Hadoop

Сега създайте директорията, спомената в core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Конфигурирайте Hadoop

Дайте разрешения за директорията

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Конфигурирайте Hadoop

sudo chmod 750 <Path of Directory created in above step>

Конфигурирайте Hadoop

Стъпка 3) Map Reduce Configuration

Преди да започнете с тези конфигурации, нека зададем пътя HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

И Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Конфигурирайте Hadoop

След това въведете

sudo chmod +x /etc/profile.d/hadoop.sh

Конфигурирайте Hadoop

Излезте от терминала и рестартирайте отново

Въведете echo $HADOOP_HOME. За проверка на пътя

Конфигурирайте Hadoop

Сега копирайте файлове

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Конфигурирайте Hadoop

Отворете mapred-site.xml досие

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Конфигурирайте Hadoop

Добавете по-долу редове за настройка между таговете и

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Конфигурирайте Hadoop

отворено $HADOOP_HOME/etc/hadoop/hdfs-site.xml както по-долу,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Конфигурирайте Hadoop

Добавете по-долу редове за настройка между таговете и

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Конфигурирайте Hadoop

Създайте директория, посочена в горната настройка-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Конфигурирайте Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Конфигурирайте Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Конфигурирайте Hadoop

Стъпка 4) Преди да стартираме Hadoop за първи път, форматирайте HDFS, като използвате командата по-долу

$HADOOP_HOME/bin/hdfs namenode -format

Конфигурирайте Hadoop

Стъпка 5) Стартирайте единичен възлов клъстер на Hadoop, като използвате командата по-долу

$HADOOP_HOME/sbin/start-dfs.sh

Изход от горната команда

Конфигурирайте Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Конфигурирайте Hadoop

Използването на 'jps' инструмент/команда, проверете дали всички свързани с Hadoop процеси се изпълняват или не.

Конфигурирайте Hadoop

Ако Hadoop е стартиран успешно, тогава изход от jps трябва да показва NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Стъпка 6) Спиране на Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Конфигурирайте Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Конфигурирайте Hadoop

Обобщете тази публикация с: