Как да инсталирате Hadoop с конфигурация стъпка по стъпка на Linux Ubuntu
В този урок ще ви преведем стъпка по стъпка през процеса за инсталиране на Apache Hadoop на Linux кутия (Ubuntu). Това е процес от 2 части
Има 2 Предпоставки
- Трябва да имате Ubuntu инсталирана и тичане
- Трябва да имате Java Инсталиран.
Част 1) Изтеглете и инсталирайте Hadoop
Стъпка 1) Добавете системен потребител на Hadoop, като използвате командата по-долу
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Въведете вашата парола, име и други подробности.
ЗАБЕЛЕЖКА: Има възможност за посочена по-долу грешка в този процес на настройка и инсталиране.
„hduser не е във файла sudoers. Този инцидент ще бъде докладван."
Тази грешка може да бъде разрешена чрез влизане като root потребител
Изпълнете командата
sudo adduser hduser_ sudo
Re-login as hduser_
Стъпка 2) Конфигурирайте SSH
За да управлява възли в клъстер, Hadoop изисква SSH достъп
Първо, превключете потребителя, въведете следната команда
su - hduser_
Тази команда ще създаде нов ключ.
ssh-keygen -t rsa -P ""
Разрешете SSH достъп до локална машина с помощта на този ключ.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Сега тествайте настройката на SSH, като се свържете с localhost като потребител „hduser“.
ssh localhost
Забележка: Моля, имайте предвид, че ако видите грешка по-долу в отговор на „ssh localhost“, тогава има възможност SSH да не е наличен в тази система-
За да разрешите това –
Изчистете SSH с помощта на,
sudo apt-get purge openssh-server
Добра практика е да се прочисти преди началото на инсталацията
Инсталирайте SSH с помощта на командата-
sudo apt-get install openssh-server
Стъпка 3) Следващата стъпка е да Изтеглете Hadoop
Изберете Стабилен
Изберете файла tar.gz (не файла с src)
След като изтеглянето приключи, отидете до директорията, съдържаща tar файла
Въведете,
sudo tar xzf hadoop-2.2.0.tar.gz
Сега преименувайте hadoop-2.2.0 на hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Част 2) Конфигурирайте Hadoop
Стъпка 1) Промяна ~ / .bashrc досие
Добавете следните редове в края на файла ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Сега извлечете тази конфигурация на средата, като използвате командата по-долу
. ~/.bashrc
Стъпка 2) Конфигурации, свързани с HDFS
комплект JAVA_HOME вътрешен файл $HADOOP_HOME/etc/hadoop/hadoop-env.sh
с
Има два параметъра $HADOOP_HOME/etc/hadoop/core-site.xml които трябва да бъдат зададени-
1. 'hadoop.tmp.dir' – Използва се за указване на директория, която ще се използва от Hadoop за съхраняване на неговите файлове с данни.
2. 'fs.default.name' – Това определя файловата система по подразбиране.
За да зададете тези параметри, отворете core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Копирайте под реда между таговете
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Отидете до директорията $HADOOP_HOME/etc/Hadoop
Сега създайте директорията, спомената в core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Дайте разрешения за директорията
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Стъпка 3) Map Reduce Configuration
Преди да започнете с тези конфигурации, нека зададем пътя HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
И Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
След това въведете
sudo chmod +x /etc/profile.d/hadoop.sh
Излезте от терминала и рестартирайте отново
Въведете echo $HADOOP_HOME. За проверка на пътя
Сега копирайте файлове
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Отворете mapred-site.xml досие
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Добавете по-долу редове за настройка между таговете и
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
отворено $HADOOP_HOME/etc/hadoop/hdfs-site.xml както по-долу,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Добавете по-долу редове за настройка между таговете и
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Създайте директория, посочена в горната настройка-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Стъпка 4) Преди да стартираме Hadoop за първи път, форматирайте HDFS, като използвате командата по-долу
$HADOOP_HOME/bin/hdfs namenode -format
Стъпка 5) Стартирайте единичен възлов клъстер на Hadoop, като използвате командата по-долу
$HADOOP_HOME/sbin/start-dfs.sh
Изход от горната команда
$HADOOP_HOME/sbin/start-yarn.sh
Използването на 'jps' инструмент/команда, проверете дали всички свързани с Hadoop процеси се изпълняват или не.
Ако Hadoop е стартиран успешно, тогава изход от jps трябва да показва NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Стъпка 6) Спиране на Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh





























