如何在 Linux 上逐步配置安装 Hadoop Ubuntu

在本教程中,我们将逐步指导您在 Linux 机器上安装 Apache Hadoop(Ubuntu)。这是一个两部分的过程

有2 先决条件

第 1 部分)下载并安装 Hadoop

步骤1) 使用以下命令添加 Hadoop 系统用户

sudo addgroup hadoop_

下载并安装 Hadoop

sudo adduser --ingroup hadoop_ hduser_

下载并安装 Hadoop

输入您的密码、姓名和其他详细信息。

注意: 在此设置和安装过程中可能会出现下面提到的错误。

“hduser 不在 sudoers 文件中。此事件将被报告。”

下载并安装 Hadoop

可以通过以 root 用户身份登录来解决此错误

下载并安装 Hadoop

执行命令

sudo adduser hduser_ sudo

下载并安装 Hadoop

Re-login as hduser_

下载并安装 Hadoop

步骤2) 配置SSH

为了管理集群中的节点,Hadoop 需要 SSH 访问

首先切换用户,输入以下命令

su - hduser_

下载并安装 Hadoop

此命令将创建一个新密钥。

ssh-keygen -t rsa -P ""

下载并安装 Hadoop

使用此密钥启用本地机器的 SSH 访问。

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

下载并安装 Hadoop

现在通过以“hduser”用户身份连接到本地主机来测试 SSH 设置。

ssh localhost

下载并安装 Hadoop

请注意: 请注意,如果您在响应“ssh localhost”时看到以下错误,则有可能此系统上不提供 SSH -

下载并安装 Hadoop

为了解决这个问题

使用以下方法清除 SSH:

sudo apt-get purge openssh-server

在安装开始前进行清理是一种很好的做法

下载并安装 Hadoop

使用以下命令安装 SSH:

sudo apt-get install openssh-server

下载并安装 Hadoop

步骤3) 下一步是 下载 Hadoop

下载并安装 Hadoop

选择稳定

下载并安装 Hadoop

选择 tar.gz 文件(不是带有 src 的文件)

下载并安装 Hadoop

下载完成后,导航到包含 tar 文件的目录

下载并安装 Hadoop

回车,

sudo tar xzf hadoop-2.2.0.tar.gz

下载并安装 Hadoop

现在,将 hadoop-2.2.0 重命名为 hadoop

sudo mv hadoop-2.2.0 hadoop

下载并安装 Hadoop

sudo chown -R hduser_:hadoop_ hadoop

下载并安装 Hadoop

第 2 部分)配置 Hadoop

步骤1) 修改 在〜/ .bashrc 文件

将以下行添加到文件末尾 在〜/ .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

配置 Hadoop

现在,使用以下命令获取此环境配置

. ~/.bashrc

配置 Hadoop

步骤2) HDFS相关配置

选择 JAVA_主页 内部文件 $HADOOP_HOME/etc/hadoop/hadoop-env.sh

配置 Hadoop

配置 Hadoop

通过

配置 Hadoop

有两个参数 $HADOOP_HOME/etc/hadoop/核心站点.xml 需要设置

1. ‘hadoop.tmp.dir’ – 用于指定 Hadoop 将用来存储其数据文件的目录。

2.'fs.default.name' – 这指定了默认文件系统。

要设置这些参数,请打开 core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

配置 Hadoop

复制标签之间的以下行

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

配置 Hadoop

导航至目录 $HADOOP_HOME/etc/Hadoop

配置 Hadoop

现在,创建 core-site.xml 中提到的目录

sudo mkdir -p <Path of Directory used in above setting>

配置 Hadoop

授予目录权限

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

配置 Hadoop

sudo chmod 750 <Path of Directory created in above step>

配置 Hadoop

步骤3) Map Reduce 配置

在开始这些配置之前,让我们设置 HADOOP_HOME 路径

sudo gedit /etc/profile.d/hadoop.sh

然后输入

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

配置 Hadoop

下一步进入

sudo chmod +x /etc/profile.d/hadoop.sh

配置 Hadoop

退出终端并重新启动

输入 echo $HADOOP_HOME。要验证路径

配置 Hadoop

现在复制文件

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

配置 Hadoop

打开 mapred-站点.xml 文件

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

配置 Hadoop

在标签之间添加以下设置行和

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

配置 Hadoop

可选 $HADOOP_HOME/etc/hadoop/hdfs-site.xml 如下,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

配置 Hadoop

在标签之间添加以下设置行和

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

配置 Hadoop

创建上述设置中指定的目录 -

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

配置 Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

配置 Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

配置 Hadoop

步骤4) 在我们第一次启动 Hadoop 之前,使用以下命令格式化 HDFS

$HADOOP_HOME/bin/hdfs namenode -format

配置 Hadoop

步骤5) 使用以下命令启动 Hadoop 单节点集群

$HADOOP_HOME/sbin/start-dfs.sh

上述命令的输出

配置 Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

配置 Hadoop

运用 ‘jps’ 工具/命令,验证所有Hadoop相关进程是否正在运行。

配置 Hadoop

如果 Hadoop 已成功启动,则 jps 的输出应显示 NameNode、NodeManager、ResourceManager、SecondaryNameNode 和 DataNode。

步骤6) 停止 Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

配置 Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

配置 Hadoop