如何在 Linux 上逐步配置安装 Hadoop Ubuntu
在本教程中,我们将逐步指导您在 Linux 机器上安装 Apache Hadoop(Ubuntu)。这是一个两部分的过程
有2 先决条件
第 1 部分)下载并安装 Hadoop
步骤1) 使用以下命令添加 Hadoop 系统用户
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
输入您的密码、姓名和其他详细信息。
注意: 在此设置和安装过程中可能会出现下面提到的错误。
“hduser 不在 sudoers 文件中。此事件将被报告。”
可以通过以 root 用户身份登录来解决此错误
执行命令
sudo adduser hduser_ sudo
Re-login as hduser_
步骤2) 配置SSH
为了管理集群中的节点,Hadoop 需要 SSH 访问
首先切换用户,输入以下命令
su - hduser_
此命令将创建一个新密钥。
ssh-keygen -t rsa -P ""
使用此密钥启用本地机器的 SSH 访问。
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
现在通过以“hduser”用户身份连接到本地主机来测试 SSH 设置。
ssh localhost
请注意: 请注意,如果您在响应“ssh localhost”时看到以下错误,则有可能此系统上不提供 SSH -
为了解决这个问题
使用以下方法清除 SSH:
sudo apt-get purge openssh-server
在安装开始前进行清理是一种很好的做法
使用以下命令安装 SSH:
sudo apt-get install openssh-server
步骤3) 下一步是 下载 Hadoop
选择稳定
选择 tar.gz 文件(不是带有 src 的文件)
下载完成后,导航到包含 tar 文件的目录
回车,
sudo tar xzf hadoop-2.2.0.tar.gz
现在,将 hadoop-2.2.0 重命名为 hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
第 2 部分)配置 Hadoop
步骤1) 修改 在〜/ .bashrc 文件
将以下行添加到文件末尾 在〜/ .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
现在,使用以下命令获取此环境配置
. ~/.bashrc
步骤2) HDFS相关配置
选择 JAVA_主页 内部文件 $HADOOP_HOME/etc/hadoop/hadoop-env.sh
通过
有两个参数 $HADOOP_HOME/etc/hadoop/核心站点.xml 需要设置
1. ‘hadoop.tmp.dir’ – 用于指定 Hadoop 将用来存储其数据文件的目录。
2.'fs.default.name' – 这指定了默认文件系统。
要设置这些参数,请打开 core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
复制标签之间的以下行
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
导航至目录 $HADOOP_HOME/etc/Hadoop
现在,创建 core-site.xml 中提到的目录
sudo mkdir -p <Path of Directory used in above setting>
授予目录权限
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
步骤3) Map Reduce 配置
在开始这些配置之前,让我们设置 HADOOP_HOME 路径
sudo gedit /etc/profile.d/hadoop.sh
然后输入
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
下一步进入
sudo chmod +x /etc/profile.d/hadoop.sh
退出终端并重新启动
输入 echo $HADOOP_HOME。要验证路径
现在复制文件
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
打开 mapred-站点.xml 文件
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
在标签之间添加以下设置行和
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
可选 $HADOOP_HOME/etc/hadoop/hdfs-site.xml 如下,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
在标签之间添加以下设置行和
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
创建上述设置中指定的目录 -
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
步骤4) 在我们第一次启动 Hadoop 之前,使用以下命令格式化 HDFS
$HADOOP_HOME/bin/hdfs namenode -format
步骤5) 使用以下命令启动 Hadoop 单节点集群
$HADOOP_HOME/sbin/start-dfs.sh
上述命令的输出
$HADOOP_HOME/sbin/start-yarn.sh
运用 ‘jps’ 工具/命令,验证所有Hadoop相关进程是否正在运行。
如果 Hadoop 已成功启动,则 jps 的输出应显示 NameNode、NodeManager、ResourceManager、SecondaryNameNode 和 DataNode。
步骤6) 停止 Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh