วิธีการติดตั้ง Hadoop ด้วยการกำหนดค่าทีละขั้นตอนบน Linux Ubuntu

ในบทช่วยสอนนี้ เราจะพาคุณผ่านกระบวนการทีละขั้นตอนในการติดตั้ง Apache Hadoop บนกล่อง Linux (Ubuntu- นี่เป็นกระบวนการ 2 ส่วน

มี 2 เป็น เบื้องต้น

ส่วนที่ 1) ดาวน์โหลดและติดตั้ง Hadoop

ขั้นตอน 1) เพิ่มผู้ใช้ระบบ Hadoop โดยใช้คำสั่งด้านล่าง

sudo addgroup hadoop_

ดาวน์โหลดและติดตั้ง Hadoop

sudo adduser --ingroup hadoop_ hduser_

ดาวน์โหลดและติดตั้ง Hadoop

กรอกรหัสผ่าน ชื่อ และรายละเอียดอื่นๆ ของคุณ

หมายเหตุ: มีความเป็นไปได้ที่จะเกิดข้อผิดพลาดที่กล่าวถึงด้านล่างในกระบวนการติดตั้งและการติดตั้งนี้

“hduser ไม่ได้อยู่ในไฟล์ sudoers เหตุการณ์นี้จะถูกรายงาน”

ดาวน์โหลดและติดตั้ง Hadoop

ข้อผิดพลาดนี้สามารถแก้ไขได้โดยการเข้าสู่ระบบในฐานะผู้ใช้รูท

ดาวน์โหลดและติดตั้ง Hadoop

ดำเนินการคำสั่ง

sudo adduser hduser_ sudo

ดาวน์โหลดและติดตั้ง Hadoop

Re-login as hduser_

ดาวน์โหลดและติดตั้ง Hadoop

ขั้นตอน 2) กำหนดค่า SSH

เพื่อจัดการโหนดในคลัสเตอร์ Hadoop จำเป็นต้องมีการเข้าถึง SSH

ขั้นแรกให้สลับผู้ใช้โดยป้อนคำสั่งดังต่อไปนี้

su - hduser_

ดาวน์โหลดและติดตั้ง Hadoop

คำสั่งนี้จะสร้างคีย์ใหม่

ssh-keygen -t rsa -P ""

ดาวน์โหลดและติดตั้ง Hadoop

เปิดใช้งานการเข้าถึง SSH ไปยังเครื่องท้องถิ่นโดยใช้คีย์นี้

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

ดาวน์โหลดและติดตั้ง Hadoop

ตอนนี้ทดสอบการตั้งค่า SSH โดยเชื่อมต่อกับ localhost ในฐานะผู้ใช้ 'hduser'

ssh localhost

ดาวน์โหลดและติดตั้ง Hadoop

หมายเหตุ โปรดทราบว่า หากคุณเห็นข้อผิดพลาดด้านล่างในการตอบสนองต่อ 'ssh localhost' แสดงว่าอาจมีความเป็นไปได้ที่ SSH จะไม่พร้อมใช้งานบนระบบนี้-

ดาวน์โหลดและติดตั้ง Hadoop

เพื่อแก้ไขปัญหานี้ –

ล้าง SSH โดยใช้

sudo apt-get purge openssh-server

แนวทางปฏิบัติที่ดีในการล้างข้อมูลก่อนเริ่มการติดตั้ง

ดาวน์โหลดและติดตั้ง Hadoop

ติดตั้ง SSH โดยใช้คำสั่ง-

sudo apt-get install openssh-server

ดาวน์โหลดและติดตั้ง Hadoop

ขั้นตอน 3) ขั้นตอนต่อไปคือการ ดาวน์โหลด Hadoop.dll

ดาวน์โหลดและติดตั้ง Hadoop

เลือกเสถียร

ดาวน์โหลดและติดตั้ง Hadoop

เลือกไฟล์ tar.gz (ไม่ใช่ไฟล์ที่มี src)

ดาวน์โหลดและติดตั้ง Hadoop

เมื่อการดาวน์โหลดเสร็จสิ้น ให้ไปที่ไดเร็กทอรีที่มีไฟล์ tar

ดาวน์โหลดและติดตั้ง Hadoop

ป้อน

sudo tar xzf hadoop-2.2.0.tar.gz

ดาวน์โหลดและติดตั้ง Hadoop

ตอนนี้เปลี่ยนชื่อ hadoop-2.2.0 เป็น hadoop

sudo mv hadoop-2.2.0 hadoop

ดาวน์โหลดและติดตั้ง Hadoop

sudo chown -R hduser_:hadoop_ hadoop

ดาวน์โหลดและติดตั้ง Hadoop

ส่วนที่ 2) กำหนดค่า Hadoop

ขั้นตอน 1) แก้ไข ~ / .bashrc ไฟล์

เพิ่มบรรทัดต่อไปนี้ลงท้ายไฟล์ ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

กำหนดค่า Hadoop

ตอนนี้ให้กำหนดค่าสภาพแวดล้อมนี้โดยใช้คำสั่งด้านล่าง

. ~/.bashrc

กำหนดค่า Hadoop

ขั้นตอน 2) การกำหนดค่าที่เกี่ยวข้องกับ HDFS

ชุด JAVA_HOME ไฟล์ภายใน $HADOOP_HOME/etc/hadoop/hadoop-env.sh

กำหนดค่า Hadoop

กำหนดค่า Hadoop

ด้วยระบบเส้นทาง

กำหนดค่า Hadoop

มีพารามิเตอร์อยู่ 2 ตัว $HADOOP_HOME/etc/hadoop/core-site.xml ซึ่งจำเป็นต้องตั้งค่า-

1. 'hadoop.tmp.dir' – ใช้เพื่อระบุไดเร็กทอรีที่ Hadoop จะใช้จัดเก็บไฟล์ข้อมูล

2. 'fs.default.name' – นี่เป็นการระบุระบบไฟล์เริ่มต้น

หากต้องการตั้งค่าพารามิเตอร์เหล่านี้ ให้เปิด core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

กำหนดค่า Hadoop

คัดลอกบรรทัดด้านล่างระหว่างแท็ก

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

กำหนดค่า Hadoop

ไปที่ไดเร็กทอรี $HADOOP_HOME/etc/Hadoop

กำหนดค่า Hadoop

ตอนนี้ให้สร้างไดเร็กทอรีที่กล่าวถึงใน core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

กำหนดค่า Hadoop

ให้สิทธิ์แก่ไดเร็กทอรี

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

กำหนดค่า Hadoop

sudo chmod 750 <Path of Directory created in above step>

กำหนดค่า Hadoop

ขั้นตอน 3) แผนที่ลดการกำหนดค่า

ก่อนที่คุณจะเริ่มต้นด้วยการกำหนดค่าเหล่านี้ ให้ตั้งค่าเส้นทาง HADOOP_HOME ก่อน

sudo gedit /etc/profile.d/hadoop.sh

และเข้า

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

กำหนดค่า Hadoop

ป้อนถัดไป

sudo chmod +x /etc/profile.d/hadoop.sh

กำหนดค่า Hadoop

ออกจาก Terminal แล้วรีสตาร์ทอีกครั้ง

พิมพ์ echo $HADOOP_HOME เพื่อตรวจสอบเส้นทาง

กำหนดค่า Hadoop

ตอนนี้คัดลอกไฟล์

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

กำหนดค่า Hadoop

เปิด mapred-site.xml ไฟล์

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

กำหนดค่า Hadoop

เพิ่มบรรทัดการตั้งค่าด้านล่างระหว่างแท็ก และ

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

กำหนดค่า Hadoop

จุดเปิด $HADOOP_HOME/etc/hadoop/hdfs-site.xml ดังต่อไปนี้,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

กำหนดค่า Hadoop

เพิ่มบรรทัดการตั้งค่าด้านล่างระหว่างแท็ก และ

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

กำหนดค่า Hadoop

สร้างไดเร็กทอรีที่ระบุในการตั้งค่าด้านบน -

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

กำหนดค่า Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

กำหนดค่า Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

กำหนดค่า Hadoop

ขั้นตอน 4) ก่อนที่เราจะเริ่ม Hadoop เป็นครั้งแรก ให้ฟอร์แมต HDFS โดยใช้คำสั่งด้านล่าง

$HADOOP_HOME/bin/hdfs namenode -format

กำหนดค่า Hadoop

ขั้นตอน 5) เริ่มคลัสเตอร์ Hadoop โหนดเดียวโดยใช้คำสั่งด้านล่าง

$HADOOP_HOME/sbin/start-dfs.sh

ผลลัพธ์ของคำสั่งข้างต้น

กำหนดค่า Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

กำหนดค่า Hadoop

การใช้ 'เจพีเอส' เครื่องมือ/คำสั่ง ตรวจสอบว่ากระบวนการที่เกี่ยวข้องกับ Hadoop ทั้งหมดกำลังทำงานอยู่หรือไม่

กำหนดค่า Hadoop

หาก Hadoop เริ่มต้นได้สำเร็จ เอาต์พุตของ jps ควรแสดง NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode

ขั้นตอน 6) การหยุด Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

กำหนดค่า Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

กำหนดค่า Hadoop