วิธีการติดตั้ง Hadoop ด้วยการกำหนดค่าทีละขั้นตอนบน Linux Ubuntu
ในบทช่วยสอนนี้ เราจะพาคุณผ่านกระบวนการทีละขั้นตอนในการติดตั้ง Apache Hadoop บนกล่อง Linux (Ubuntu- นี่เป็นกระบวนการ 2 ส่วน
มี 2 เป็น เบื้องต้น
- คุณต้องมี Ubuntu การติดตั้ง และวิ่ง
- คุณต้องมี Java ติดตั้งแล้ว
ส่วนที่ 1) ดาวน์โหลดและติดตั้ง Hadoop
ขั้นตอน 1) เพิ่มผู้ใช้ระบบ Hadoop โดยใช้คำสั่งด้านล่าง
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
กรอกรหัสผ่าน ชื่อ และรายละเอียดอื่นๆ ของคุณ
หมายเหตุ: มีความเป็นไปได้ที่จะเกิดข้อผิดพลาดที่กล่าวถึงด้านล่างในกระบวนการติดตั้งและการติดตั้งนี้
“hduser ไม่ได้อยู่ในไฟล์ sudoers เหตุการณ์นี้จะถูกรายงาน”
ข้อผิดพลาดนี้สามารถแก้ไขได้โดยการเข้าสู่ระบบในฐานะผู้ใช้รูท
ดำเนินการคำสั่ง
sudo adduser hduser_ sudo
Re-login as hduser_
ขั้นตอน 2) กำหนดค่า SSH
เพื่อจัดการโหนดในคลัสเตอร์ Hadoop จำเป็นต้องมีการเข้าถึง SSH
ขั้นแรกให้สลับผู้ใช้โดยป้อนคำสั่งดังต่อไปนี้
su - hduser_
คำสั่งนี้จะสร้างคีย์ใหม่
ssh-keygen -t rsa -P ""
เปิดใช้งานการเข้าถึง SSH ไปยังเครื่องท้องถิ่นโดยใช้คีย์นี้
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
ตอนนี้ทดสอบการตั้งค่า SSH โดยเชื่อมต่อกับ localhost ในฐานะผู้ใช้ 'hduser'
ssh localhost
หมายเหตุ โปรดทราบว่า หากคุณเห็นข้อผิดพลาดด้านล่างในการตอบสนองต่อ 'ssh localhost' แสดงว่าอาจมีความเป็นไปได้ที่ SSH จะไม่พร้อมใช้งานบนระบบนี้-
เพื่อแก้ไขปัญหานี้ –
ล้าง SSH โดยใช้
sudo apt-get purge openssh-server
แนวทางปฏิบัติที่ดีในการล้างข้อมูลก่อนเริ่มการติดตั้ง
ติดตั้ง SSH โดยใช้คำสั่ง-
sudo apt-get install openssh-server
ขั้นตอน 3) ขั้นตอนต่อไปคือการ ดาวน์โหลด Hadoop.dll
เลือกเสถียร
เลือกไฟล์ tar.gz (ไม่ใช่ไฟล์ที่มี src)
เมื่อการดาวน์โหลดเสร็จสิ้น ให้ไปที่ไดเร็กทอรีที่มีไฟล์ tar
ป้อน
sudo tar xzf hadoop-2.2.0.tar.gz
ตอนนี้เปลี่ยนชื่อ hadoop-2.2.0 เป็น hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
ส่วนที่ 2) กำหนดค่า Hadoop
ขั้นตอน 1) แก้ไข ~ / .bashrc ไฟล์
เพิ่มบรรทัดต่อไปนี้ลงท้ายไฟล์ ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
ตอนนี้ให้กำหนดค่าสภาพแวดล้อมนี้โดยใช้คำสั่งด้านล่าง
. ~/.bashrc
ขั้นตอน 2) การกำหนดค่าที่เกี่ยวข้องกับ HDFS
ชุด JAVA_HOME ไฟล์ภายใน $HADOOP_HOME/etc/hadoop/hadoop-env.sh
ด้วยระบบเส้นทาง
มีพารามิเตอร์อยู่ 2 ตัว $HADOOP_HOME/etc/hadoop/core-site.xml ซึ่งจำเป็นต้องตั้งค่า-
1. 'hadoop.tmp.dir' – ใช้เพื่อระบุไดเร็กทอรีที่ Hadoop จะใช้จัดเก็บไฟล์ข้อมูล
2. 'fs.default.name' – นี่เป็นการระบุระบบไฟล์เริ่มต้น
หากต้องการตั้งค่าพารามิเตอร์เหล่านี้ ให้เปิด core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
คัดลอกบรรทัดด้านล่างระหว่างแท็ก
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
ไปที่ไดเร็กทอรี $HADOOP_HOME/etc/Hadoop
ตอนนี้ให้สร้างไดเร็กทอรีที่กล่าวถึงใน core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
ให้สิทธิ์แก่ไดเร็กทอรี
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
ขั้นตอน 3) แผนที่ลดการกำหนดค่า
ก่อนที่คุณจะเริ่มต้นด้วยการกำหนดค่าเหล่านี้ ให้ตั้งค่าเส้นทาง HADOOP_HOME ก่อน
sudo gedit /etc/profile.d/hadoop.sh
และเข้า
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
ป้อนถัดไป
sudo chmod +x /etc/profile.d/hadoop.sh
ออกจาก Terminal แล้วรีสตาร์ทอีกครั้ง
พิมพ์ echo $HADOOP_HOME เพื่อตรวจสอบเส้นทาง
ตอนนี้คัดลอกไฟล์
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
เปิด mapred-site.xml ไฟล์
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
เพิ่มบรรทัดการตั้งค่าด้านล่างระหว่างแท็ก และ
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
จุดเปิด $HADOOP_HOME/etc/hadoop/hdfs-site.xml ดังต่อไปนี้,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
เพิ่มบรรทัดการตั้งค่าด้านล่างระหว่างแท็ก และ
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
สร้างไดเร็กทอรีที่ระบุในการตั้งค่าด้านบน -
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
ขั้นตอน 4) ก่อนที่เราจะเริ่ม Hadoop เป็นครั้งแรก ให้ฟอร์แมต HDFS โดยใช้คำสั่งด้านล่าง
$HADOOP_HOME/bin/hdfs namenode -format
ขั้นตอน 5) เริ่มคลัสเตอร์ Hadoop โหนดเดียวโดยใช้คำสั่งด้านล่าง
$HADOOP_HOME/sbin/start-dfs.sh
ผลลัพธ์ของคำสั่งข้างต้น
$HADOOP_HOME/sbin/start-yarn.sh
การใช้ 'เจพีเอส' เครื่องมือ/คำสั่ง ตรวจสอบว่ากระบวนการที่เกี่ยวข้องกับ Hadoop ทั้งหมดกำลังทำงานอยู่หรือไม่
หาก Hadoop เริ่มต้นได้สำเร็จ เอาต์พุตของ jps ควรแสดง NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode
ขั้นตอน 6) การหยุด Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh