Cách cài đặt Hadoop với cấu hình từng bước trên Linux Ubuntu

Trong hướng dẫn này, chúng tôi sẽ hướng dẫn bạn từng bước để cài đặt Apache Hadoop trên hộp Linux (Ubuntu). Đây là quá trình gồm 2 phần

Có 2 Điều kiện tiên quyết

Phần 1) Tải xuống và cài đặt Hadoop

Bước 1) Thêm người dùng hệ thống Hadoop bằng lệnh bên dưới

sudo addgroup hadoop_

Tải xuống và cài đặt Hadoop

sudo adduser --ingroup hadoop_ hduser_

Tải xuống và cài đặt Hadoop

Nhập mật khẩu, tên và các thông tin khác.

LƯU Ý: Có thể xảy ra lỗi được đề cập dưới đây trong quá trình thiết lập và cài đặt này.

“hduser không có trong tập tin sudoers. Sự việc này sẽ được báo cáo.”

Tải xuống và cài đặt Hadoop

Lỗi này có thể được giải quyết bằng cách Đăng nhập với tư cách người dùng root

Tải xuống và cài đặt Hadoop

Thực hiện lệnh

sudo adduser hduser_ sudo

Tải xuống và cài đặt Hadoop

Re-login as hduser_

Tải xuống và cài đặt Hadoop

Bước 2) Định cấu hình SSH

Để quản lý các nút trong một cụm, Hadoop yêu cầu quyền truy cập SSH

Đầu tiên, chuyển đổi người dùng, nhập lệnh sau

su - hduser_

Tải xuống và cài đặt Hadoop

Lệnh này sẽ tạo một khóa mới.

ssh-keygen -t rsa -P ""

Tải xuống và cài đặt Hadoop

Cho phép truy cập SSH vào máy cục bộ bằng phím này.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Tải xuống và cài đặt Hadoop

Bây giờ hãy kiểm tra thiết lập SSH bằng cách kết nối với localhost với tư cách người dùng 'hduser'.

ssh localhost

Tải xuống và cài đặt Hadoop

Lưu ý: Xin lưu ý, nếu bạn thấy lỗi bên dưới khi phản hồi với 'ssh localhost' thì có khả năng SSH không khả dụng trên hệ thống này-

Tải xuống và cài đặt Hadoop

Để giải quyết vấn đề này –

Lọc SSH bằng cách sử dụng,

sudo apt-get purge openssh-server

Đó là một cách tốt để thanh lọc trước khi bắt đầu cài đặt

Tải xuống và cài đặt Hadoop

Cài đặt SSH bằng lệnh-

sudo apt-get install openssh-server

Tải xuống và cài đặt Hadoop

Bước 3) Bước tiếp theo là Tải xuống Hadoop

Tải xuống và cài đặt Hadoop

Chọn ổn định

Tải xuống và cài đặt Hadoop

Chọn file tar.gz (không phải file có src)

Tải xuống và cài đặt Hadoop

Sau khi tải xuống hoàn tất, hãy điều hướng đến thư mục chứa tệp tar

Tải xuống và cài đặt Hadoop

nhập,

sudo tar xzf hadoop-2.2.0.tar.gz

Tải xuống và cài đặt Hadoop

Bây giờ, đổi tên hadoop-2.2.0 thành hadoop

sudo mv hadoop-2.2.0 hadoop

Tải xuống và cài đặt Hadoop

sudo chown -R hduser_:hadoop_ hadoop

Tải xuống và cài đặt Hadoop

Phần 2) Định cấu hình Hadoop

Bước 1) Sửa đổi ~ / .bashrc hồ sơ

Thêm các dòng sau vào cuối tệp ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Định cấu hình Hadoop

Bây giờ, tìm nguồn cấu hình môi trường này bằng lệnh bên dưới

. ~/.bashrc

Định cấu hình Hadoop

Bước 2) Cấu hình liên quan đến HDFS

Thiết lập JAVA_HOME tập tin bên trong $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Định cấu hình Hadoop

Định cấu hình Hadoop

Với

Định cấu hình Hadoop

Có hai tham số trong $HADOOP_HOME/etc/hadoop/core-site.xml cần phải thiết lập-

1. 'hadoop.tmp.dir' – Được sử dụng để chỉ định một thư mục sẽ được Hadoop sử dụng để lưu trữ các tệp dữ liệu của nó.

2. 'fs.default.name' – Điều này chỉ định hệ thống tập tin mặc định.

Để đặt các tham số này, hãy mở core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Định cấu hình Hadoop

Sao chép dòng dưới đây vào giữa các thẻ

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Định cấu hình Hadoop

Điều hướng đến thư mục $HADOOP_HOME/etc/Hadoop

Định cấu hình Hadoop

Bây giờ, tạo thư mục được đề cập trong core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Định cấu hình Hadoop

Cấp quyền cho thư mục

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

Định cấu hình Hadoop

sudo chmod 750 <Path of Directory created in above step>

Định cấu hình Hadoop

Bước 3) Cấu hình giảm bản đồ

Trước khi bạn bắt đầu với các cấu hình này, hãy đặt đường dẫn HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

và nhập

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Định cấu hình Hadoop

Tiếp theo nhập

sudo chmod +x /etc/profile.d/hadoop.sh

Định cấu hình Hadoop

Thoát khỏi Terminal và khởi động lại

Nhập tiếng vang $HADOOP_HOME. Để xác minh đường dẫn

Định cấu hình Hadoop

Bây giờ sao chép tập tin

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Định cấu hình Hadoop

Mở mapred-site.xml hồ sơ

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Định cấu hình Hadoop

Thêm các dòng cài đặt bên dưới vào giữa các thẻ Và

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Định cấu hình Hadoop

Mở $HADOOP_HOME/etc/hadoop/hdfs-site.xml như sau,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Định cấu hình Hadoop

Thêm các dòng cài đặt bên dưới giữa các thẻ Và

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Định cấu hình Hadoop

Tạo một thư mục được chỉ định trong cài đặt ở trên-

sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs

Định cấu hình Hadoop

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

Định cấu hình Hadoop

sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs

Định cấu hình Hadoop

Bước 4) Trước khi chúng ta khởi động Hadoop lần đầu tiên, hãy định dạng HDFS bằng lệnh bên dưới

$HADOOP_HOME/bin/hdfs namenode -format

Định cấu hình Hadoop

Bước 5) Bắt đầu cụm nút đơn Hadoop bằng lệnh bên dưới

$HADOOP_HOME/sbin/start-dfs.sh

Một đầu ra của lệnh trên

Định cấu hình Hadoop

$HADOOP_HOME/sbin/start-yarn.sh

Định cấu hình Hadoop

Sử dụng 'jps' công cụ/lệnh, xác minh xem tất cả các quy trình liên quan đến Hadoop có đang chạy hay không.

Định cấu hình Hadoop

Nếu Hadoop đã khởi động thành công thì đầu ra của jps sẽ hiển thị NameNode, NodeManager, ResourceManager, PrimaryNameNode, DataNode.

Bước 6) Dừng Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

Định cấu hình Hadoop

$HADOOP_HOME/sbin/stop-yarn.sh

Định cấu hình Hadoop

Bản tin Guru99 hàng ngày

Bắt đầu ngày mới của bạn với những tin tức AI mới nhất và quan trọng nhất hiện nay.