Cách cài đặt Hadoop với cấu hình từng bước trên Linux Ubuntu
Trong hướng dẫn này, chúng tôi sẽ hướng dẫn bạn từng bước để cài đặt Apache Hadoop trên hộp Linux (Ubuntu). Đây là quá trình gồm 2 phần
Có 2 Điều kiện tiên quyết
- Bạn phải có Ubuntu cài đặt và chạy
- Bạn phải có Java Cài đặt.
Phần 1) Tải xuống và cài đặt Hadoop
Bước 1) Thêm người dùng hệ thống Hadoop bằng lệnh bên dưới
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Nhập mật khẩu, tên và các thông tin khác.
LƯU Ý: Có thể xảy ra lỗi được đề cập dưới đây trong quá trình thiết lập và cài đặt này.
“hduser không có trong tập tin sudoers. Sự việc này sẽ được báo cáo.”
Lỗi này có thể được giải quyết bằng cách Đăng nhập với tư cách người dùng root
Thực hiện lệnh
sudo adduser hduser_ sudo
Re-login as hduser_
Bước 2) Định cấu hình SSH
Để quản lý các nút trong một cụm, Hadoop yêu cầu quyền truy cập SSH
Đầu tiên, chuyển đổi người dùng, nhập lệnh sau
su - hduser_
Lệnh này sẽ tạo một khóa mới.
ssh-keygen -t rsa -P ""
Cho phép truy cập SSH vào máy cục bộ bằng phím này.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Bây giờ hãy kiểm tra thiết lập SSH bằng cách kết nối với localhost với tư cách người dùng 'hduser'.
ssh localhost
Lưu ý: Xin lưu ý, nếu bạn thấy lỗi bên dưới khi phản hồi với 'ssh localhost' thì có khả năng SSH không khả dụng trên hệ thống này-
Để giải quyết vấn đề này –
Lọc SSH bằng cách sử dụng,
sudo apt-get purge openssh-server
Đó là một cách tốt để thanh lọc trước khi bắt đầu cài đặt
Cài đặt SSH bằng lệnh-
sudo apt-get install openssh-server
Bước 3) Bước tiếp theo là Tải xuống Hadoop
Chọn ổn định
Chọn file tar.gz (không phải file có src)
Sau khi tải xuống hoàn tất, hãy điều hướng đến thư mục chứa tệp tar
nhập,
sudo tar xzf hadoop-2.2.0.tar.gz
Bây giờ, đổi tên hadoop-2.2.0 thành hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Phần 2) Định cấu hình Hadoop
Bước 1) Sửa đổi ~ / .bashrc hồ sơ
Thêm các dòng sau vào cuối tệp ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME=<Installation Directory of Hadoop> #Set JAVA_HOME export JAVA_HOME=<Installation Directory of Java> # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin
Bây giờ, tìm nguồn cấu hình môi trường này bằng lệnh bên dưới
. ~/.bashrc
Bước 2) Cấu hình liên quan đến HDFS
Thiết lập JAVA_HOME tập tin bên trong $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Với
Có hai tham số trong $HADOOP_HOME/etc/hadoop/core-site.xml cần phải thiết lập-
1. 'hadoop.tmp.dir' – Được sử dụng để chỉ định một thư mục sẽ được Hadoop sử dụng để lưu trữ các tệp dữ liệu của nó.
2. 'fs.default.name' – Điều này chỉ định hệ thống tập tin mặc định.
Để đặt các tham số này, hãy mở core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Sao chép dòng dưới đây vào giữa các thẻ
<property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description>Parent directory for other temporary directories.</description> </property> <property> <name>fs.defaultFS </name> <value>hdfs://localhost:54310</value> <description>The name of the default file system. </description> </property>
Điều hướng đến thư mục $HADOOP_HOME/etc/Hadoop
Bây giờ, tạo thư mục được đề cập trong core-site.xml
sudo mkdir -p <Path of Directory used in above setting>
Cấp quyền cho thư mục
sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>
sudo chmod 750 <Path of Directory created in above step>
Bước 3) Cấu hình giảm bản đồ
Trước khi bạn bắt đầu với các cấu hình này, hãy đặt đường dẫn HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
và nhập
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Tiếp theo nhập
sudo chmod +x /etc/profile.d/hadoop.sh
Thoát khỏi Terminal và khởi động lại
Nhập tiếng vang $HADOOP_HOME. Để xác minh đường dẫn
Bây giờ sao chép tập tin
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Mở mapred-site.xml hồ sơ
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Thêm các dòng cài đặt bên dưới vào giữa các thẻ Và
<property> <name>mapreduce.jobtracker.address</name> <value>localhost:54311</value> <description>MapReduce job tracker runs at this host and port. </description> </property>
Mở $HADOOP_HOME/etc/hadoop/hdfs-site.xml như sau,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Thêm các dòng cài đặt bên dưới giữa các thẻ Và
<property> <name>dfs.replication</name> <value>1</value> <description>Default block replication.</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hduser_/hdfs</value> </property>
Tạo một thư mục được chỉ định trong cài đặt ở trên-
sudo mkdir -p <Path of Directory used in above setting>
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750 <Path of Directory created in above step>
sudo chmod 750 /home/hduser_/hdfs
Bước 4) Trước khi chúng ta khởi động Hadoop lần đầu tiên, hãy định dạng HDFS bằng lệnh bên dưới
$HADOOP_HOME/bin/hdfs namenode -format
Bước 5) Bắt đầu cụm nút đơn Hadoop bằng lệnh bên dưới
$HADOOP_HOME/sbin/start-dfs.sh
Một đầu ra của lệnh trên
$HADOOP_HOME/sbin/start-yarn.sh
Sử dụng 'jps' công cụ/lệnh, xác minh xem tất cả các quy trình liên quan đến Hadoop có đang chạy hay không.
Nếu Hadoop đã khởi động thành công thì đầu ra của jps sẽ hiển thị NameNode, NodeManager, ResourceManager, PrimaryNameNode, DataNode.
Bước 6) Dừng Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh