60 câu hỏi và câu trả lời phỏng vấn Hadoop hàng đầu (2025)
Dưới đây là các câu hỏi và câu trả lời phỏng vấn Hadoop MapReduce dành cho những ứng viên mới ra trường cũng như có nhiều kinh nghiệm để có được công việc mơ ước của họ.
Bản đồ HadoopGiảm các câu hỏi phỏng vấn
1) Giảm bản đồ Hadoop là gì?
Để xử lý song song các tập dữ liệu lớn trên cụm Hadoop, khung Hadoop MapReduce được sử dụng. Phân tích dữ liệu sử dụng bản đồ hai bước và quy trình rút gọn.
2) Hadoop MapReduce hoạt động như thế nào?
Trong MapReduce, trong giai đoạn ánh xạ, nó đếm các từ trong mỗi tài liệu, trong khi ở giai đoạn rút gọn, nó tổng hợp dữ liệu theo tài liệu bao trùm toàn bộ bộ sưu tập. Trong giai đoạn lập bản đồ, dữ liệu đầu vào được chia thành các phần tách để phân tích bằng các tác vụ bản đồ chạy song song trên khung Hadoop.
👉 Tải xuống bản PDF miễn phí: Câu hỏi và câu trả lời phỏng vấn Hadoop & MapReduce
3) Giải thích sự xáo trộn trong MapReduce là gì?
Quá trình mà hệ thống thực hiện sắp xếp và chuyển các đầu ra bản đồ sang bộ giảm tốc làm đầu vào được gọi là xáo trộn
4) Giải thích Cache phân tán trong MapReduce Framework là gì?
Bộ nhớ đệm phân tán là một tính năng quan trọng được cung cấp bởi khung MapReduce. Khi bạn muốn chia sẻ một số tệp trên tất cả các nút trong Hadoop Cluster, Bộ nhớ đệm phân tán được sử dụng. Các tệp có thể là tệp jar thực thi hoặc tệp thuộc tính đơn giản.

5) Giải thích NameNode trong Hadoop là gì?
NameNode trong Hadoop là nút nơi Hadoop lưu trữ tất cả thông tin vị trí tệp trong HDFS (Hệ thống tệp phân tán Hadoop). Nói cách khác, NameNode là trung tâm của hệ thống tệp HDFS. Nó giữ bản ghi của tất cả các tệp trong hệ thống tệp và theo dõi dữ liệu tệp trên cụm hoặc nhiều máy
6) Giải thích JobTracker trong Hadoop là gì? Những hành động tiếp theo của Hadoop là gì?
In Hadoop để gửi và theo dõi các công việc MapReduce, JobTracker được sử dụng. Trình theo dõi công việc chạy trên quy trình JVM của chính nó
Job Tracker thực hiện các hành động sau trong Hadoop
- Ứng dụng khách gửi công việc tới người theo dõi công việc
- JobTracker giao tiếp với chế độ Tên để xác định vị trí dữ liệu
- Gần dữ liệu hoặc với các vị trí có sẵn JobTracker định vị các nút TaskTracker
- Trên các Nút TaskTracker đã chọn, nó sẽ gửi công việc
- Khi một tác vụ thất bại, Trình theo dõi công việc sẽ thông báo và quyết định những việc cần làm sau đó.
- Các nút TaskTracker được giám sát bởi JobTracker
7) Giải thích nhịp tim trong HDFS là gì?
Nhịp tim được gọi là tín hiệu được sử dụng giữa nút dữ liệu và nút Tên và giữa trình theo dõi tác vụ và trình theo dõi công việc, nếu nút Tên hoặc trình theo dõi công việc không phản hồi với tín hiệu thì được coi là có một số vấn đề với nút dữ liệu hoặc tác vụ người theo dõi
8) Giải thích bộ kết hợp là gì và khi nào bạn nên sử dụng bộ kết hợp trong Công việc MapReduce?
Để tăng hiệu quả của Chương trình MapReduce, Bộ kết hợp được sử dụng. Lượng dữ liệu có thể được giảm bớt với sự trợ giúp của bộ kết hợp cần được chuyển qua bộ giảm tốc. Nếu thao tác được thực hiện có tính chất giao hoán và kết hợp, bạn có thể sử dụng mã rút gọn của mình làm bộ kết hợp. Việc thực thi bộ kết hợp không được đảm bảo trong Hadoop
9) Điều gì xảy ra khi nút dữ liệu bị lỗi?
Khi một nút dữ liệu bị lỗi
- Trình theo dõi công việc và nút tên phát hiện lỗi
- Trên nút bị lỗi, tất cả các tác vụ đều được lên lịch lại
- Namenode sao chép dữ liệu của người dùng sang một nút khác
10) Giải thích Thực thi suy đoán là gì?
Trong Hadoop trong quá trình Thực thi suy đoán, một số tác vụ trùng lặp nhất định sẽ được khởi chạy. Trên một nút nô lệ khác, nhiều bản sao của cùng một tác vụ bản đồ hoặc rút gọn có thể được thực thi bằng cách sử dụng Thực thi suy đoán. Nói một cách đơn giản, nếu một ổ đĩa cụ thể mất nhiều thời gian để hoàn thành một tác vụ, Hadoop sẽ tạo một tác vụ trùng lặp trên một đĩa khác. Đĩa nào hoàn thành nhiệm vụ trước sẽ được giữ lại và các đĩa không hoàn thành trước sẽ bị hủy.
11) Giải thích các thông số cơ bản của Mapper là gì?
Các tham số cơ bản của Mapper là
- Có thể ghi dài và văn bản
- Văn bản và IntWritable
12) Giải thích chức năng của trình phân vùng MapReduce là gì?
Chức năng của trình phân vùng MapReduce là đảm bảo rằng tất cả giá trị của một khóa sẽ chuyển đến cùng một bộ giảm tốc, cuối cùng điều này giúp phân phối đồng đều đầu ra bản đồ qua các bộ giảm tốc
13) Giải thích sự khác biệt giữa Khối phân chia đầu vào và Khối HDFS là gì?
Việc phân chia dữ liệu logic được gọi là Split trong khi phân chia dữ liệu vật lý được gọi là Khối HDFS
14) Giải thích điều gì xảy ra trong định dạng văn bản?
Trong định dạng nhập văn bản, mỗi dòng trong tệp văn bản là một bản ghi. Giá trị là nội dung của dòng trong khi Key là độ lệch byte của dòng. Ví dụ: Khóa: longWritable, Giá trị: văn bản
15) Hãy nêu các thông số cấu hình chính mà người dùng cần chỉ định để chạy MapReduce Job là gì?
Người dùng khung MapReduce cần chỉ định
- Vị trí đầu vào của công việc trong hệ thống tệp phân tán
- Vị trí đầu ra của công việc trong hệ thống tệp phân tán
- định dạng đầu vào
- Định dạng đầu ra
- Lớp chứa chức năng bản đồ
- Lớp chứa hàm rút gọn
- Tệp JAR chứa các lớp ánh xạ, trình giảm tốc và trình điều khiển
16) Giải thích WebDAV trong Hadoop là gì?
Để hỗ trợ chỉnh sửa và cập nhật tệp WebDAV là một tập hợp các tiện ích mở rộng cho HTTP. Trên hầu hết các hệ điều hành, các chia sẻ WebDAV có thể được gắn kết dưới dạng hệ thống tệp, do đó có thể truy cập HDFS dưới dạng hệ thống tệp chuẩn bằng cách hiển thị HDFS qua WebDAV.
17) Giải thích Sqoop trong Hadoop là gì?
Để truyền dữ liệu giữa Quản lý cơ sở dữ liệu quan hệ (RDBMS) và Hadoop HDFS một công cụ được sử dụng được gọi là Sqoop. Sử dụng dữ liệu Sqoop có thể được chuyển từ RDMS như MySQL or Oracle vào HDFS cũng như xuất dữ liệu từ tệp HDFS sang RDBMS
18) Giải thích cách JobTracker lên lịch một nhiệm vụ?
Trình theo dõi tác vụ thường gửi tin nhắn nhịp tim đến Jobtracker vài phút một lần để đảm bảo rằng JobTracker đang hoạt động và hoạt động. Thông báo này cũng thông báo cho JobTracker về số lượng vị trí có sẵn, do đó, JobTracker có thể cập nhật nơi nào công việc của cụm có thể được ủy quyền
19) Giải thích Sequencefileinputformat là gì?
Sequencefileinputformat được sử dụng để đọc các tập tin theo trình tự. Đây là một định dạng tệp nhị phân nén cụ thể được tối ưu hóa để truyền dữ liệu giữa đầu ra của một công việc MapReduce tới đầu vào của một số công việc MapReduce khác.
20) Giải thích lớp conf.setMapper làm gì?
Conf.setMapperclass đặt lớp trình ánh xạ và tất cả nội dung liên quan đến công việc ánh xạ, chẳng hạn như đọc dữ liệu và tạo cặp khóa-giá trị từ trình ánh xạ
21) Giải thích Hadoop là gì?
Nó là một khung phần mềm nguồn mở để lưu trữ dữ liệu và chạy các ứng dụng trên các cụm phần cứng thông dụng. Nó cung cấp sức mạnh xử lý khổng lồ và dung lượng lưu trữ khổng lồ cho bất kỳ loại dữ liệu nào.
22) Hãy nêu sự khác biệt giữa RDBMS và Hadoop là gì?
RDBMS | Hadoop |
---|---|
RDBMS là một hệ thống quản lý cơ sở dữ liệu quan hệ | Hadoop là một cấu trúc phẳng dựa trên nút |
Nó được sử dụng để xử lý OLTP trong khi Hadoop | Nó hiện được sử dụng để phân tích và xử lý DỮ LIỆU LỚN |
Trong RDBMS, cụm cơ sở dữ liệu sử dụng cùng các tệp dữ liệu được lưu trữ trong bộ nhớ dùng chung | Trong Hadoop, dữ liệu lưu trữ có thể được lưu trữ độc lập trong mỗi nút xử lý. |
Bạn cần xử lý trước dữ liệu trước khi lưu trữ | bạn không cần xử lý trước dữ liệu trước khi lưu trữ nó |
23) Đề cập đến các thành phần cốt lõi của Hadoop?
Các thành phần cốt lõi của Hadoop bao gồm,
- HDFS
- Bản đồGiảm
24) NameNode trong Hadoop là gì?
NameNode trong Hadoop là nơi Hadoop lưu trữ tất cả thông tin vị trí tệp trong HDFS. Đây là nút chính nơi trình theo dõi công việc chạy và bao gồm siêu dữ liệu.
25) Đề cập đến các thành phần dữ liệu được Hadoop sử dụng là gì?
Các thành phần dữ liệu được Hadoop sử dụng là
26) Hãy nêu thành phần lưu trữ dữ liệu được Hadoop sử dụng là gì?
Thành phần lưu trữ dữ liệu được Hadoop sử dụng là HBase.
27) Đề cập đến các định dạng đầu vào phổ biến nhất được xác định trong Hadoop là gì?
Các định dạng đầu vào phổ biến nhất được xác định trong Hadoop là;
- Văn bảnInputĐịnh dạng
- KeyValueInputFormat
- SequenceFileInputFormat
28) Trong Hadoop, inputSplit là gì?
Nó chia các tệp đầu vào thành nhiều phần và gán từng phần tách cho một trình ánh xạ để xử lý.
29) Đối với công việc Hadoop, bạn sẽ viết trình phân vùng tùy chỉnh như thế nào?
Bạn viết một trình phân vùng tùy chỉnh cho một công việc Hadoop, bạn làm theo đường dẫn sau
- Tạo một lớp mới mở rộng Lớp phân vùng
- Ghi đè phương thức getPartition
- Trong trình bao bọc chạy MapReduce
- Thêm trình phân vùng tùy chỉnh vào công việc bằng cách sử dụng phương thức set Lớp phân vùng hoặc – thêm trình phân vùng tùy chỉnh vào công việc dưới dạng tệp cấu hình
30) Đối với một công việc trong Hadoop, có thể thay đổi số lượng người lập bản đồ được tạo không?
Không, không thể thay đổi số lượng người lập bản đồ sẽ được tạo. Số lượng người lập bản đồ được xác định bởi số lượng phân chia đầu vào.
31) Giải thích tệp trình tự trong Hadoop là gì?
Để lưu trữ các cặp khóa/giá trị nhị phân, tệp tuần tự được sử dụng. Không giống như tệp nén thông thường, tệp tuần tự hỗ trợ chia tách ngay cả khi dữ liệu bên trong tệp được nén.
32) Khi Namenode ngừng hoạt động, điều gì xảy ra với trình theo dõi công việc?
Nút tên là điểm lỗi duy nhất trong HDFS nên khi Nút tên không hoạt động, cụm của bạn sẽ khởi động.
33) Giải thích cách lập chỉ mục trong HDFS?
Hadoop có một cách lập chỉ mục độc đáo. Khi dữ liệu được lưu trữ theo kích thước khối, HDFS sẽ tiếp tục lưu trữ phần cuối cùng của dữ liệu cho biết phần tiếp theo của dữ liệu sẽ ở đâu.
34) Giải thích có thể tìm kiếm tập tin bằng ký tự đại diện không?
Có, có thể tìm kiếm tệp bằng ký tự đại diện.
35) Liệt kê ba tệp cấu hình của Hadoop?
Ba tập tin cấu hình là
- lõi-site.xml
- mapred-site.xml
- hdfs-site.xml
36) Giải thích cách bạn có thể kiểm tra xem Namenode có hoạt động hay không bằng cách sử dụng lệnh jps?
Ngoài việc sử dụng lệnh jps, để kiểm tra xem Namenode có hoạt động hay không bạn cũng có thể sử dụng
trạng thái /etc/init.d/hadoop-0.20-namenode.
37) Giải thích “bản đồ” là gì và “bộ giảm tốc” trong Hadoop là gì?
Trong Hadoop, bản đồ là một giai đoạn trong quá trình giải quyết truy vấn HDFS. Bản đồ đọc dữ liệu từ vị trí đầu vào và xuất ra một cặp giá trị khóa tùy theo loại đầu vào.
Trong Hadoop, bộ giảm tốc thu thập đầu ra do trình ánh xạ tạo ra, xử lý nó và tạo đầu ra cuối cùng của chính nó.
38) Trong Hadoop, tệp nào kiểm soát việc báo cáo trong Hadoop?
Trong Hadoop, tệp hadoop-metrics.properties kiểm soát việc báo cáo.
39) Để sử dụng Hadoop, hãy liệt kê các yêu cầu về mạng?
Để sử dụng Hadoop, danh sách các yêu cầu về mạng là:
- Kết nối SSH không cần mật khẩu
- Secure Shell (SSH) để khởi chạy các tiến trình máy chủ
40) Hãy nêu nhận thức về giá là gì?
Nhận thức về giá là cách mà nút tên xác định cách đặt các khối dựa trên định nghĩa về giá.
41) Giải thích Trình theo dõi tác vụ trong Hadoop là gì?
Trình theo dõi tác vụ trong Hadoop là một trình nền nút nô lệ trong cụm chấp nhận các tác vụ từ Trình theo dõi công việc. Nó cũng gửi tin nhắn nhịp tim đến JobTracker cứ sau vài phút để xác nhận rằng JobTracker vẫn còn hoạt động.
42) Đề cập đến những daemon nào chạy trên nút chính và nút phụ?
- Daemon chạy trên Master node là “NameNode”
- Daemon chạy trên mỗi nút Slave là “Task Tracker” và “Data”
43) Giải thích cách gỡ lỗi mã Hadoop?
Các phương pháp phổ biến để gỡ lỗi mã Hadoop là:
- Bằng cách sử dụng giao diện web được cung cấp bởi khung Hadoop
- Bằng cách sử dụng bộ đếm
44) Giải thích các nút lưu trữ và tính toán là gì?
- Nút lưu trữ là máy hoặc máy tính chứa hệ thống tệp của bạn để lưu trữ dữ liệu xử lý
- Nút điện toán là máy tính hoặc máy nơi logic nghiệp vụ thực tế của bạn sẽ được thực thi.
45) Nêu công dụng của Context Object là gì?
Đối tượng bối cảnh cho phép trình ánh xạ tương tác với phần còn lại của Hadoop
hệ thống. Nó bao gồm dữ liệu cấu hình cho công việc cũng như các giao diện cho phép nó phát ra đầu ra.
46) Đề cập đến bước tiếp theo sau Mapper hoặc MapTask là gì?
Bước tiếp theo sau Mapper hoặc MapTask là đầu ra của Mapper được sắp xếp và các phân vùng sẽ được tạo cho đầu ra.
47) Hãy cho biết số lượng trình phân vùng mặc định trong Hadoop là bao nhiêu?
Trong Hadoop, trình phân vùng mặc định là Trình phân vùng “Hash”.
48) Giải thích mục đích của RecordReader trong Hadoop là gì?
Trong Hadoop, RecordReader tải dữ liệu từ nguồn của nó và chuyển đổi dữ liệu thành các cặp (khóa, giá trị) phù hợp để Mapper đọc.
49) Giải thích dữ liệu được phân vùng như thế nào trước khi gửi đến bộ giảm tốc nếu không có bộ phân vùng tùy chỉnh nào được xác định trong Hadoop?
Nếu không có trình phân vùng tùy chỉnh nào được xác định trong Hadoop thì trình phân vùng mặc định sẽ tính giá trị băm cho khóa và gán phân vùng dựa trên kết quả.
50) Giải thích điều gì xảy ra khi Hadoop tạo ra 50 nhiệm vụ cho một công việc và một trong số các nhiệm vụ đó không thành công?
Nó sẽ khởi động lại tác vụ trên một số TaskTracker khác nếu tác vụ thất bại nhiều hơn giới hạn đã xác định.
51) Đề cập cách tốt nhất để sao chép tập tin giữa các cụm HDFS là gì?
Cách tốt nhất để sao chép tệp giữa các cụm HDFS là sử dụng nhiều nút và lệnh distcp để khối lượng công việc được chia sẻ.
52) Hãy cho biết sự khác biệt giữa HDFS và NAS là gì?
Các khối dữ liệu HDFS được phân phối trên các ổ đĩa cục bộ của tất cả các máy trong một cụm trong khi dữ liệu NAS được lưu trữ trên phần cứng chuyên dụng.
53) Hãy cho biết Hadoop khác với các công cụ xử lý dữ liệu khác như thế nào?
Trong Hadoop, bạn có thể tăng hoặc giảm số lượng người lập bản đồ mà không phải lo lắng về khối lượng dữ liệu cần xử lý.
54) Hãy cho biết lớp conf làm công việc gì?
Lớp conf công việc tách biệt các công việc khác nhau đang chạy trên cùng một cụm. Nó thực hiện các cài đặt cấp độ công việc như khai báo một công việc trong môi trường thực.
55) Đề cập đến hợp đồng API MapReduce của Hadoop cho lớp khóa và giá trị là gì?
Đối với một lớp khóa và giá trị, có hai hợp đồng API MapReduce của Hadoop
- Giá trị phải xác định giao diện org.apache.hadoop.io.Writable
- Khóa phải xác định giao diện org.apache.hadoop.io.WritableComparable
56) Đề cập đến ba chế độ mà Hadoop có thể chạy trong đó là gì?
Ba chế độ mà Hadoop có thể chạy là
- Chế độ phân phối giả
- Chế độ độc lập (cục bộ)
- Chế độ phân phối đầy đủ
57) Hãy nêu định dạng nhập văn bản có tác dụng gì?
Định dạng nhập văn bản sẽ tạo đối tượng dòng là số thập lục phân. Giá trị được coi là toàn bộ văn bản dòng trong khi khóa được coi là đối tượng dòng. Trình ánh xạ sẽ nhận giá trị dưới dạng tham số 'văn bản' trong khi khóa là tham số 'có thể ghi dài'.
58) Đề cập đến số lượng inputSplits được tạo bởi Hadoop Framework?
Hadoop sẽ thực hiện 5 lần chia tách
- 1 phần chia cho các tập tin 64K
- Chia 2 cho file 65mb
- Chia 2 file 127mb
59) Đề cập đến bộ đệm phân tán trong Hadoop là gì?
Bộ nhớ đệm phân tán trong Hadoop là một tiện ích được cung cấp bởi khung MapReduce. Tại thời điểm thực hiện công việc, nó được sử dụng để lưu trữ tập tin. Framework sao chép các tệp cần thiết vào nút nô lệ trước khi thực hiện bất kỳ tác vụ nào tại nút đó.
60) Giải thích Hadoop Classpath đóng vai trò quan trọng như thế nào trong việc dừng hoặc khởi động trong daemon của Hadoop?
Classpath sẽ bao gồm một danh sách các thư mục chứa các tệp jar để dừng hoặc khởi động trình nền.
Những câu hỏi phỏng vấn này cũng sẽ giúp ích cho bài thi viva(orals) của bạn