Hơn 60 câu hỏi và câu trả lời phỏng vấn kỹ sư dữ liệu vào năm 2025
Câu hỏi phỏng vấn kỹ sư dữ liệu dành cho người mới
1) Giải thích Kỹ thuật dữ liệu.
Kỹ thuật dữ liệu là một thuật ngữ được sử dụng trong dữ liệu lớn. Nó tập trung vào việc ứng dụng thu thập và nghiên cứu dữ liệu. Dữ liệu được tạo từ nhiều nguồn khác nhau chỉ là dữ liệu thô. Kỹ thuật dữ liệu giúp chuyển đổi dữ liệu thô này thành thông tin hữu ích.
2) Mô hình hóa dữ liệu là gì?
Mô hình dữ liệu là phương pháp ghi lại thiết kế phần mềm phức tạp dưới dạng sơ đồ để bất kỳ ai cũng có thể dễ dàng hiểu được. Đây là biểu diễn khái niệm của các đối tượng dữ liệu được liên kết giữa các đối tượng dữ liệu khác nhau và các quy tắc.
3) Liệt kê các loại lược đồ thiết kế khác nhau trong Mô hình hóa dữ liệu
Chủ yếu có hai loại lược đồ trong mô hình hóa dữ liệu: 1) Lược đồ hình sao và 2) Lược đồ bông tuyết.
4) Phân biệt dữ liệu có cấu trúc và không cấu trúc
Sau đây là sự khác biệt giữa dữ liệu có cấu trúc và không có cấu trúc:
Tham số | Dữ liệu có cấu trúc | Dữ liệu phi cấu trúc |
---|---|---|
Kho lưu trữ | DBMS | Cấu trúc tệp không được quản lý |
Tiêu chuẩn | ADO.net, ODBC và SQL | STMP, XML, CSV và SMS |
Công cụ tích hợp | ELT (Trích xuất, chuyển đổi, tải) | Nhập dữ liệu thủ công hoặc xử lý hàng loạt bao gồm mã |
mở rộng quy mô | Việc mở rộng quy mô lược đồ là khó khăn | Việc mở rộng quy mô rất dễ dàng. |
5) Giải thích tất cả các thành phần của ứng dụng Hadoop
Sau đây là các thành phần của ứng dụng Hadoop:
- Hadoop chung: Nó là một tập hợp các tiện ích và thư viện phổ biến được Hadoop sử dụng.
- HDFS: Ứng dụng Hadoop này liên quan đến hệ thống tệp nơi lưu trữ dữ liệu Hadoop. Nó là một hệ thống tập tin phân tán có băng thông cao.
- Bản đồ HadoopGiảm: Nó dựa trên thuật toán để cung cấp xử lý dữ liệu quy mô lớn.
- SỢI Hadoop: Nó được sử dụng để quản lý tài nguyên trong cụm Hadoop. Nó cũng có thể được sử dụng để lập lịch tác vụ cho người dùng.
6) NameNode là gì?
Nó là trung tâm của HDFS. Nó lưu trữ dữ liệu HDFS và theo dõi các tệp khác nhau trên các cụm. Ở đây, dữ liệu thực tế không được lưu trữ. Dữ liệu được lưu trữ trong DataNodes.
7) Xác định phát trực tuyến Hadoop
Nó là một tiện ích cho phép tạo bản đồ và Giảm công việc và gửi chúng đến một cụm cụ thể.
8) Hình thức đầy đủ của HDFS là gì?
HDFS là viết tắt của Hệ thống tệp phân tán Hadoop.
9) Xác định khối và quét khối trong HDFS
Khối là đơn vị nhỏ nhất của một tệp dữ liệu. Hadoop tự động chia các tệp lớn thành các phần nhỏ.
Block Scanner xác minh danh sách các khối được trình bày trên DataNode.
10) Các bước xảy ra khi Block Scanner phát hiện khối dữ liệu bị hỏng là gì?
Sau đây là các bước xảy ra khi Block Scanner tìm thấy khối dữ liệu bị hỏng:
1) Trước hết, khi Block Scanner tìm thấy khối dữ liệu bị hỏng, DataNode sẽ báo cáo cho NameNode
2) NameNode bắt đầu quá trình tạo bản sao mới bằng cách sử dụng bản sao của khối bị hỏng.
3) Số lần sao chép của các bản sao chính xác sẽ cố gắng khớp với hệ số sao chép. Nếu kết quả tìm thấy khối dữ liệu bị hỏng sẽ không bị xóa.
11) Kể tên hai tin nhắn mà NameNode nhận được từ DataNode?
Có hai tin nhắn mà NameNode nhận được từ DataNode. Đó là 1) Báo cáo chặn và 2) Nhịp tim.
12) Liệt kê các tệp cấu hình XML khác nhau trong Hadoop?
Có năm tệp cấu hình XML trong Hadoop:
- trang web được ánh xạ
- Trang web cốt lõi
- Trang web HDFS
- Nơi sản xuất sợi
13) Bốn chữ V của dữ liệu lớn là gì?
Bốn chữ V của dữ liệu lớn là:
- Vận tốc
- SỰ ĐA DẠNG
- Khối lượng
- Tính xác thực
14) Giải thích các tính năng của Hadoop
Các tính năng quan trọng của Hadoop là:
- Nó là một framework mã nguồn mở có sẵn phần mềm miễn phí.
- Hadoop tương thích với nhiều loại phần cứng và dễ dàng truy cập phần cứng mới trong một nút cụ thể.
- Hadoop hỗ trợ xử lý dữ liệu được phân phối nhanh hơn.
- Nó lưu trữ dữ liệu trong cụm, độc lập với các hoạt động còn lại.
- Hadoop cho phép tạo 3 bản sao cho mỗi khối với các nút khác nhau.
15) Giải thích các phương thức chính của Giảm tốc
- setup (): Nó được sử dụng để định cấu hình các tham số như kích thước của dữ liệu đầu vào và bộ đệm được phân phối.
- cleanup(): Phương thức này được sử dụng để dọn dẹp các file tạm thời.
- less(): Đây là trái tim của bộ giảm tốc được gọi một lần cho mỗi khóa với tác vụ rút gọn liên quan
16) COSHH viết tắt là gì?
Viết tắt của COSHH là Lịch trình dựa trên phân loại và tối ưu hóa cho các hệ thống Hadoop không đồng nhất.
17) Giải thích lược đồ sao
Lược đồ sao hoặc Lược đồ Star Join là loại lược đồ Kho dữ liệu đơn giản nhất. Nó được gọi là lược đồ hình sao vì cấu trúc của nó giống như một ngôi sao. Trong lược đồ Ngôi sao, tâm của ngôi sao có thể có một bảng dữ kiện và nhiều bảng chiều liên quan. Lược đồ này được sử dụng để truy vấn các tập dữ liệu lớn.
18) Triển khai giải pháp dữ liệu lớn như thế nào?
Thực hiện theo các bước sau để triển khai giải pháp dữ liệu lớn.
1) Tích hợp dữ liệu bằng các nguồn dữ liệu như RDBMS, SAP, MySQL, Salesforce
2) Lưu trữ dữ liệu được trích xuất trong cơ sở dữ liệu NoSQL hoặc HDFS.
3) Triển khai giải pháp dữ liệu lớn bằng cách sử dụng các khung xử lý như Pig, Sparkvà MapReduce.
19) Giải thích FSCK
Kiểm tra hệ thống tệp hoặc FSCK là lệnh được HDFS sử dụng. Lệnh FSCK được sử dụng để kiểm tra sự không nhất quán và vấn đề trong tệp.
20) Giải thích sơ đồ bông tuyết
A Lược đồ bông tuyết là phần mở rộng của Lược đồ hình sao và nó bổ sung thêm các chiều bổ sung. Nó được gọi là bông tuyết vì sơ đồ của nó trông giống như Bông tuyết. Các bảng thứ nguyên được chuẩn hóa, chia dữ liệu thành các bảng bổ sung.
21) Phân biệt lược đồ sao và lược đồ bông tuyết
Ngôi sao | Lược đồ bông tuyết |
Phân cấp kích thước được lưu trữ trong bảng kích thước. | Mỗi hệ thống phân cấp được lưu trữ vào các bảng riêng biệt. |
Khả năng dư thừa dữ liệu rất cao | Khả năng dư thừa dữ liệu là thấp. |
Nó có thiết kế DB rất đơn giản | Nó có thiết kế DB phức tạp |
Cung cấp một cách nhanh hơn để xử lý khối | Quá trình xử lý khối lập phương chậm do phép ghép phức tạp. |
22) Giải thích hệ thống tệp phân tán Hadoop
Hadoop hoạt động với các hệ thống tệp phân tán có khả năng mở rộng như S3, HFTP FS, FS và HDFS. Hệ thống tệp phân tán Hadoop được tạo trên Hệ thống tệp Google. Hệ thống tệp này được thiết kế theo cách có thể dễ dàng chạy trên một cụm lớn của hệ thống máy tính.
23) Giải thích trách nhiệm chính của kỹ sư dữ liệu
Kỹ sư dữ liệu có nhiều trách nhiệm. Họ quản lý hệ thống nguồn dữ liệu. Kỹ sư dữ liệu đơn giản hóa cấu trúc dữ liệu phức tạp và ngăn ngừa sự trùng lặp dữ liệu. Nhiều lần họ cũng cung cấp ELT và chuyển đổi dữ liệu.
24) Dạng đầy đủ của YARN là gì?
Hình thức đầy đủ của YARN là Yet Another Resource Negotiator.
25) Liệt kê các chế độ khác nhau trong Hadoop
Các chế độ trong Hadoop là 1) Chế độ độc lập 2) Chế độ phân phối giả 3) Chế độ phân phối đầy đủ.
26) Làm cách nào để đạt được bảo mật trong Hadoop?
Thực hiện các bước sau để đạt được tính bảo mật trong Hadoop:
1) Bước đầu tiên là bảo mật kênh xác thực của máy khách với máy chủ. Cung cấp dấu thời gian cho khách hàng.
2) Ở bước thứ hai, khách hàng sử dụng dấu thời gian nhận được để yêu cầu TGS cấp phiếu dịch vụ.
3) Ở bước cuối cùng, khách hàng sử dụng phiếu dịch vụ để tự xác thực đến một máy chủ cụ thể.
27) Nhịp tim trong Hadoop là gì?
Trong Hadoop, NameNode và DataNode giao tiếp với nhau. Nhịp tim là tín hiệu được DataNode gửi đến NameNode một cách thường xuyên để thể hiện sự hiện diện của nó.
28) Phân biệt NAS và DAS trong Hadoop
NAS | DAS |
Dung lượng lưu trữ là 109 để 1012 tính bằng byte. | Dung lượng lưu trữ là 109 tính bằng byte. |
Chi phí quản lý trên mỗi GB ở mức vừa phải. | Chi phí quản lý trên mỗi GB cao. |
Truyền dữ liệu bằng Ethernet hoặc TCP/IP. | Truyền dữ liệu bằng IDE/SCSI |
29) Liệt kê các trường hoặc ngôn ngữ quan trọng được kỹ sư dữ liệu sử dụng
Dưới đây là một số trường hoặc ngôn ngữ được kỹ sư dữ liệu sử dụng:
- Xác suất cũng như đại số tuyến tính
- học máy
- Phân tích xu hướng và hồi quy
- Cơ sở dữ liệu Hive QL và SQL
30) Dữ liệu lớn là gì?
Đó là một lượng lớn dữ liệu có cấu trúc và phi cấu trúc, không thể xử lý dễ dàng bằng các phương pháp lưu trữ dữ liệu truyền thống. Các kỹ sư dữ liệu đang sử dụng Hadoop để quản lý dữ liệu lớn.
Câu hỏi phỏng vấn kỹ sư dữ liệu dành cho người có kinh nghiệm
31) Lập kế hoạch FIFO là gì?
Nó là một thuật toán lập kế hoạch công việc của Hadoop. Trong lập lịch FIFO này, người báo cáo chọn công việc từ hàng đợi công việc, công việc cũ nhất trước tiên.
32) Đề cập đến số cổng mặc định mà trình theo dõi tác vụ, NameNode và trình theo dõi công việc chạy trong Hadoop
Số cổng mặc định mà trình theo dõi tác vụ, NameNode và trình theo dõi công việc chạy trong Hadoop như sau:
- Trình theo dõi tác vụ chạy trên cổng 50060
- NameNode chạy trên cổng 50070
- Trình theo dõi công việc chạy trên cổng 50030
33) Cách tắt Trình quét khối trên Nút dữ liệu HDFS
Để tắt Trình quét khối trên Nút dữ liệu HDFS, hãy đặt dfs.datanode.scan. Period.hours thành 0.
34) Làm cách nào để xác định khoảng cách giữa hai nút trong Hadoop?
Khoảng cách bằng tổng khoảng cách đến các nút gần nhất. Phương thức getDistance() được sử dụng để tính khoảng cách giữa hai nút.
35) Tại sao nên sử dụng phần cứng thông dụng trong Hadoop?
Phần cứng hàng hóa dễ dàng có được và giá cả phải chăng. Đây là một hệ thống tương thích với Windows, MS-DOS hoặc Linux.
36) Xác định hệ số sao chép trong HDFS
Hệ số sao chép là tổng số bản sao của một tệp trong hệ thống.
37) Dữ liệu nào được lưu trữ trong NameNode?
Nút tên lưu trữ siêu dữ liệu cho HDFS như thông tin khối và thông tin không gian tên.
38) Bạn có ý nghĩa gì khi nói về Nhận thức về Giá?
Trong cụm Haddop, Namenode sử dụng Datanode để cải thiện lưu lượng mạng trong khi đọc hoặc ghi bất kỳ tệp nào ở gần giá đỡ gần đó hơn để thực hiện yêu cầu Đọc hoặc Ghi. Namenode duy trì id giá của mỗi DataNode để đạt được thông tin về giá. Khái niệm này được gọi là Nhận thức về giá trong Hadoop.
39) Chức năng của NameNode phụ là gì?
Sau đây là các chức năng của Secondary NameNode:
- FsImage lưu trữ bản sao của tệp EditLog và FsImage.
- Sự cố NameNode: Nếu NameNode gặp sự cố thì FsImage của NameNode phụ có thể được sử dụng để tạo lại NameNode.
- Điểm kiểm tra: Nó được NameNode phụ sử dụng để xác nhận rằng dữ liệu không bị hỏng trong HDFS.
- Cập nhật: Nó tự động cập nhật tệp EditLog và FsImage. Nó giúp cập nhật tệp FsImage trên NameNode phụ.
40) Điều gì xảy ra khi NameNode ngừng hoạt động và người dùng gửi công việc mới?
NameNode là điểm lỗi duy nhất trong Hadoop nên người dùng không thể gửi công việc mới không thể thực thi được. Nếu NameNode không hoạt động thì công việc có thể không thành công, do người dùng này cần đợi NameNode khởi động lại trước khi chạy bất kỳ công việc nào.
41) Các giai đoạn cơ bản của bộ giảm tốc trong Hadoop là gì?
Có ba giai đoạn cơ bản của bộ giảm tốc trong Hadoop:
1. Xáo trộn: Ở đây, Giảm tốc sao chép đầu ra từ Mapper.
2. Sắp xếp: Trong sắp xếp, Hadoop sắp xếp đầu vào vào Giảm tốc bằng cùng một khóa.
3. Giảm: Trong giai đoạn này, các giá trị đầu ra liên quan đến khóa sẽ được giảm để hợp nhất dữ liệu thành đầu ra cuối cùng.
42) Tại sao Hadoop sử dụng đối tượng Ngữ cảnh?
Hadoop framework sử dụng đối tượng Context với lớp Mapper để tương tác với hệ thống còn lại. Đối tượng Context lấy thông tin chi tiết về cấu hình hệ thống và công việc trong hàm tạo của nó.
Chúng ta sử dụng đối tượng Context để truyền thông tin trong các phương thức setup(), cleanup() và map(). Đối tượng này cung cấp thông tin quan trọng trong quá trình hoạt động trên bản đồ.
43) Xác định Bộ kết hợp trong Hadoop
Đây là bước tùy chọn giữa Bản đồ và Giảm. Trình kết hợp lấy đầu ra từ hàm Bản đồ, tạo các cặp giá trị khóa và gửi tới Bộ giảm tốc Hadoop. Nhiệm vụ của Combiner là tóm tắt kết quả cuối cùng từ Map thành các bản ghi tóm tắt có khóa giống hệt nhau.
44) Hệ số sao chép mặc định có sẵn trong HDFS Nó chỉ ra điều gì?
Hệ số sao chép mặc định có sẵn trong HDFS là ba. Hệ số sao chép mặc định cho biết rằng sẽ có ba bản sao của mỗi dữ liệu.
45) Ý bạn là Địa phương dữ liệu trong Hadoop?
Trong hệ thống Dữ liệu lớn, kích thước của dữ liệu rất lớn và đó là lý do tại sao việc di chuyển dữ liệu qua mạng là không có ý nghĩa. Giờ đây, Hadoop cố gắng đưa tính toán đến gần hơn với dữ liệu. Bằng cách này, dữ liệu vẫn cục bộ ở vị trí được lưu trữ.
46) Xác định Trình cân bằng trong HDFS
Trong HDFS, bộ cân bằng là một công cụ quản trị được nhân viên quản trị sử dụng để cân bằng lại dữ liệu trên các DataNodes và di chuyển các khối từ các nút được sử dụng quá mức sang các nút không được sử dụng đúng mức.
47) Giải thích Chế độ an toàn trong HDFS
Đây là chế độ chỉ đọc của NameNode trong một cụm. Ban đầu, NameNode ở chế độ Safemode. Nó ngăn chặn việc ghi vào hệ thống tập tin trong Safemode. Tại thời điểm này, nó thu thập dữ liệu và số liệu thống kê từ tất cả các DataNodes.
48) Tầm quan trọng của Bộ nhớ đệm phân tán trong Apache Hadoop là gì?
Hadoop có một tính năng tiện ích hữu ích được gọi là Bộ đệm phân tán giúp cải thiện hiệu suất công việc bằng cách lưu vào bộ nhớ đệm các tệp được ứng dụng sử dụng. Một ứng dụng có thể chỉ định tệp cho bộ đệm bằng cấu hình JobConf.
Khung công tác Hadoop tạo bản sao của các tệp này tới các nút mà một tác vụ phải được thực thi. Việc này được thực hiện trước khi việc thực hiện nhiệm vụ bắt đầu. Bộ nhớ đệm phân tán hỗ trợ phân phối các tệp chỉ đọc cũng như các tệp zip và jars.
49) Metastore trong Hive là gì?
Nó lưu trữ lược đồ cũng như vị trí bảng Hive.
Bảng Hive xác định, ánh xạ và siêu dữ liệu được lưu trữ trong Metastore. Điều này có thể được lưu trữ trong RDBMS được JPOX hỗ trợ.
50) SerDe trong Hive có ý nghĩa gì?
SerDe là tên viết tắt của Serializer hoặc Deserializer. Trong Hive, SerDe cho phép đọc dữ liệu từ bảng này sang và ghi vào một trường cụ thể ở bất kỳ định dạng nào bạn muốn.
51) Liệt kê các thành phần có sẵn trong mô hình dữ liệu Hive
Có các thành phần sau trong mô hình dữ liệu Hive:
- Bàn
- Phân vùng
- xô
52) Giải thích việc sử dụng Hive trong hệ sinh thái Hadoop.
Hive cung cấp giao diện để quản lý dữ liệu được lưu trữ trong hệ sinh thái Hadoop. Hive được sử dụng để lập bản đồ và làm việc với các bảng HBase. Các truy vấn Hive được chuyển đổi thành các tác vụ MapReduce để ẩn đi sự phức tạp liên quan đến việc tạo và chạy các tác vụ MapReduce.
53) Liệt kê các loại dữ liệu phức tạp/bộ sưu tập được Hive hỗ trợ
Hive hỗ trợ các kiểu dữ liệu phức tạp sau:
- Bản đồ
- Cấu trúc
- Mảng
- liên hiệp
54) Giải thích cách sử dụng tệp .hiverc trong Hive?
Trong Hive, .hiverc là tệp khởi tạo. Tệp này ban đầu được tải khi chúng tôi khởi động Giao diện dòng lệnh (CLI) cho Hive. Chúng ta có thể đặt giá trị ban đầu của các tham số trong tệp .hiverc.
55) Có thể tạo nhiều bảng trong Hive cho một tệp dữ liệu không?
Có, chúng ta có thể tạo nhiều lược đồ bảng cho một tệp dữ liệu. Hive lưu lược đồ trong Hive Metastore. Dựa trên lược đồ này, chúng tôi có thể truy xuất các kết quả khác nhau từ cùng một Dữ liệu.
56) Giải thích các cách triển khai SerDe khác nhau có sẵn trong Hive
Có nhiều triển khai SerDe có sẵn trong Hive. Bạn cũng có thể viết triển khai SerDe tùy chỉnh của riêng mình. Sau đây là một số triển khai SerDe nổi tiếng:
- OpenCSVSerde
- RegexSerDe
- DelimitedJSONSerDe
- ByteStreamĐã gõSerDe
57) Liệt kê các hàm tạo bảng có sẵn trong Hive
Sau đây là danh sách các hàm tạo bảng:
- Nổ (mảng)
- JSON_tuple()
- Cây rơm()
- Nổ tung (bản đồ)
58) Bảng xiên trong Hive là gì?
Bảng lệch là bảng chứa các giá trị cột thường xuyên hơn. Trong Hive, khi chúng tôi chỉ định một bảng là SKEWED trong quá trình tạo, các giá trị sai lệch sẽ được ghi vào các tệp riêng biệt và các giá trị còn lại sẽ chuyển sang một tệp khác.
59) Liệt kê các đối tượng được tạo bởi câu lệnh create trong MySQL.
Các đối tượng được tạo bởi câu lệnh tạo trong MySQL như sau:
- Cơ sở dữ liệu
- Chỉ số
- Bàn
- người sử dang
- Thủ tục
- Cò súng
- Sự kiện
- Xem
- Chức năng
60) Cách xem cấu trúc cơ sở dữ liệu trong MySQL?
Để xem cấu trúc cơ sở dữ liệu trong MySQL, Bạn có thể sử dụng
Lệnh MÔ TẢ. Cú pháp của lệnh này là DESCRIBE Table name;
.
Câu hỏi phỏng vấn SQL dành cho kỹ sư dữ liệu
61) Cách tìm kiếm một Chuỗi cụ thể trong MySQL cột bảng?
Sử dụng toán tử regex để tìm kiếm một chuỗi trong MySQL cột. Ở đây, chúng ta cũng có thể định nghĩa nhiều loại biểu thức chính quy khác nhau và tìm kiếm bằng cách sử dụng biểu thức chính quy.
62) Giải thích cách phân tích dữ liệu và dữ liệu lớn có thể tăng doanh thu của công ty?
Sau đây là những cách phân tích dữ liệu và dữ liệu lớn có thể tăng doanh thu của công ty:
- Sử dụng dữ liệu hiệu quả để đảm bảo rằng doanh nghiệp tăng trưởng.
- Tăng giá trị khách hàng.
- Chuyển sang phân tích để cải thiện dự báo về mức độ nhân sự.
- Giảm chi phí sản xuất của các tổ chức.
Những câu hỏi phỏng vấn này cũng sẽ giúp ích cho bài thi viva(orals) của bạn