25 câu hỏi và câu trả lời phỏng vấn kiểm tra ETL hàng đầu cho năm 2025
Câu hỏi phỏng vấn kiểm tra ETL dành cho người mới
1) ETL là gì?
Trong kiến trúc kho dữ liệu, ETL là một thành phần quan trọng, quản lý dữ liệu cho bất kỳ quy trình kinh doanh nào. ETL là viết tắt của Trích xuất, chuyển đổi và Phụ tải. Extract thực hiện quá trình đọc dữ liệu từ cơ sở dữ liệu. Transform thực hiện chuyển đổi dữ liệu sang định dạng có thể phù hợp cho việc báo cáo và phân tích. Trong khi đó, tải thực hiện quá trình ghi dữ liệu vào cơ sở dữ liệu đích.
👉 Tải xuống bản PDF miễn phí: Câu hỏi và câu trả lời phỏng vấn kiểm tra ETL
2) Giải thích các hoạt động thử nghiệm ETL bao gồm những gì?
Kiểm tra ETL bao gồm:
- Xác minh xem dữ liệu có chuyển đổi chính xác theo yêu cầu kinh doanh hay không
- Xác minh rằng dữ liệu dự kiến được tải vào kho dữ liệu mà không bị cắt bớt và mất dữ liệu
- Đảm bảo rằng ứng dụng ETL báo cáo dữ liệu không hợp lệ và thay thế bằng giá trị mặc định
- Đảm bảo rằng dữ liệu tải vào khung thời gian dự kiến để cải thiện khả năng mở rộng và hiệu suất
3) Nêu các loại ứng dụng kho dữ liệu và sự khác biệt giữa khai thác dữ liệu và lưu trữ dữ liệu?
Các loại ứng dụng kho dữ liệu
- Xử lý thông tin
- Xử lý phân tích
- Khai thác dữ liệu
Khai thác dữ liệu có thể được định nghĩa là quá trình trích xuất thông tin dự đoán ẩn từ cơ sở dữ liệu lớn và giải thích dữ liệu trong khi kho dữ liệu có thể sử dụng mỏ dữ liệu để xử lý phân tích dữ liệu theo cách nhanh hơn. Kho dữ liệu là quá trình tổng hợp dữ liệu từ nhiều nguồn vào một kho chung
4) Các công cụ khác nhau được sử dụng trong ETL là gì?
- Luồng quyết định Cognos
- Oracle Người xây dựng kho
- Đối tượng kinh doanh XI
- Kho kinh doanh SAS
- Máy chủ ETL doanh nghiệp SAS
5) Sự thật là gì? Các loại sự thật là gì?
Nó là thành phần trung tâm của mô hình đa chiều chứa các thước đo cần phân tích. Sự thật có liên quan đến kích thước.
Các loại sự thật là
- Sự kiện phụ gia
- Sự kiện bán phụ gia
- Sự kiện không phụ gia
6) Giải thích Cubes và OLAP Cubes là gì?
Khối là đơn vị xử lý dữ liệu bao gồm các bảng dữ kiện và kích thước từ kho dữ liệu. Nó cung cấp phân tích đa chiều.
OLAP là viết tắt của Xử lý phân tích trực tuyến và khối OLAP lưu trữ dữ liệu lớn ở dạng đa chiều cho mục đích báo cáo. Nó bao gồm các sự kiện được gọi là thước đo được phân loại theo thứ nguyên.
7) Giải thích mức truy vết là gì và có những loại nào?
Mức độ theo dõi là lượng dữ liệu được lưu trữ trong các tệp nhật ký. Mức độ theo dõi có thể được phân loại thành hai loại Bình thường và Chi tiết. Mức bình thường giải thích mức độ theo dõi một cách chi tiết trong khi chi tiết giải thích các mức theo dõi ở mỗi hàng.
8) Giải thích Grain of Fact là gì?
Thông tin thực tế có thể được định nghĩa là mức độ lưu trữ thông tin thực tế. Nó còn được gọi là độ chi tiết thực tế
9) Giải thích lược đồ thực tế phi thực tế là gì và Biện pháp là gì?
Một bảng dữ kiện không có độ đo được gọi là bảng dữ kiện không có dữ kiện. Nó có thể xem số lượng các sự kiện xảy ra. Ví dụ: nó được sử dụng để ghi lại một sự kiện như số lượng nhân viên trong một công ty.
Dữ liệu số dựa trên các cột trong bảng thực tế được gọi là Số đo
10) Giải thích biến đổi là gì?
Phép biến đổi là một đối tượng kho lưu trữ tạo, sửa đổi hoặc truyền dữ liệu. Biến đổi có hai loại Chủ động và Bị động
Câu hỏi và câu trả lời phỏng vấn nhà phát triển ETL dành cho người có kinh nghiệm
11) Giải thích công dụng của Phép biến đổi tra cứu?
Tra cứu chuyển đổi rất hữu ích cho
- Lấy giá trị liên quan từ bảng bằng giá trị cột
- Cập nhật bảng thứ nguyên thay đổi chậm
- Xác minh xem các bản ghi đã tồn tại trong bảng chưa
12) Giải thích thế nào là phân vùng, phân vùng băm và phân vùng vòng tròn?
Để cải thiện hiệu suất, các giao dịch được chia nhỏ, đây được gọi là Phân vùng. Phân vùng cho phép Tin học Máy chủ để tạo nhiều kết nối đến nhiều nguồn khác nhau
Các loại phân vùng là
Phân vùng theo vòng tròn:
- Bởi dữ liệu informatica được phân bố đều giữa tất cả các phân vùng
- Trong mỗi phân vùng có số lượng hàng cần xử lý gần như giống nhau, cách phân vùng này có thể được áp dụng
Phân vùng băm:
- Với mục đích phân vùng các khóa để nhóm dữ liệu giữa các phân vùng, máy chủ Informatica áp dụng hàm băm
- Nó được sử dụng khi đảm bảo các nhóm quy trình có cùng khóa phân vùng trong cùng một phân vùng cần được đảm bảo
13) Hãy nêu lợi ích của việc sử dụng DataReader Destination Adapter là gì?
Ưu điểm của việc sử dụng Bộ điều hợp đích DataReader là nó chứa một tập bản ghi ADO (bao gồm các bản ghi và cột) trong bộ nhớ và hiển thị dữ liệu từ tác vụ DataFlow bằng cách triển khai giao diện DataReader để ứng dụng khác có thể sử dụng dữ liệu.
14) Sử dụng SSIS (Dịch vụ tích hợp máy chủ SQL), những cách nào có thể cập nhật bảng?
Để cập nhật bảng bằng SSIS, các cách có thể là:
- Sử dụng SQL lệnh
- Sử dụng bảng phân tầng
- Sử dụng bộ đệm
- Sử dụng tác vụ tập lệnh
- Sử dụng tên cơ sở dữ liệu đầy đủ để cập nhật nếu sử dụng MSSQL
15) Trong trường hợp bạn có nguồn không phải OLEDB (Cơ sở dữ liệu liên kết và nhúng đối tượng) để tra cứu, bạn sẽ làm gì?
Trong trường hợp bạn có nguồn không phải OLEBD để tra cứu thì bạn phải sử dụng Cache để tải dữ liệu và sử dụng làm nguồn
16) Trong trường hợp nào bạn sử dụng bộ đệm động và bộ đệm tĩnh trong các phép biến đổi được kết nối và không được kết nối?
- Bộ đệm động được sử dụng khi bạn phải cập nhật bảng chính và thay đổi kích thước chậm (SCD) loại 1
- Đối với các tập tin phẳng Bộ đệm tĩnh được sử dụng
17) Giải thích sự khác biệt giữa tra cứu Không được kết nối và Tra cứu được kết nối?
Tra cứu được kết nối | Tra cứu không được kết nối |
---|---|
Tra cứu được kết nối tham gia ánh xạ | Nó được sử dụng khi sử dụng hàm tra cứu thay vì chuyển đổi biểu thức trong khi ánh xạ |
Nhiều giá trị có thể được trả về | Chỉ trả về một cổng đầu ra |
Nó có thể được kết nối với các phép biến đổi khác và trả về một giá trị | Một chuyển đổi khác không thể được kết nối |
Bộ đệm tĩnh hoặc động có thể được sử dụng để Tra cứu được kết nối | Không được kết nối dưới dạng bộ nhớ đệm tĩnh |
Tra cứu được kết nối hỗ trợ các giá trị mặc định do người dùng xác định | Tra cứu không được kết nối không hỗ trợ các giá trị mặc định do người dùng xác định |
Trong Tra cứu được kết nối, nhiều cột có thể được trả về từ cùng một hàng hoặc chèn vào bộ đệm tra cứu động | Tra cứu không được kết nối chỉ định một cổng trả về và trả về một cột từ mỗi hàng |
18) Giải thích nguồn dữ liệu xem là gì?
Chế độ xem nguồn dữ liệu cho phép xác định lược đồ quan hệ sẽ được sử dụng trong cơ sở dữ liệu dịch vụ phân tích. Thay vì trực tiếp từ các đối tượng nguồn dữ liệu, các kích thước và hình khối được tạo từ các chế độ xem nguồn dữ liệu.
19) Giải thích sự khác biệt giữa công cụ OLAP và công cụ ETL?
Sự khác biệt giữa công cụ ETL và OLAP là
Công cụ ETL có nghĩa là để trích xuất dữ liệu từ các hệ thống cũ và tải vào cơ sở dữ liệu được chỉ định bằng một số quy trình làm sạch dữ liệu.
Ví dụ: Giai đoạn dữ liệu, Informatica, v.v.
Trong khi OLAP nhằm mục đích báo cáo thì dữ liệu OLAP có sẵn ở mô hình đa hướng.
Ví dụ: Đối tượng kinh doanh, Cognos, v.v.
20) Làm thế nào bạn có thể trích xuất SAP dữ liệu sử dụng Informatica?
- Với tùy chọn kết nối nguồn bạn trích xuất SAP dữ liệu sử dụng tin học
- Cài đặt và cấu hình công cụ PowerConnect
- Nhập nguồn vào Bộ phân tích nguồn. Giữa Informatica và SAP Powerconnect hoạt động như một cổng. Bước tiếp theo là tạo mã ABAP để ánh xạ, sau đó chỉ có tin học mới có thể lấy dữ liệu từ SAP
- Để kết nối và nhập nguồn từ hệ thống bên ngoài Power Connect được sử dụng
21) Hãy nêu sự khác biệt giữa Power Mart và Power Center?
Trung tâm điện lực | siêu thị điện |
---|---|
Giả sử xử lý khối lượng dữ liệu khổng lồ | Giả sử xử lý khối lượng dữ liệu thấp |
Nó hỗ trợ các nguồn ERP như SAP, người mềm vv. | Nó không hỗ trợ các nguồn ERP |
Nó hỗ trợ kho lưu trữ cục bộ và toàn cầu | Nó hỗ trợ kho lưu trữ cục bộ |
Nó chuyển đổi kho lưu trữ cục bộ thành kho lưu trữ toàn cầu | Nó không có đặc điểm kỹ thuật để chuyển đổi kho lưu trữ cục bộ thành kho lưu trữ toàn cầu |
22) Giải thích khu vực tổ chức là gì và mục đích của khu vực tổ chức là gì?
Data staging là một khu vực nơi bạn giữ dữ liệu tạm thời trên máy chủ kho dữ liệu. Data staging bao gồm các bước sau
- Trích xuất dữ liệu nguồn và chuyển đổi dữ liệu (tái cấu trúc)
- Chuyển đổi dữ liệu (làm sạch dữ liệu, chuyển đổi giá trị)
- Thay thế các nhiệm vụ chính
23) Lược đồ xe buýt là gì?
Để các quy trình kinh doanh khác nhau xác định các kích thước chung, lược đồ BUS được sử dụng. Nó đi kèm với một kích thước phù hợp cùng với một định nghĩa thông tin được tiêu chuẩn hóa
24) Giải thích thanh lọc dữ liệu là gì?
Thanh lọc dữ liệu là một quá trình xóa dữ liệu khỏi kho dữ liệu. Nó xóa các hàng giống như dữ liệu rác có giá trị null hoặc khoảng trắng thừa.
25) Giải thích Schema Object là gì?
Các đối tượng lược đồ là cấu trúc logic tham chiếu trực tiếp đến dữ liệu cơ sở dữ liệu. Các đối tượng lược đồ bao gồm các bảng, dạng xem, từ đồng nghĩa trình tự, chỉ mục, cụm, gói chức năng và liên kết cơ sở dữ liệu
26) Giải thích các thuật ngữ Session, Worklet, Mapplet và Workflow?
- cây phong: Nó sắp xếp hoặc tạo ra các tập hợp biến đổi
- Công việc: Nó đại diện cho một tập hợp các nhiệm vụ cụ thể được đưa ra
- Quy trình làm việc: Đó là một tập hợp các hướng dẫn cho máy chủ biết cách thực hiện các tác vụ
- Phiên: Đó là một tập hợp các tham số cho máy chủ biết cách di chuyển dữ liệu từ nguồn đến đích
Những câu hỏi phỏng vấn này cũng sẽ giúp ích cho bài thi viva(orals) của bạn