OLAP là gì? Khối lập phương, Phân tích Operacác vấn đề trong Kho dữ liệu

OLAP là gì?

Xử lý phân tích trực tuyến (OLAP) là một loại phần mềm cho phép người dùng phân tích thông tin từ nhiều hệ thống cơ sở dữ liệu cùng một lúc. Nó là một công nghệ cho phép các nhà phân tích trích xuất và xem dữ liệu kinh doanh từ các quan điểm khác nhau.

Các nhà phân tích thường xuyên cần nhóm, tổng hợp và nối dữ liệu. Các hoạt động OLAP trong khai thác dữ liệu này tiêu tốn nhiều tài nguyên. Với dữ liệu OLAP có thể được tính toán trước và tổng hợp trước, giúp việc phân tích nhanh hơn.

Cơ sở dữ liệu OLAP được chia thành một hoặc nhiều khối. Các khối được thiết kế theo cách giúp việc tạo và xem báo cáo trở nên dễ dàng. OLAP là viết tắt của Online Analytical Processing.

khối lập phương OLAP

Khối OLAP
Khối OLAP

Cốt lõi của khái niệm OLAP là Khối OLAP. Khối OLAP là một cấu trúc dữ liệu được tối ưu hóa để thực hiện rất nhanh phân tích dữ liệu.

Khối OLAP bao gồm các sự kiện số gọi là thước đo được phân loại theo thứ nguyên. OLAP Cube còn được gọi là siêu khối.

Thông thường, các thao tác và phân tích dữ liệu được thực hiện bằng bảng tính đơn giản, trong đó các giá trị dữ liệu được sắp xếp theo định dạng hàng và cột. Điều này lý tưởng cho dữ liệu hai chiều. Tuy nhiên, OLAP chứa dữ liệu đa chiều, dữ liệu thường được lấy từ một nguồn khác và không liên quan. Sử dụng bảng tính không phải là một lựa chọn tối ưu. Khối lập phương có thể lưu trữ và phân tích dữ liệu đa chiều một cách hợp lý và có trật tự.

Học như thế nào?

Kho dữ liệu sẽ trích xuất thông tin từ nhiều nguồn và định dạng dữ liệu như tệp văn bản, bảng excel, tệp đa phương tiện, v.v.

Dữ liệu trích xuất được làm sạch và chuyển đổi. Dữ liệu được tải vào máy chủ OLAP (hoặc khối OLAP) nơi thông tin được tính toán trước để phân tích thêm.

Các hoạt động phân tích cơ bản của OLAP

Bốn loại hoạt động OLAP phân tích là:

  1. Cuộn lên
  2. Truy sâu xuống
  3. Xắt từng lát mỏng
  4. Xoay (xoay)

1) Cuộn lên:

Việc tổng hợp còn được gọi là "hợp nhất" hoặc "tổng hợp". Thao tác cuộn lên có thể được thực hiện theo 2 cách

  1. Giảm kích thước
  2. Leo lên hệ thống phân cấp khái niệm. Hệ thống phân cấp khái niệm là một hệ thống nhóm các thứ dựa trên thứ tự hoặc cấp độ của chúng.

Hãy xem xét sơ đồ sau

Thao tác cuộn lên trong OLAP
Thao tác cuộn lên trong OLAP
  • Trong ví dụ này, các thành phố New Jersey và Lost Angles được đưa vào đất nước Hoa Kỳ
  • Con số bán hàng của New Jersey và Los Angeles lần lượt là 440 và 1560. Họ trở thành 2000 sau khi cuộn lên
  • Trong quá trình tổng hợp này, dữ liệu được phân cấp theo vị trí từ thành phố này sang quốc gia khác.
  • Trong quá trình tổng hợp, cần phải xóa ít nhất một hoặc nhiều thứ nguyên. Trong ví dụ này, thứ nguyên Thành phố bị xóa.

2) Đi sâu vào

Trong dữ liệu chi tiết được phân mảnh thành các phần nhỏ hơn. Nó ngược lại với quá trình tổng hợp. Nó có thể được thực hiện thông qua

  • Di chuyển xuống hệ thống phân cấp khái niệm
  • Tăng kích thước
Hoạt động truy sâu trong OLAP
Hoạt động truy sâu trong OLAP

Hãy xem xét sơ đồ trên

  • Quý Q1 được tính vào các tháng XNUMX, XNUMX và XNUMX. Doanh số bán hàng tương ứng cũng được đăng ký.
  • Trong ví dụ này, tháng thứ nguyên được thêm vào.

3) Lát:

Ở đây, một chiều được chọn và một khối con mới được tạo.

Sơ đồ sau giải thích cách thực hiện thao tác cắt lát:

Thao tác cắt lát trong OLAP
Thao tác cắt lát trong OLAP
  • Thứ nguyên Thời gian được cắt bằng Q1 làm bộ lọc.
  • Một khối lập phương mới được tạo ra hoàn toàn.

Xúc xắc:

Hoạt động này tương tự như một lát cắt. Sự khác biệt của xúc xắc là bạn chọn 2 kích thước trở lên dẫn đến việc tạo ra một khối phụ.

Hoạt động xúc xắc trong OLAP
Hoạt động xúc xắc trong OLAP

4) Xoay vòng

Trong Pivot, bạn xoay các trục dữ liệu để cung cấp bản trình bày dữ liệu thay thế.

Trong ví dụ sau, điểm xoay được dựa trên loại mục.

Hoạt động xoay vòng trong OLAP
Hoạt động xoay vòng trong OLAP

Các loại hệ thống OLAP

Cấu trúc phân cấp OLAP

Các loại hệ thống OLAP
Các loại hệ thống OLAP
Loại OLAP Giải thích
OLAP quan hệ(ROLAP): ROLAP là một RDBMS mở rộng cùng với ánh xạ dữ liệu đa chiều để thực hiện thao tác quan hệ tiêu chuẩn.
OLAP đa chiều (MOLAP) MOLAP Thực hiện thao tác trên dữ liệu đa chiều.
Xử lý phân tích trực tuyến kết hợp (HOLAP) Trong phương pháp HOLAP, tổng số tổng hợp được lưu trữ trong cơ sở dữ liệu đa chiều trong khi dữ liệu chi tiết được lưu trữ trong cơ sở dữ liệu quan hệ. Điều này mang lại cả hiệu quả dữ liệu của mô hình ROLAP và hiệu suất của mô hình MOLAP.
OLAP máy tính để bàn (DOLAP) Trong OLAP dành cho máy tính để bàn, người dùng tải xuống một phần dữ liệu từ cơ sở dữ liệu cục bộ hoặc trên máy tính để bàn của họ và phân tích dữ liệu đó.

DOLAP có chi phí triển khai tương đối rẻ vì nó cung cấp rất ít chức năng so với các hệ thống OLAP khác.

OLAP Web (WOLAP) Web OLAP là hệ thống OLAP có thể truy cập thông qua trình duyệt web. WOLAP là kiến ​​trúc ba tầng. Nó bao gồm ba thành phần: máy khách, phần mềm trung gian và máy chủ cơ sở dữ liệu.
OLAP di động: OLAP di động giúp người dùng truy cập và phân tích dữ liệu OLAP bằng thiết bị di động của họ
OLAP không gian: SOLAP được tạo ra để hỗ trợ quản lý cả dữ liệu không gian và phi không gian trong hệ thống Thông tin Địa lý (GIS)

ROLAP

ROLAP hoạt động với dữ liệu tồn tại trong cơ sở dữ liệu quan hệ. Các bảng sự kiện và chiều được lưu trữ dưới dạng bảng quan hệ. Nó cũng cho phép phân tích dữ liệu đa chiều và là OLAP phát triển nhanh nhất.

Ưu điểm của mô hình ROLAP:

  • Hiệu quả dữ liệu cao. Nó mang lại hiệu quả dữ liệu cao vì hiệu suất truy vấn và ngôn ngữ truy cập được tối ưu hóa đặc biệt cho phân tích dữ liệu đa chiều.
  • Khả năng mở rộng. Loại hệ thống OLAP này cung cấp khả năng mở rộng để quản lý khối lượng dữ liệu lớn và ngay cả khi dữ liệu tăng đều đặn.

Hạn chế của mô hình ROLAP:

  • Yêu cầu về nguồn lực cao hơn: ROLAP cần tận dụng tối đa nguồn nhân lực, phần mềm và phần cứng.
  • Giới hạn dữ liệu tổng hợp. Sử dụng công cụ ROLAP SQL cho tất cả các tính toán của dữ liệu tổng hợp. Tuy nhiên, không có giới hạn nào được đặt ra cho việc xử lý các tính toán.
  • Hiệu suất truy vấn chậm. Hiệu suất truy vấn trong mô hình này chậm khi so sánh với MOLAP

MOLAP

MOLAP sử dụng các công cụ lưu trữ đa chiều dựa trên mảng để hiển thị các chế độ xem dữ liệu đa chiều. Về cơ bản, họ sử dụng khối OLAP.

Tìm hiểu thêm về MOLAP vào đây

OLAP lai

OLAP lai là sự kết hợp của cả ROLAP và MOLAP. Nó cung cấp khả năng tính toán nhanh MOLAP và khả năng mở rộng ROLAP cao hơn. HOLAP sử dụng hai cơ sở dữ liệu.

  1. Dữ liệu tổng hợp hoặc tính toán được lưu trữ trong khối OLAP đa chiều
  2. Thông tin chi tiết được lưu trữ trong cơ sở dữ liệu quan hệ.

Lợi ích của OLAP lai:

  • Loại OLAP này giúp tiết kiệm dung lượng ổ đĩa và vẫn nhỏ gọn giúp tránh các vấn đề liên quan đến tốc độ truy cập và sự thuận tiện.
  • HOLAP lai sử dụng công nghệ khối cho phép thực hiện nhanh hơn đối với tất cả các loại dữ liệu.
  • ROLAP được cập nhật ngay lập tức và người dùng HOLAP có quyền truy cập vào dữ liệu được cập nhật tức thời theo thời gian thực này. MOLAP mang đến khả năng dọn dẹp và chuyển đổi dữ liệu, từ đó cải thiện mức độ liên quan của dữ liệu. Điều này mang lại điều tốt nhất cho cả hai thế giới.

Hạn chế của OLAP lai:

  • Mức độ phức tạp cao hơn: Hạn chế lớn nhất của hệ thống HOLAP là nó hỗ trợ cả các công cụ và ứng dụng ROLAP và MOLAP. Vì vậy, nó rất phức tạp.
  • Sự chồng chéo tiềm năng: Có nhiều khả năng chồng chéo hơn, đặc biệt là về chức năng của chúng.

Ưu điểm của OLAP

  • OLAP là nền tảng dành cho tất cả các loại hình kinh doanh bao gồm lập kế hoạch, lập ngân sách, báo cáo và phân tích.
  • Thông tin và tính toán nhất quán trong khối OLAP. Đây là một lợi ích quan trọng.
  • Nhanh chóng tạo và phân tích kịch bản “Nếu như”
  • Dễ dàng tìm kiếm cơ sở dữ liệu OLAP cho các thuật ngữ rộng hoặc cụ thể.
  • OLAP cung cấp các khối xây dựng cho các công cụ lập mô hình kinh doanh, công cụ khai thác dữ liệu, công cụ báo cáo hiệu suất.
  • Cho phép người dùng thực hiện tất cả dữ liệu khối cắt và xúc xắc theo nhiều kích thước, thước đo và bộ lọc khác nhau.
  • Nó là tốt cho việc phân tích chuỗi thời gian.
  • Việc tìm kiếm một số cụm và ngoại lệ thật dễ dàng với OLAP.
  • Đây là một hệ thống quy trình phân tích trực tuyến trực quan mạnh mẽ, cung cấp thời gian phản hồi nhanh hơn

Nhược điểm của OLAP

  • OLAP yêu cầu tổ chức dữ liệu thành lược đồ ngôi sao hoặc bông tuyết. Các lược đồ này rất phức tạp để thực hiện và quản lý
  • Bạn không thể có số lượng lớn kích thước trong một khối OLAP
  • Dữ liệu giao dịch không thể được truy cập bằng hệ thống OLAP.
  • Bất kỳ sửa đổi nào trong khối OLAP đều cần có bản cập nhật đầy đủ của khối. Đây là một quá trình tốn thời gian

Tổng kết

  • OLAP trong kho dữ liệu là một công nghệ cho phép các nhà phân tích trích xuất và xem dữ liệu kinh doanh từ các quan điểm khác nhau.
  • Cốt lõi của khái niệm OLAP là Khối OLAP.
  • Các ứng dụng kinh doanh khác nhau và các hoạt động dữ liệu khác yêu cầu sử dụng OLAP Cube.
  • Có năm loại hoạt động OLAP phân tích chính trong kho dữ liệu: 1) Cuộn lên 2) Truy sâu xuống 3) Cắt lát 4) Xúc xắc và 5) Xoay vòng
  • Ba loại hệ thống OLAP được sử dụng rộng rãi là MOLAP, ROLAP và Hybrid OLAP.
  • OLAP dành cho máy tính để bàn, OLAP Web và OLAP di động là một số loại hệ thống OLAP khác.