Mô hình thứ nguyên trong kho dữ liệu là gì? Tìm hiểu các loại

Mô hình chiều

Mô hình hóa chiều (DM) là một kỹ thuật cấu trúc dữ liệu được tối ưu hóa để lưu trữ dữ liệu trong Kho dữ liệu. Mục đích của mô hình hóa chiều là tối ưu hóa cơ sở dữ liệu để truy xuất dữ liệu nhanh hơn. Khái niệm Mô hình thứ nguyên được phát triển bởi Ralph Kimball và bao gồm các bảng “thực tế” và “thứ nguyên”.

Mô hình thứ nguyên trong kho dữ liệu được thiết kế để đọc, tóm tắt, phân tích thông tin số như giá trị, số dư, số lượng, trọng lượng, v.v. trong kho dữ liệu. Ngược lại, các mô hình quan hệ được tối ưu hóa cho việc bổ sung, cập nhật và xóa dữ liệu trong Hệ thống giao dịch trực tuyến theo thời gian thực.

Các mô hình thứ nguyên và quan hệ này có cách lưu trữ dữ liệu độc đáo với những ưu điểm cụ thể.

Ví dụ, trong chế độ quan hệ, các mô hình chuẩn hóa và ER làm giảm sự dư thừa dữ liệu. Ngược lại, mô hình thứ nguyên trong kho dữ liệu sắp xếp dữ liệu sao cho việc lấy thông tin và tạo báo cáo dễ dàng hơn.

Do đó, mô hình thứ nguyên được sử dụng trong hệ thống kho dữ liệu và không phù hợp với các hệ thống quan hệ.

Các yếu tố của mô hình dữ liệu thứ nguyên

Thực tế

Sự thật là các thước đo/số liệu hoặc sự kiện từ quy trình kinh doanh của bạn. Đối với quy trình kinh doanh Bán hàng, phép đo sẽ là số lượng bán hàng hàng quý

kích thước

Thứ nguyên cung cấp bối cảnh xung quanh một sự kiện quy trình kinh doanh. Nói một cách đơn giản, họ cung cấp thông tin thực tế cho ai, cái gì, ở đâu. Trong quy trình kinh doanh Bán hàng, trên thực tế, số lượng bán hàng hàng quý sẽ là

  • Ai – Tên khách hàng
  • Ở đâu – Vị trí
  • Cái gì – Tên sản phẩm

Nói cách khác, một chiều là một cửa sổ để xem thông tin thực tế.

Thuộc tính

Thuộc tính là các đặc điểm khác nhau của thứ nguyên trong mô hình dữ liệu thứ nguyên.

Trong thứ nguyên Vị trí, các thuộc tính có thể là

  • Tiểu bang
  • Quốc gia
  • Mã zip, v.v.

Các thuộc tính được sử dụng để tìm kiếm, lọc hoặc phân loại sự kiện. Bảng thứ nguyên chứa các thuộc tính

Bảng dữ kiện

Bảng thực tế là bảng chính trong mô hình thứ nguyên.

Một bảng sự kiện chứa

  1. Các phép đo/sự thật
  2. Khóa ngoại cho bảng thứ nguyên

Bảng kích thước

  • Bảng thứ nguyên chứa các thứ nguyên của một thực tế.
  • Chúng được nối vào bảng thực tế thông qua khóa ngoại.
  • Bảng thứ nguyên là các bảng không chuẩn hóa.
  • Thuộc tính thứ nguyên là các cột khác nhau trong bảng thứ nguyên
  • Thứ nguyên cung cấp các đặc điểm mô tả của sự kiện với sự trợ giúp của các thuộc tính của chúng
  • Không có giới hạn nào được đặt cho số lượng thứ nguyên
  • Kích thước cũng có thể chứa một hoặc nhiều mối quan hệ phân cấp

Các loại kích thước trong kho dữ liệu

Sau đây là Các loại kích thước trong kho dữ liệu:

  • Kích thước phù hợp
  • Kích thước Outrigger
  • Kích thước thu nhỏ
  • Kích thước nhập vai
  • Bảng kích thước với kích thước
  • Thứ nguyên rác
  • Kích thước thoái hóa
  • Thứ nguyên có thể thay đổi
  • Kích thước bước

Các bước của mô hình thứ nguyên

Độ chính xác trong việc tạo mô hình thứ nguyên quyết định sự thành công của việc triển khai kho dữ liệu của bạn. Dưới đây là các bước để tạo Mô hình thứ nguyên

  1. Xác định quy trình kinh doanh
  2. Xác định hạt (mức độ chi tiết)
  3. Xác định kích thước
  4. Xác định sự thật
  5. Xây dựng ngôi sao

Mô hình nên mô tả Tại sao, Bao nhiêu, Khi nào/Ở đâu/Ai và Cái gì trong quy trình kinh doanh của bạn

Các bước của mô hình thứ nguyên

Bước 1) Xác định quy trình kinh doanh

Xác định quy trình kinh doanh thực tế mà kho dữ liệu nên bao gồm. Đây có thể là Tiếp thị, Bán hàng, Nhân sự, v.v. theo phân tích dữ liệu nhu cầu của tổ chức. Việc lựa chọn quy trình Kinh doanh cũng phụ thuộc vào chất lượng dữ liệu có sẵn cho quy trình đó. Đây là bước quan trọng nhất của quy trình Lập mô hình dữ liệu và nếu thất bại ở đây sẽ có các lỗi xếp tầng và không thể khắc phục được.

Để mô tả quy trình nghiệp vụ, bạn có thể sử dụng văn bản thuần túy hoặc sử dụng Ký hiệu mô hình hóa quy trình nghiệp vụ cơ bản (BPMN) hoặc Ngôn ngữ mô hình hóa thống nhất (UML).

Bước 2) Xác định hạt

Grain mô tả mức độ chi tiết của vấn đề/giải pháp kinh doanh. Đó là quá trình xác định mức thông tin thấp nhất cho bất kỳ bảng nào trong kho dữ liệu của bạn. Nếu một bảng chứa dữ liệu bán hàng hàng ngày thì bảng đó phải có độ chi tiết hàng ngày. Nếu một bảng chứa tổng dữ liệu bán hàng cho từng tháng thì bảng đó có mức độ chi tiết hàng tháng.

Trong giai đoạn này, bạn trả lời các câu hỏi như

  1. Chúng ta có cần lưu trữ tất cả các sản phẩm có sẵn hay chỉ một vài loại sản phẩm? Quyết định này dựa trên các quy trình nghiệp vụ được lựa chọn cho Datawarehouse
  2. Chúng ta có lưu trữ thông tin bán sản phẩm hàng tháng, hàng tuần, hàng ngày hay hàng giờ không? Quyết định này tùy thuộc vào tính chất báo cáo mà giám đốc điều hành yêu cầu
  3. Hai lựa chọn trên ảnh hưởng đến kích thước cơ sở dữ liệu như thế nào?

Ví dụ về ngũ cốc:

Giám đốc điều hành của một MNC muốn tìm doanh số bán hàng cho các sản phẩm cụ thể ở các địa điểm khác nhau hàng ngày.

Vì vậy, hạt là “thông tin bán sản phẩm theo địa điểm theo ngày”.

Bước 3) Xác định kích thước

Thứ nguyên là những danh từ như ngày tháng, cửa hàng, hàng tồn kho, v.v. Những thứ nguyên này là nơi lưu trữ tất cả dữ liệu. Ví dụ: thứ nguyên ngày có thể chứa dữ liệu như năm, tháng và ngày trong tuần.

Ví dụ về kích thước:

Giám đốc điều hành của một MNC muốn tìm doanh số bán hàng cho các sản phẩm cụ thể ở các địa điểm khác nhau hàng ngày.

Kích thước: Sản phẩm, Địa điểm và Thời gian

Thuộc tính: Đối với Sản phẩm: Product key (Khóa ngoại), Tên, Loại, Thông số kỹ thuật

Phân cấp: Đối với Vị trí: Quốc gia, Tiểu bang, Thành phố, Địa chỉ Đường phố, Tên

Bước 4) Xác định sự thật

Bước này được liên kết với người dùng doanh nghiệp của hệ thống vì đây là nơi họ có quyền truy cập vào dữ liệu được lưu trữ trong kho dữ liệu. Hầu hết các hàng của bảng thực tế là các giá trị số như giá hoặc chi phí trên mỗi đơn vị, v.v.

Ví dụ về sự thật:

Giám đốc điều hành của một MNC muốn tìm doanh số bán hàng cho các sản phẩm cụ thể ở các địa điểm khác nhau hàng ngày.

Thực tế ở đây là Tổng doanh số theo sản phẩm theo địa điểm theo thời gian.

Bước 5) Xây dựng lược đồ

Trong bước này, bạn triển khai Mô hình thứ nguyên. Một lược đồ không là gì ngoài cấu trúc cơ sở dữ liệu (sắp xếp các bảng). Có hai lược đồ phổ biến

  1. Lược đồ sao

Kiến trúc sơ đồ hình sao dễ thiết kế. Nó được gọi là sơ đồ hình sao vì sơ đồ giống một ngôi sao, với các điểm tỏa ra từ một tâm. Tâm của ngôi sao bao gồm bảng sự kiện và các điểm của ngôi sao là các bảng chiều.

Các bảng thực tế trong lược đồ sao ở dạng chuẩn thứ ba trong khi các bảng chiều không được chuẩn hóa.

  1. Lược đồ bông tuyết

Lược đồ bông tuyết là phần mở rộng của lược đồ hình sao. Trong lược đồ bông tuyết, mỗi thứ nguyên được chuẩn hóa và kết nối với nhiều bảng thứ nguyên hơn.

Cũng kiểm tra:- Lược đồ hình sao và bông tuyết trong kho dữ liệu với các ví dụ về mô hình

Quy tắc cho mô hình thứ nguyên

Sau đây là các quy tắc và nguyên tắc của Mô hình hóa chiều:

  • Tải dữ liệu nguyên tử vào cấu trúc đa chiều.
  • Xây dựng các mô hình chiều xung quanh các quy trình kinh doanh.
  • Cần đảm bảo rằng mọi bảng dữ kiện đều có bảng thứ nguyên ngày liên quan.
  • Đảm bảo rằng tất cả các dữ kiện trong một bảng dữ kiện đều có cùng mức độ chi tiết.
  • Điều cần thiết là lưu trữ nhãn báo cáo và lọc giá trị miền trong bảng thứ nguyên
  • Cần đảm bảo rằng các bảng thứ nguyên sử dụng khóa thay thế
  • Liên tục cân bằng giữa yêu cầu và thực tế để đưa ra giải pháp kinh doanh nhằm hỗ trợ việc ra quyết định của họ

Lợi ích của mô hình thứ nguyên

  • Việc tiêu chuẩn hóa các thứ nguyên cho phép dễ dàng báo cáo trên các lĩnh vực của doanh nghiệp.
  • Bảng thứ nguyên lưu trữ lịch sử của thông tin thứ nguyên.
  • Nó cho phép giới thiệu chiều hướng hoàn toàn mới mà không gây gián đoạn lớn cho bảng dữ kiện.
  • Thứ nguyên cũng để lưu trữ dữ liệu theo cách sao cho việc truy xuất thông tin từ dữ liệu sẽ dễ dàng hơn sau khi dữ liệu được lưu trữ trong cơ sở dữ liệu.
  • So với bảng chiều mô hình chuẩn hóa thì dễ hiểu hơn.
  • Thông tin được nhóm thành các danh mục kinh doanh rõ ràng và đơn giản.
  • Mô hình chiều rất dễ hiểu đối với doanh nghiệp. Mô hình này dựa trên các thuật ngữ kinh doanh để doanh nghiệp biết ý nghĩa của từng thực tế, khía cạnh hoặc thuộc tính.
  • Các mô hình thứ nguyên được biến dạng hóa và tối ưu hóa để truy vấn dữ liệu nhanh. Nhiều nền tảng cơ sở dữ liệu quan hệ nhận ra mô hình này và tối ưu hóa các kế hoạch thực hiện truy vấn để hỗ trợ hiệu suất.
  • Mô hình hóa thứ nguyên trong kho dữ liệu tạo ra một lược đồ được tối ưu hóa để đạt hiệu suất cao. Điều đó có nghĩa là ít tham gia hơn và giúp giảm thiểu dư thừa dữ liệu.
  • Mô hình thứ nguyên cũng giúp tăng hiệu suất truy vấn. Nó không được chuẩn hóa nhiều hơn do đó nó được tối ưu hóa cho truy vấn.
  • Các mô hình kích thước có thể thoải mái đáp ứng sự thay đổi. Các bảng thứ nguyên có thể được thêm nhiều cột hơn mà không ảnh hưởng đến các ứng dụng nghiệp vụ thông minh hiện có đang sử dụng các bảng này.

Mô hình dữ liệu đa chiều trong kho dữ liệu là gì?

Mô hình dữ liệu đa chiều trong kho dữ liệu là mô hình biểu diễn dữ liệu dưới dạng khối dữ liệu. Nó cho phép mô hình hóa và xem dữ liệu theo nhiều chiều và nó được xác định bởi các chiều và sự kiện. Mô hình dữ liệu đa chiều thường được phân loại xung quanh một chủ đề trung tâm và được biểu thị bằng bảng dữ kiện.

Tổng kết

  • Mô hình chiều là một kỹ thuật cấu trúc dữ liệu được tối ưu hóa cho Công cụ lưu trữ dữ liệu.
  • Sự thật là các thước đo/số liệu hoặc sự kiện từ quy trình kinh doanh của bạn.
  • Thứ nguyên cung cấp bối cảnh xung quanh một sự kiện quy trình kinh doanh.
  • Các thuộc tính là các đặc điểm khác nhau của mô hình thứ nguyên.
  • Bảng thực tế là bảng chính trong mô hình thứ nguyên.
  • Bảng thứ nguyên chứa các thứ nguyên của một thực tế.
  • Có ba loại sự thật 1. Phụ gia 2. Không phụ gia 3. Bán phụ gia.
  • Các loại kích thước là Phù hợp, Outrigger, Thu nhỏ, Nhập vai, Kích thước theo Bảng kích thước, Rác, Suy biến, Có thể thay đổi và Kích thước bước.
  • Năm bước của mô hình hóa thứ nguyên là 1. Xác định quy trình kinh doanh 2. Xác định hạt (mức độ chi tiết) 3. Xác định thứ nguyên 4. Xác định sự kiện 5. Xây dựng ngôi sao
  • Đối với mô hình hóa thứ nguyên trong kho dữ liệu, cần đảm bảo rằng mọi bảng dữ kiện đều có bảng thứ nguyên ngày liên quan.