Data Mart trong kho dữ liệu là gì? Các loại & ví dụ

Siêu thị dữ liệu là gì?

A Dữ liệu Mart tập trung vào một khu vực chức năng duy nhất của một tổ chức và chứa một tập hợp con dữ liệu được lưu trữ trong Kho dữ liệu. Data Mart là phiên bản thu gọn của Kho dữ liệu và được thiết kế để sử dụng bởi một bộ phận, đơn vị hoặc nhóm người dùng cụ thể trong một tổ chức. Ví dụ: Tiếp thị, Bán hàng, Nhân sự hoặc tài chính. Nó thường được kiểm soát bởi một bộ phận duy nhất trong một tổ chức.

Data Mart thường chỉ lấy dữ liệu từ một số nguồn so với Kho dữ liệu. Siêu thị dữ liệu có kích thước nhỏ và linh hoạt hơn so với Datawarehouse.

Tại sao chúng ta cần Data Mart?

  • Data Mart giúp nâng cao thời gian phản hồi của người dùng do giảm khối lượng dữ liệu
  • Nó cung cấp khả năng truy cập dễ dàng vào dữ liệu được yêu cầu thường xuyên.
  • Data mart dễ triển khai hơn khi so sánh với Datawarehouse của công ty. Đồng thời, chi phí triển khai Data Mart chắc chắn thấp hơn so với việc triển khai kho dữ liệu đầy đủ.
  • So với Data Warehouse, datamart rất linh hoạt. Trong trường hợp thay đổi mô hình, datamart có thể được xây dựng nhanh hơn do kích thước nhỏ hơn.
  • Một Datamart được xác định bởi một Chuyên gia về vấn đề chủ đề duy nhất. Ngược lại, kho dữ liệu được xác định bởi các doanh nghiệp vừa và nhỏ liên ngành từ nhiều lĩnh vực khác nhau. Do đó, Data mart có tính cởi mở hơn trong việc thay đổi so với Datawarehouse.
  • Dữ liệu được phân vùng và cho phép các đặc quyền kiểm soát truy cập rất chi tiết.
  • Dữ liệu có thể được phân đoạn và lưu trữ trên các nền tảng phần cứng/phần mềm khác nhau.

Các loại dữ liệu Mart

Có ba loại data mart chính:

  1. Phụ thuộc: Các kho dữ liệu phụ thuộc được tạo ra bằng cách lấy dữ liệu trực tiếp từ nguồn hoạt động, nguồn bên ngoài hoặc cả hai.
  2. Độc lập: Siêu thị dữ liệu độc lập được tạo ra mà không cần sử dụng kho dữ liệu trung tâm.
  3. Hỗn hợp: Loại siêu thị dữ liệu này có thể lấy dữ liệu từ kho dữ liệu hoặc hệ điều hành.

Siêu thị dữ liệu phụ thuộc

Siêu thị dữ liệu phụ thuộc cho phép tìm nguồn cung ứng dữ liệu của tổ chức từ một Kho dữ liệu duy nhất. Đây là một trong những ví dụ về siêu thị dữ liệu mang lại lợi ích cho việc tập trung hóa. Nếu bạn cần phát triển một hoặc nhiều kho dữ liệu vật lý thì bạn cần định cấu hình chúng làm các kho dữ liệu phụ thuộc.

Dependent Data Mart trong kho dữ liệu có thể được xây dựng theo hai cách khác nhau. Nơi người dùng có thể truy cập cả trung tâm dữ liệu và kho dữ liệu, tùy theo nhu cầu hoặc nơi quyền truy cập chỉ giới hạn ở trung tâm dữ liệu. Cách tiếp cận thứ hai không tối ưu vì nó tạo ra đôi khi được gọi là bãi rác dữ liệu. Trong bãi chứa dữ liệu, tất cả dữ liệu đều bắt đầu bằng một nguồn chung, nhưng chúng bị loại bỏ và hầu hết bị loại bỏ.

Siêu thị dữ liệu phụ thuộc
Siêu thị dữ liệu phụ thuộc

Siêu thị dữ liệu độc lập

Một trung tâm dữ liệu độc lập được tạo ra mà không cần sử dụng kho dữ liệu trung tâm. Loại Data Mart này là một lựa chọn lý tưởng cho các nhóm nhỏ hơn trong một tổ chức.

Siêu thị dữ liệu độc lập không có mối quan hệ với kho dữ liệu doanh nghiệp cũng như với bất kỳ siêu thị dữ liệu nào khác. Trong siêu thị dữ liệu độc lập, dữ liệu được nhập riêng biệt và các phân tích của nó cũng được thực hiện tự động.

Việc triển khai các siêu thị dữ liệu độc lập đi ngược lại với động lực xây dựng kho dữ liệu. Trước hết, bạn cần một kho lưu trữ dữ liệu doanh nghiệp tập trung, nhất quán, có thể được phân tích bởi nhiều người dùng có những sở thích khác nhau, những người muốn có nhiều thông tin khác nhau.

Siêu thị dữ liệu độc lập

Siêu thị dữ liệu độc lập

Siêu thị dữ liệu lai

Siêu thị dữ liệu kết hợp kết hợp đầu vào từ các nguồn ngoài Kho dữ liệu. Điều này có thể hữu ích khi bạn muốn tích hợp đặc biệt, chẳng hạn như sau khi một nhóm hoặc sản phẩm mới được thêm vào tổ chức.

Đây là ví dụ về trung tâm dữ liệu tốt nhất phù hợp với nhiều môi trường cơ sở dữ liệu và thời gian triển khai nhanh chóng cho bất kỳ tổ chức nào. Nó cũng đòi hỏi nỗ lực làm sạch dữ liệu ít nhất. Hybrid Data mart cũng hỗ trợ các cấu trúc lưu trữ lớn và phù hợp nhất để linh hoạt cho các ứng dụng tập trung vào dữ liệu nhỏ hơn.

Siêu thị dữ liệu lai

Siêu thị dữ liệu lai

Các bước triển khai Datamart

Các bước triển khai Datamart

Việc triển khai Data Mart là một quy trình bổ ích nhưng phức tạp. Sau đây là các bước chi tiết để triển khai Data Mart:

Thiết kế

Thiết kế là giai đoạn đầu tiên của việc triển khai Data Mart. Nó bao gồm tất cả các nhiệm vụ từ việc bắt đầu yêu cầu một trung tâm dữ liệu đến việc thu thập thông tin về các yêu cầu. Cuối cùng, chúng tôi tạo ra thiết kế Data Mart hợp lý và vật lý.

Bước thiết kế bao gồm các nhiệm vụ sau:

  • Thu thập các yêu cầu kinh doanh & kỹ thuật cũng như Xác định nguồn dữ liệu.
  • Lựa chọn tập hợp con dữ liệu thích hợp.
  • Thiết kế cấu trúc logic và vật lý của siêu thị dữ liệu.

Dữ liệu có thể được phân vùng dựa trên các tiêu chí sau:

  • Ngày
  • Đơn vị kinh doanh hoặc chức năng
  • Địa lý
  • Bất kỳ sự kết hợp nào ở trên

Dữ liệu có thể được phân vùng ở cấp độ ứng dụng hoặc DBMS. Mặc dù vậy, nên phân vùng ở cấp Ứng dụng vì nó cho phép các mô hình dữ liệu khác nhau mỗi năm tùy theo sự thay đổi của môi trường kinh doanh.

Bạn cần những sản phẩm và công nghệ nào?

Một cây bút và giấy đơn giản là đủ. Mặc dù các công cụ giúp bạn tạo UML hoặc sơ đồ ER cũng sẽ nối thêm dữ liệu meta vào các thiết kế logic và vật lý của bạn.

Xây dựng

Đây là giai đoạn thực hiện thứ hai. Nó bao gồm việc tạo ra Cơ sở dữ liệu vật lý và cấu trúc logic.

Bước này bao gồm các nhiệm vụ sau:

  • Triển khai cơ sở dữ liệu vật lý được thiết kế ở giai đoạn trước. Ví dụ: các đối tượng lược đồ cơ sở dữ liệu như bảng, chỉ mục, dạng xem, v.v. được tạo.

Bạn cần những sản phẩm và công nghệ nào?

Bạn cần một hệ thống quản lý cơ sở dữ liệu quan hệ để xây dựng một siêu thị dữ liệu. RDBMS có một số tính năng cần thiết cho sự thành công của Data Mart.

  • Quản lý lưu trữ: RDBMS lưu trữ và quản lý dữ liệu để tạo, thêm và xóa dữ liệu.
  • Truy cập dữ liệu nhanh: Với truy vấn SQL, bạn có thể dễ dàng truy cập dữ liệu dựa trên các điều kiện/bộ lọc nhất định.
  • Bảo vệ dữ liệu: Hệ thống RDBMS cũng cung cấp cách phục hồi sau các lỗi hệ thống như mất điện. Nó cũng cho phép khôi phục dữ liệu từ các bản sao lưu này trong trường hợp đĩa bị lỗi.
  • Hỗ trợ nhiều người dùng: Hệ thống quản lý dữ liệu cung cấp quyền truy cập đồng thời, khả năng nhiều người dùng truy cập và sửa đổi dữ liệu mà không can thiệp hoặc ghi đè các thay đổi do người dùng khác thực hiện.
  • An ninh: Hệ thống RDMS cũng cung cấp cách điều chỉnh quyền truy cập của người dùng vào các đối tượng và một số loại hoạt động nhất định.

Dân số

Trong giai đoạn thứ ba, dữ liệu được đưa vào kho dữ liệu.

Bước điền thông tin bao gồm các nhiệm vụ sau:

  • Dữ liệu nguồn tới dữ liệu mục tiêu
  • Trích xuất dữ liệu nguồn
  • Các thao tác làm sạch và chuyển đổi trên dữ liệu
  • Đang tải dữ liệu vào data mart
  • Tạo và lưu trữ siêu dữ liệu

Bạn cần những sản phẩm và công nghệ nào?

Bạn hoàn thành các nhiệm vụ dân số này bằng cách sử dụng một Công cụ ETL (Trích xuất tải chuyển đổi). Công cụ này cho phép bạn xem xét các nguồn dữ liệu, thực hiện ánh xạ nguồn tới đích, trích xuất dữ liệu, chuyển đổi, làm sạch và tải lại vào kho dữ liệu.

Trong quá trình này, công cụ này cũng tạo ra một số siêu dữ liệu liên quan đến những thứ như dữ liệu đến từ đâu, dữ liệu gần đây như thế nào, loại thay đổi nào đã được thực hiện đối với dữ liệu và mức độ tóm tắt đã được thực hiện.

Truy cập

Truy cập là bước thứ tư bao gồm việc đưa dữ liệu vào sử dụng: truy vấn dữ liệu, tạo báo cáo, biểu đồ và xuất bản chúng. Người dùng cuối gửi truy vấn tới cơ sở dữ liệu và hiển thị kết quả của truy vấn

Bước truy cập cần thực hiện các nhiệm vụ sau:

  • Thiết lập một lớp meta giúp dịch các cấu trúc cơ sở dữ liệu và tên đối tượng thành các thuật ngữ kinh doanh. Điều này giúp người dùng không rành về kỹ thuật có thể truy cập Data mart một cách dễ dàng.
  • Thiết lập và duy trì cấu trúc cơ sở dữ liệu.
  • Thiết lập API và giao diện nếu được yêu cầu

Bạn cần những sản phẩm và công nghệ nào?

Bạn có thể truy cập data mart bằng dòng lệnh hoặc GUI. GUI được ưa thích vì nó có thể dễ dàng tạo biểu đồ và thân thiện với người dùng so với dòng lệnh.

Quản lý

Đây là bước cuối cùng của quá trình Triển khai Data Mart. Bước này bao gồm các nhiệm vụ quản lý như-

  • Quản lý truy cập người dùng liên tục.
  • Tối ưu hóa hệ thống và tinh chỉnh để đạt được hiệu suất nâng cao.
  • Thêm và quản lý dữ liệu mới vào siêu thị dữ liệu.
  • Lập kế hoạch cho các kịch bản khôi phục và đảm bảo tính khả dụng của hệ thống trong trường hợp hệ thống bị lỗi.

Bạn cần những sản phẩm và công nghệ nào?

Bạn có thể sử dụng GUI hoặc dòng lệnh để quản lý siêu thị dữ liệu.

Các phương pháp hay nhất để triển khai Data Mart

Sau đây là những biện pháp tốt nhất mà bạn cần tuân theo trong quá trình triển khai Data Mart:

  • Nguồn của Data Mart phải được cấu trúc theo bộ phận
  • Chu kỳ triển khai của Data Mart phải được đo lường theo khoảng thời gian ngắn, tức là tính bằng tuần thay vì tháng hoặc năm.
  • Điều quan trọng là phải có sự tham gia của tất cả các bên liên quan vào giai đoạn lập kế hoạch và thiết kế vì việc triển khai kho dữ liệu có thể phức tạp.
  • Chi phí phần cứng/phần mềm, mạng và triển khai Data Mart phải được lập ngân sách chính xác trong kế hoạch của bạn
  • Mặc dù nếu Data mart được tạo trên cùng một phần cứng, họ có thể cần một số phần mềm khác nhau để xử lý các truy vấn của người dùng. Các yêu cầu về sức mạnh xử lý và lưu trữ đĩa bổ sung cần được đánh giá để người dùng phản hồi nhanh
  • Siêu thị dữ liệu có thể ở một vị trí khác với kho dữ liệu. Đó là lý do tại sao điều quan trọng là phải đảm bảo rằng họ có đủ dung lượng mạng để xử lý Khối lượng dữ liệu cần thiết để truyền dữ liệu đến trung tâm dữ liệu.
  • Chi phí triển khai phải tính đến thời gian dành cho quá trình tải Datamart. Thời gian tải tăng theo mức độ phức tạp của các chuyển đổi.

Ưu điểm và nhược điểm của Data Mart

Ưu điểm

  • Siêu thị dữ liệu chứa một tập hợp con dữ liệu trên toàn tổ chức. Dữ liệu này có giá trị đối với một nhóm người cụ thể trong một tổ chức.
  • Đây là giải pháp thay thế hiệu quả về mặt chi phí cho kho dữ liệu, có thể mất chi phí cao để xây dựng.
  • Data Mart cho phép truy cập Dữ liệu nhanh hơn.
  • Data Mart rất dễ sử dụng vì nó được thiết kế đặc biệt cho nhu cầu của người dùng. Do đó, siêu thị dữ liệu có thể đẩy nhanh quá trình kinh doanh.
  • Data Mart cần ít thời gian triển khai hơn so với hệ thống Data Warehouse. Việc triển khai Data Mart sẽ nhanh hơn vì bạn chỉ cần tập trung vào tập hợp con duy nhất của dữ liệu.
  • Nó chứa dữ liệu lịch sử cho phép nhà phân tích xác định xu hướng dữ liệu.

Nhược điểm

  • Nhiều khi doanh nghiệp tạo ra quá nhiều kho dữ liệu khác nhau và không liên quan mà không mang lại nhiều lợi ích. Nó có thể trở thành một trở ngại lớn để duy trì.
  • Data Mart không thể cung cấp cho toàn công ty phân tích dữ liệu vì tập dữ liệu của họ bị hạn chế.

Tổng kết

  • Xác định Data Mart : Data Mart được định nghĩa là một tập hợp con của Kho dữ liệu tập trung vào một khu vực chức năng duy nhất của một tổ chức.
  • Data Mart giúp nâng cao thời gian phản hồi của người dùng do giảm khối lượng dữ liệu.
  • Ba loại dữ liệu mart là 1) Phụ thuộc 2) Độc lập 3) Kết hợp
  • Các bước triển khai quan trọng của Data Mart là 1) Thiết kế 2) Xây dựng 3 Điền dữ liệu 4) Truy cập và 5) Quản lý
  • Chu kỳ triển khai của Data Mart phải được đo lường theo khoảng thời gian ngắn, tức là tính bằng tuần thay vì tháng hoặc năm.
  • Data mart là giải pháp thay thế hiệu quả về mặt chi phí cho kho dữ liệu, có thể tốn chi phí cao để xây dựng.
  • Data Mart không thể cung cấp phân tích dữ liệu toàn công ty vì tập dữ liệu bị hạn chế.