Kho dữ liệu Archikiến trúc, Thành phần & Sơ đồ Concepts
Kho dữ liệu Concepts
Khái niệm cơ bản của Kho dữ liệu là tạo điều kiện thuận lợi cho một công ty đưa ra quyết định và dự báo. Kho dữ liệu là một hệ thống thông tin chứa dữ liệu lịch sử và giao hoán từ một hoặc nhiều nguồn. Kho dữ liệu Concepts đơn giản hóa quá trình báo cáo và phân tích của các tổ chức.
Đặc điểm của kho dữ liệu
Kho dữ liệu Concepts có những đặc điểm sau:
- Định hướng chủ đề
- Tích hợp
- Biến đổi thời gian
- Không bay hơi
Định hướng chủ đề
Kho dữ liệu được định hướng theo chủ đề vì nó cung cấp thông tin liên quan đến một chủ đề thay vì các hoạt động đang diễn ra của công ty. Những chủ đề này có thể là bán hàng, tiếp thị, phân phối, v.v.
Kho dữ liệu không bao giờ tập trung vào các hoạt động đang diễn ra. Thay vào đó, nó nhấn mạnh vào việc lập mô hình và phân tích dữ liệu cho ra quyết định. Nó cũng cung cấp một cái nhìn đơn giản và ngắn gọn về chủ đề cụ thể bằng cách loại trừ những dữ liệu không hữu ích để hỗ trợ quá trình ra quyết định.
Tích hợp
Trong Kho dữ liệu, tích hợp có nghĩa là thiết lập một đơn vị đo lường chung cho tất cả dữ liệu tương tự từ cơ sở dữ liệu khác nhau. Dữ liệu cũng cần được lưu trữ trong Datawarehouse theo cách chung và được chấp nhận rộng rãi.
Kho dữ liệu được phát triển bằng cách tích hợp dữ liệu từ nhiều nguồn khác nhau như máy tính lớn, cơ sở dữ liệu quan hệ, tệp phẳng, v.v. Hơn nữa, nó phải giữ các quy ước đặt tên, định dạng và mã hóa nhất quán.
Sự tích hợp này giúp phân tích dữ liệu hiệu quả. Sự nhất quán trong quy ước đặt tên, các biện pháp thuộc tính, cấu trúc mã hóa, v.v. phải được đảm bảo. Hãy xem xét ví dụ sau:
Trong ví dụ trên, có ba ứng dụng khác nhau được gắn nhãn A, B và C. Thông tin được lưu trữ trong các ứng dụng này là Giới tính, Ngày và Số dư. Tuy nhiên, dữ liệu của mỗi ứng dụng được lưu trữ theo cách khác nhau.
- Trong Ứng dụng Trường giới tính lưu trữ các giá trị logic như M hoặc F
- Trong trường giới tính của Ứng dụng B là một giá trị số,
- Trong ứng dụng C, trường giới tính được lưu trữ dưới dạng giá trị ký tự.
- Tương tự với trường hợp Ngày và số dư
Tuy nhiên, sau quá trình chuyển đổi và làm sạch, tất cả dữ liệu này được lưu trữ ở định dạng chung trong Kho dữ liệu.
Biến thể theo thời gian
Khoảng thời gian dành cho kho dữ liệu khá rộng so với các hệ thống vận hành. Dữ liệu được thu thập trong kho dữ liệu được ghi nhận trong một khoảng thời gian cụ thể và cung cấp thông tin theo quan điểm lịch sử. Nó chứa đựng yếu tố thời gian, một cách rõ ràng hoặc ngầm định.
Một nơi như vậy mà phương sai thời gian hiển thị dữ liệu của Datwarehouse nằm trong cấu trúc của khóa bản ghi. Mỗi khóa chính chứa trong DW phải có yếu tố thời gian ngầm hoặc rõ ràng. Như ngày, tuần, tháng, v.v.
Một khía cạnh khác của chênh lệch thời gian là khi dữ liệu được đưa vào kho thì không thể cập nhật hoặc thay đổi dữ liệu đó.
Không bay hơi
Kho dữ liệu cũng không biến động có nghĩa là dữ liệu trước đó không bị xóa khi dữ liệu mới được nhập vào đó.
Dữ liệu ở dạng chỉ đọc và được làm mới định kỳ. Điều này cũng giúp phân tích dữ liệu lịch sử và hiểu điều gì và khi nào đã xảy ra. Nó không yêu cầu quá trình giao dịch, cơ chế phục hồi và kiểm soát đồng thời.
Các hoạt động như xóa, cập nhật và chèn được thực hiện trong môi trường ứng dụng vận hành sẽ bị bỏ qua trong môi trường Kho dữ liệu. Chỉ có hai loại hoạt động dữ liệu được thực hiện trong Kho dữ liệu là
- Tải dữ liệu
- Truy cập dữ liệu
Dưới đây là một số khác biệt chính giữa Ứng dụng và Kho dữ liệu
Operaứng dụng quốc tế | Kho dữ liệu |
---|---|
Chương trình phức tạp phải được mã hóa để đảm bảo rằng quy trình nâng cấp dữ liệu duy trì tính toàn vẹn cao của sản phẩm cuối cùng. | Loại sự cố này không xảy ra do không thực hiện cập nhật dữ liệu. |
Dữ liệu được đặt ở dạng chuẩn hóa để đảm bảo dư thừa tối thiểu. | Dữ liệu không được lưu trữ ở dạng chuẩn hóa. |
Công nghệ cần thiết để hỗ trợ các vấn đề về giao dịch, phục hồi dữ liệu, khôi phục và giải quyết vì tình trạng bế tắc khá phức tạp. | Nó cung cấp sự đơn giản tương đối về mặt công nghệ. |
Kho dữ liệu Archikiến trúc
Kho dữ liệu Archikiến trúc phức tạp vì đây là hệ thống thông tin chứa dữ liệu lịch sử và dữ liệu giao hoán từ nhiều nguồn. Có 3 cách tiếp cận để xây dựng các lớp Data Warehouse: Một tầng, Hai tầng và Ba tầng. Kiến trúc 3 tầng của Data Warehouse được giải thích như sau.
Kiến trúc một tầng
Mục tiêu của một lớp duy nhất là giảm thiểu lượng dữ liệu được lưu trữ. Mục tiêu này là loại bỏ dữ liệu dư thừa. Kiến trúc này không thường được sử dụng trong thực tế.
Kiến trúc hai tầng
Kiến trúc hai lớp là một trong những lớp Data Warehouse phân tách các nguồn vật lý có sẵn và kho dữ liệu. Kiến trúc này không thể mở rộng và cũng không hỗ trợ nhiều người dùng cuối. Nó cũng có vấn đề về kết nối do hạn chế về mạng.
Kho dữ liệu ba tầng Archikiến trúc
Đây là cách được sử dụng rộng rãi nhất Archikiến trúc của Kho dữ liệu.
Nó bao gồm Cấp trên, Cấp giữa và Cấp dưới.
- Bậc dưới cùng: Cơ sở dữ liệu của máy chủ Datwarehouse là tầng dưới cùng. Nó thường là một hệ thống cơ sở dữ liệu quan hệ. Dữ liệu được làm sạch, chuyển đổi và tải vào lớp này bằng các công cụ phụ trợ.
- Tầng giữa: Tầng giữa trong Kho dữ liệu là máy chủ OLAP được triển khai bằng mô hình ROLAP hoặc MOLAP. Đối với người dùng, tầng ứng dụng này trình bày chế độ xem trừu tượng của cơ sở dữ liệu. Lớp này cũng hoạt động như một trung gian hòa giải giữa người dùng cuối và cơ sở dữ liệu.
- Cấp cao nhất: Tầng trên cùng là lớp client front-end. Cấp cao nhất là các công cụ và API mà bạn kết nối và lấy dữ liệu từ kho dữ liệu. Nó có thể là công cụ Truy vấn, công cụ báo cáo, công cụ truy vấn được quản lý, công cụ Phân tích và công cụ Khai thác dữ liệu.
Thành phần kho dữ liệu
Chúng ta sẽ tìm hiểu về các Thành phần của Datawarehouse và ArchiCấu trúc Data Warehouse với sơ đồ như sau:
Kho dữ liệu dựa trên máy chủ RDBMS, là kho lưu trữ thông tin trung tâm được bao quanh bởi một số thành phần Kho dữ liệu chính để làm cho toàn bộ môi trường hoạt động, có thể quản lý và truy cập được.
Chủ yếu có năm Thành phần kho dữ liệu:
Cơ sở dữ liệu kho dữ liệu
Cơ sở dữ liệu trung tâm là nền tảng của môi trường kho dữ liệu. Cơ sở dữ liệu này được triển khai trên RDBMS công nghệ. Mặc dù, kiểu triển khai này bị hạn chế bởi thực tế là hệ thống RDBMS truyền thống được tối ưu hóa để xử lý cơ sở dữ liệu giao dịch chứ không phải để lưu trữ dữ liệu. Ví dụ: truy vấn đặc biệt, nối nhiều bảng, tổng hợp tốn nhiều tài nguyên và làm chậm hiệu suất.
Do đó, các phương pháp thay thế cho Cơ sở dữ liệu được sử dụng như được liệt kê dưới đây-
- Trong kho dữ liệu, cơ sở dữ liệu quan hệ được triển khai song song để cho phép khả năng mở rộng. Cơ sở dữ liệu quan hệ song song cũng cho phép chia sẻ bộ nhớ hoặc mô hình không chia sẻ gì trên các cấu hình đa bộ xử lý khác nhau hoặc các bộ xử lý song song ồ ạt.
- Cấu trúc chỉ mục mới được sử dụng để bỏ qua việc quét bảng quan hệ và cải thiện tốc độ.
- Sử dụng cơ sở dữ liệu đa chiều (MDDB) để khắc phục mọi hạn chế được đặt ra do Mô hình kho dữ liệu quan hệ. Ví dụ: Essbase từ Oracle.
Công cụ tìm nguồn cung ứng, mua lại, dọn dẹp và chuyển đổi (ETL)
Các công cụ tìm nguồn cung ứng, chuyển đổi và di chuyển dữ liệu được sử dụng để thực hiện tất cả các chuyển đổi, tóm tắt và tất cả các thay đổi cần thiết để chuyển đổi dữ liệu thành định dạng thống nhất trong kho dữ liệu. Chúng còn được gọi là Công cụ trích xuất, chuyển đổi và tải (ETL).
Chức năng của chúng bao gồm:
- Ẩn danh dữ liệu theo quy định.
- Loại bỏ dữ liệu không mong muốn trong cơ sở dữ liệu hoạt động khi tải vào Kho dữ liệu.
- Tìm kiếm và thay thế các tên và định nghĩa phổ biến cho dữ liệu đến từ các nguồn khác nhau.
- Tính toán tóm tắt và dữ liệu dẫn xuất
- Trong trường hợp thiếu dữ liệu, hãy điền dữ liệu mặc định vào chúng.
- Dữ liệu lặp lại được loại bỏ trùng lặp đến từ nhiều nguồn dữ liệu.
Các công cụ Trích xuất, Chuyển đổi và Tải này có thể tạo ra các công việc định kỳ, công việc nền, Chương trình Cobol, shell script... thường xuyên cập nhật dữ liệu trong kho dữ liệu. Những công cụ này cũng hữu ích để duy trì Siêu dữ liệu.
Kia là Công cụ ETL phải đối mặt với những thách thức về Cơ sở dữ liệu và tính không đồng nhất của Dữ liệu.
Siêu dữ liệu
Cái tên Meta Data gợi ý một số Kho dữ liệu công nghệ cao cấp Concepts. Tuy nhiên, nó khá đơn giản. Siêu dữ liệu là dữ liệu về dữ liệu xác định kho dữ liệu. Nó được sử dụng để xây dựng, duy trì và quản lý kho dữ liệu.
Trong kho dữ liệu ArchiVề mặt kiến trúc, siêu dữ liệu đóng vai trò quan trọng vì nó chỉ định nguồn, cách sử dụng, giá trị và tính năng của dữ liệu kho dữ liệu. Nó cũng xác định cách dữ liệu có thể được thay đổi và xử lý. Nó được kết nối chặt chẽ với kho dữ liệu.
Ví dụ: một dòng trong cơ sở dữ liệu bán hàng có thể chứa:
4030 KJ732 299.90
Đây là dữ liệu vô nghĩa cho đến khi chúng tôi tham khảo Meta cho chúng tôi biết đó là
- Số mô hình: 4030
- ID đại lý bán hàng: KJ732
- Tổng số tiền bán hàng là $299.90
Vì vậy, Meta Data là thành phần thiết yếu trong việc chuyển đổi dữ liệu thành tri thức.
Siêu dữ liệu giúp trả lời các câu hỏi sau
- Kho dữ liệu chứa những bảng, thuộc tính và khóa nào?
- Dữ liệu đến từ đâu?
- Dữ liệu được tải lại bao nhiêu lần?
- Những biến đổi nào đã được áp dụng với việc làm sạch?
Siêu dữ liệu có thể được phân loại thành các loại sau:
- Siêu dữ liệu kỹ thuật: Loại Siêu dữ liệu này chứa thông tin về kho được sử dụng bởi người thiết kế và quản trị viên Kho dữ liệu.
- Siêu dữ liệu kinh doanh: Loại Siêu dữ liệu này chứa chi tiết cung cấp cho người dùng cuối một cách dễ hiểu thông tin được lưu trữ trong kho dữ liệu.
Công cụ truy vấn
Một trong những mục tiêu chính của việc lưu trữ dữ liệu là cung cấp thông tin cho doanh nghiệp để đưa ra các quyết định chiến lược. Công cụ truy vấn cho phép người dùng tương tác với hệ thống kho dữ liệu.
Những công cụ này thuộc bốn loại khác nhau:
- Công cụ truy vấn và báo cáo
- Công cụ phát triển ứng dụng
- Công cụ khai thác dữ liệu
- công cụ OLAP
1. Công cụ truy vấn và báo cáo
Các công cụ truy vấn và báo cáo có thể được chia thành
- Công cụ báo cáo
- Công cụ truy vấn được quản lý
Công cụ báo cáo:
Công cụ báo cáo có thể được chia thành các công cụ báo cáo sản xuất và người viết báo cáo trên máy tính để bàn.
- Người viết báo cáo: Loại công cụ báo cáo này là công cụ được thiết kế cho người dùng cuối để họ phân tích.
- Báo cáo sản xuất: Loại công cụ này cho phép các tổ chức tạo báo cáo hoạt động thường xuyên. Nó cũng hỗ trợ các công việc hàng loạt với khối lượng lớn như in ấn và tính toán. Một số công cụ báo cáo phổ biến là Brio, Business Objects, Oracle, PowerSoft, Viện SAS.
Công cụ truy vấn được quản lý:
Loại công cụ truy cập này giúp người dùng cuối giải quyết các vướng mắc trong cơ sở dữ liệu, SQL và cấu trúc cơ sở dữ liệu bằng cách chèn lớp meta giữa người dùng và cơ sở dữ liệu.
2. Công cụ phát triển ứng dụng
Đôi khi các công cụ đồ họa và phân tích tích hợp không đáp ứng được nhu cầu phân tích của một tổ chức. Trong những trường hợp như vậy, báo cáo tùy chỉnh được phát triển bằng các công cụ phát triển Ứng dụng.
3. Công cụ khai thác dữ liệu
Khai thác dữ liệu là một quá trình khám phá mối tương quan, mô hình và xu hướng mới có ý nghĩa bằng cách khai thác lượng lớn dữ liệu. Công cụ khai thác dữ liệu được sử dụng để thực hiện quá trình này một cách tự động.
4. Công cụ OLAP
Các công cụ này dựa trên khái niệm về cơ sở dữ liệu đa chiều. Nó cho phép người dùng phân tích dữ liệu bằng các chế độ xem đa chiều phức tạp và tinh vi.
Xe buýt kho dữ liệu Archikiến trúc
Kho dữ liệu Bus xác định luồng dữ liệu trong kho của bạn. Luồng dữ liệu trong kho dữ liệu có thể được phân loại thành Luồng vào, Luồng lên, Luồng xuống, Luồng ra và Luồng Meta.
Trong khi thiết kế Bus dữ liệu, người ta cần xem xét các kích thước, sự kiện được chia sẻ trên các trung tâm dữ liệu.
Kho dữ liệu
A dữ liệu mart là một lớp truy cập được sử dụng để lấy dữ liệu ra cho người dùng. Nó được trình bày như một tùy chọn cho kho dữ liệu kích thước lớn vì việc xây dựng tốn ít thời gian và tiền bạc hơn. Tuy nhiên, không có định nghĩa tiêu chuẩn nào về data mart là khác nhau ở mỗi người.
Nói một cách đơn giản Data mart là công ty con của kho dữ liệu. Siêu thị dữ liệu được sử dụng để phân vùng dữ liệu được tạo cho nhóm người dùng cụ thể.
Siêu thị dữ liệu có thể được tạo trong cùng cơ sở dữ liệu với Datwarehouse hoặc Cơ sở dữ liệu riêng biệt về mặt vật lý.
Kho dữ liệu ArchiThực tiễn tốt nhất về kiến trúc
Thiết kế kho dữ liệu Archikiến trúc, bạn cần tuân theo các phương pháp hay nhất được đưa ra dưới đây:
- Sử dụng Mô hình kho dữ liệu được tối ưu hóa để truy xuất thông tin có thể là chế độ thứ nguyên, phương pháp không chuẩn hóa hoặc kết hợp.
- Lựa chọn phương pháp thiết kế phù hợp là phương pháp từ trên xuống và từ dưới lên trong Kho dữ liệu
- Cần đảm bảo Data được xử lý nhanh chóng và chính xác. Đồng thời, bạn nên áp dụng phương pháp hợp nhất dữ liệu thành một phiên bản duy nhất của sự thật.
- Thiết kế cẩn thận quy trình thu thập và làm sạch dữ liệu cho Kho dữ liệu.
- Thiết kế kiến trúc MetaData cho phép chia sẻ siêu dữ liệu giữa các thành phần của Data Warehouse
- Hãy xem xét triển khai mô hình ODS khi nhu cầu truy xuất thông tin ở gần đáy của kim tự tháp trừu tượng hóa dữ liệu hoặc khi có nhiều nguồn hoạt động cần được truy cập.
- Người ta phải đảm bảo rằng mô hình dữ liệu được tích hợp chứ không chỉ hợp nhất. Trong trường hợp đó, bạn nên xem xét mô hình dữ liệu 3NF. Nó cũng lý tưởng để có được các công cụ làm sạch dữ liệu và ETL
Tổng kết
- Kho dữ liệu là một hệ thống thông tin chứa dữ liệu lịch sử và giao hoán từ một hoặc nhiều nguồn. Các nguồn này có thể là Kho dữ liệu truyền thống, Kho dữ liệu đám mây hoặc Kho dữ liệu ảo.
- Kho dữ liệu được định hướng theo chủ đề vì nó cung cấp thông tin liên quan đến chủ đề thay vì các hoạt động liên tục của tổ chức.
- Trong Kho dữ liệu, tích hợp có nghĩa là thiết lập một đơn vị đo lường chung cho tất cả dữ liệu tương tự từ các cơ sở dữ liệu khác nhau
- Kho dữ liệu cũng không biến động có nghĩa là dữ liệu trước đó không bị xóa khi dữ liệu mới được nhập vào đó.
- Datawarehouse có tính chất thay đổi theo thời gian vì dữ liệu trong DW có thời hạn sử dụng cao.
- Có 5 thành phần chủ yếu của Data Warehouse Archikiến trúc: 1) Cơ sở dữ liệu 2) Công cụ ETL 3) Siêu dữ liệu 4) Công cụ truy vấn 5) DataMarts
- Đây là bốn loại công cụ truy vấn chính 1. Công cụ truy vấn và báo cáo 2. Công cụ phát triển ứng dụng, 3. Công cụ khai thác dữ liệu 4. Công cụ OLAP
- Các công cụ tìm nguồn cung ứng, chuyển đổi và di chuyển dữ liệu được sử dụng để thực hiện tất cả các chuyển đổi và tóm tắt.
- Trong kho dữ liệu ArchiVề mặt kiến trúc, siêu dữ liệu đóng vai trò quan trọng vì nó chỉ định nguồn, cách sử dụng, giá trị và tính năng của dữ liệu kho dữ liệu.