Kho dữ liệu là gì? Các loại, định nghĩa và ví dụ

Kho dữ liệu là gì?

A Kho dữ liệu (DW) là quy trình thu thập và quản lý dữ liệu từ nhiều nguồn khác nhau để cung cấp thông tin chi tiết có ý nghĩa về kinh doanh. Kho dữ liệu thường được sử dụng để kết nối và phân tích dữ liệu kinh doanh từ nhiều nguồn khác nhau. Kho dữ liệu là cốt lõi của hệ thống BI được xây dựng để phân tích và báo cáo dữ liệu.

Nó là sự kết hợp của các công nghệ và thành phần hỗ trợ việc sử dụng dữ liệu một cách chiến lược. Đó là kho lưu trữ điện tử một lượng lớn thông tin của một doanh nghiệp được thiết kế để truy vấn và phân tích thay vì xử lý giao dịch. Đó là một quá trình chuyển đổi dữ liệu thành thông tin và cung cấp cho người dùng một cách kịp thời để tạo ra sự khác biệt.

Cơ sở dữ liệu hỗ trợ quyết định (Data Warehouse) được duy trì tách biệt với cơ sở dữ liệu hoạt động của tổ chức. Tuy nhiên, kho dữ liệu không phải là một sản phẩm mà là một môi trường. Đây là một cấu trúc kiến ​​trúc của hệ thống thông tin cung cấp cho người dùng thông tin hỗ trợ quyết định hiện tại và lịch sử khó truy cập hoặc có trong kho dữ liệu hoạt động truyền thống.

Nhiều bạn biết rằng cơ sở dữ liệu do 3NF thiết kế cho hệ thống kiểm kê có nhiều bảng liên quan với nhau. Ví dụ: báo cáo về thông tin hàng tồn kho hiện tại có thể bao gồm hơn 12 điều kiện được kết hợp. Điều này có thể nhanh chóng làm chậm thời gian phản hồi của truy vấn và báo cáo. Kho dữ liệu cung cấp một thiết kế mới có thể giúp giảm thời gian phản hồi và giúp nâng cao hiệu suất của các truy vấn cho báo cáo và phân tích.

Hệ thống kho dữ liệu còn được gọi bằng tên sau:

  • Hệ thống hỗ trợ quyết định (DSS)
  • Hệ Thống Điều Hành Thông Tin
  • Hệ thống thông tin quản lý
  • Giải pháp kinh doanh thông minh
  • Ứng dụng phân tích
  • Kho dữ liệu

Kho dữ liệu

Lịch sử của Datawarehouse

Datawarehouse giúp người dùng hiểu và nâng cao hiệu suất của tổ chức. Nhu cầu lưu trữ dữ liệu phát triển khi hệ thống máy tính trở nên phức tạp hơn và cần xử lý lượng thông tin ngày càng tăng. Tuy nhiên, Data Warehousing không phải là điều mới mẻ.

Dưới đây là một số sự kiện quan trọng trong quá trình phát triển của Kho dữ liệu-

  • 1960- Dartmouth và General Mills trong một dự án nghiên cứu chung, phát triển các khía cạnh và sự kiện về thuật ngữ.
  • 1970- Nielsen và IRI giới thiệu siêu thị dữ liệu chiều cho hoạt động bán lẻ.
  • 1983- Tập đoàn Tera Data giới thiệu hệ thống quản lý cơ sở dữ liệu được thiết kế đặc biệt để hỗ trợ quyết định
  • Kho dữ liệu bắt đầu vào cuối những năm 1980 khi IBM công nhân Paul Murphy và Barry Devlin đã phát triển Kho dữ liệu kinh doanh.
  • Tuy nhiên, concept thực sự lại được đưa ra bởi Inmon Bill. Ông được coi là cha đẻ của kho dữ liệu. Anh ấy đã viết về nhiều chủ đề khác nhau về xây dựng, sử dụng và bảo trì nhà kho & Nhà máy Thông tin Doanh nghiệp.

Datawarehouse hoạt động như thế nào?

Kho dữ liệu hoạt động như một kho lưu trữ trung tâm nơi thông tin đến từ một hoặc nhiều nguồn dữ liệu. Dữ liệu chảy vào kho dữ liệu từ hệ thống giao dịch và các cơ sở dữ liệu quan hệ khác.

Dữ liệu có thể là:

  1. Cấu trúc
  2. bán cấu trúc
  3. Dữ liệu phi cấu trúc

Dữ liệu được xử lý, chuyển đổi và nhập để người dùng có thể truy cập dữ liệu đã xử lý trong Kho dữ liệu thông qua các công cụ Business Intelligence, máy khách SQL và bảng tính. Kho dữ liệu hợp nhất thông tin đến từ các nguồn khác nhau vào một cơ sở dữ liệu toàn diện.

Bằng cách hợp nhất tất cả thông tin này vào một nơi, tổ chức có thể phân tích khách hàng của mình một cách toàn diện hơn. Điều này giúp đảm bảo rằng nó đã xem xét tất cả các thông tin có sẵn. Kho dữ liệu làm cho việc khai thác dữ liệu trở nên khả thi. Khai thác dữ liệu đang tìm kiếm các mẫu trong dữ liệu có thể dẫn đến doanh thu và lợi nhuận cao hơn.

Các loại kho dữ liệu

Ba loại Kho dữ liệu (DWH) chính là:

1. Kho dữ liệu doanh nghiệp (EDW):

Kho dữ liệu doanh nghiệp (EDW) là một kho tập trung. Nó cung cấp dịch vụ hỗ trợ quyết định trên toàn doanh nghiệp. Nó cung cấp một cách tiếp cận thống nhất để tổ chức và biểu diễn dữ liệu. Nó cũng cung cấp khả năng phân loại dữ liệu theo chủ đề và cấp quyền truy cập theo các bộ phận đó.

2. OperaKho dữ liệu quốc tế:

OperaKho dữ liệu quốc tế, còn được gọi là ODS, không gì khác ngoài việc lưu trữ dữ liệu khi cả Kho dữ liệu và hệ thống OLTP đều không hỗ trợ các nhu cầu báo cáo của tổ chức. Trong ODS, Kho dữ liệu được làm mới theo thời gian thực. Do đó, nó được ưa thích rộng rãi cho các hoạt động thường ngày như lưu trữ hồ sơ của Nhân viên.

3. Siêu thị dữ liệu:

A dữ liệu mart là một tập hợp con của kho dữ liệu. Nó được thiết kế đặc biệt cho một ngành kinh doanh cụ thể, chẳng hạn như bán hàng, tài chính, bán hàng hoặc tài chính. Trong một trung tâm dữ liệu độc lập, dữ liệu có thể được thu thập trực tiếp từ các nguồn.

Các giai đoạn chung của Data Warehouse

Trước đó, các tổ chức đã bắt đầu sử dụng kho dữ liệu tương đối đơn giản. Tuy nhiên, theo thời gian, việc sử dụng kho dữ liệu phức tạp hơn đã bắt đầu.

Sau đây là các giai đoạn chung khi sử dụng kho dữ liệu (DWH):

Ẩn OperaCơ sở dữ liệu quốc tế:

Ở giai đoạn này, dữ liệu chỉ được sao chép từ hệ điều hành sang máy chủ khác. Bằng cách này, việc tải, xử lý và báo cáo dữ liệu được sao chép không ảnh hưởng đến hiệu suất của hệ điều hành.

Kho dữ liệu ngoại tuyến:

Dữ liệu trong Datawarehouse được cập nhật thường xuyên từ OperaCơ sở dữ liệu quốc tế. Dữ liệu trong Datawarehouse được ánh xạ và chuyển đổi để đáp ứng các mục tiêu của Datawarehouse.

Kho dữ liệu thời gian thực:

Ở giai đoạn này, Kho dữ liệu được cập nhật bất cứ khi nào có bất kỳ giao dịch nào diễn ra trong cơ sở dữ liệu vận hành. Ví dụ: Hệ thống đặt vé máy bay hoặc đường sắt.

Kho dữ liệu tích hợp:

Ở giai đoạn này, Kho dữ liệu được cập nhật liên tục khi hệ điều hành thực hiện giao dịch. Datawarehouse sau đó tạo ra các giao dịch được chuyển trở lại hệ thống vận hành.

Các thành phần của Kho dữ liệu

Bốn thành phần của Kho dữ liệu là:

Trình quản lý tải: Trình quản lý tải còn được gọi là thành phần phía trước. Nó thực hiện tất cả các hoạt động liên quan đến việc trích xuất và tải dữ liệu vào kho. Các thao tác này bao gồm các phép biến đổi để chuẩn bị dữ liệu nhập vào Kho dữ liệu.

Quản lý kho: Quản lý kho thực hiện các hoạt động liên quan đến việc quản lý dữ liệu trong kho. Nó thực hiện các hoạt động như phân tích dữ liệu để đảm bảo tính nhất quán, tạo chỉ mục và chế độ xem, tạo ra sự phi chuẩn hóa và tổng hợp, chuyển đổi và hợp nhất dữ liệu nguồn và lưu trữ và nướng dữ liệu.

Trình quản lý truy vấn: Trình quản lý truy vấn còn được gọi là thành phần phụ trợ. Nó thực hiện tất cả các hoạt động vận hành liên quan đến việc quản lý các truy vấn của người dùng. Hoạt động của các thành phần Kho dữ liệu này là các truy vấn trực tiếp đến các bảng thích hợp để lập lịch thực hiện các truy vấn.

Công cụ truy cập của người dùng cuối:

Điều này được phân loại thành năm nhóm khác nhau như 1. Báo cáo dữ liệu 2. Công cụ truy vấn 3. Công cụ phát triển ứng dụng 4. Công cụ EIS, 5. Công cụ OLAP và công cụ khai thác dữ liệu.

Ai cần kho dữ liệu?

DWH (Kho dữ liệu) cần thiết cho mọi đối tượng người dùng như:

  • Những người ra quyết định dựa vào lượng dữ liệu khổng lồ
  • Người dùng sử dụng các quy trình phức tạp, tùy chỉnh để lấy thông tin từ nhiều nguồn dữ liệu.
  • Nó cũng được sử dụng bởi những người muốn công nghệ đơn giản để truy cập dữ liệu
  • Nó cũng cần thiết cho những người muốn có một cách tiếp cận có hệ thống để đưa ra quyết định.
  • Nếu người dùng muốn có hiệu suất nhanh trên một lượng dữ liệu khổng lồ cần thiết cho các báo cáo, lưới hoặc biểu đồ thì Kho dữ liệu tỏ ra hữu ích.
  • Kho dữ liệu là bước đầu tiên nếu bạn muốn khám phá 'các mẫu ẩn' của các luồng và nhóm dữ liệu.

Kho dữ liệu được sử dụng để làm gì?

Dưới đây là những lĩnh vực phổ biến nhất được sử dụng Kho dữ liệu:

Hãng hàng không:

Trong hệ thống Hàng không, nó được sử dụng cho mục đích hoạt động như phân công phi hành đoàn, phân tích lợi nhuận của tuyến bay, chương trình khuyến mãi dành cho khách hàng bay thường xuyên, v.v.

Ngân hàng:

Nó được sử dụng rộng rãi trong lĩnh vực ngân hàng để quản lý các nguồn lực sẵn có trên bàn làm việc một cách hiệu quả. Một số ngân hàng còn sử dụng để nghiên cứu thị trường, phân tích hiệu quả hoạt động của sản phẩm và hoạt động.

Chăm sóc sức khỏe:

Lĩnh vực chăm sóc sức khỏe cũng sử dụng Kho dữ liệu để lập chiến lược và dự đoán kết quả, tạo báo cáo điều trị của bệnh nhân, chia sẻ dữ liệu với các công ty bảo hiểm liên kết, dịch vụ hỗ trợ y tế, v.v.

Khu vực công:

Trong khu vực công, kho dữ liệu được sử dụng để thu thập thông tin tình báo. Nó giúp các cơ quan chính phủ duy trì và phân tích hồ sơ thuế, hồ sơ chính sách y tế cho mỗi cá nhân.

Lĩnh vực đầu tư và bảo hiểm:

Trong lĩnh vực này, kho hàng chủ yếu được sử dụng để phân tích các mẫu dữ liệu, xu hướng khách hàng và theo dõi diễn biến thị trường.

Giữ lại chuỗi:

Trong chuỗi bán lẻ, kho dữ liệu được sử dụng rộng rãi để phân phối và tiếp thị. Nó cũng giúp theo dõi các mặt hàng, mô hình mua hàng của khách hàng, chương trình khuyến mãi và cũng được sử dụng để xác định chính sách giá.

Viễn thông:

Kho dữ liệu được sử dụng trong lĩnh vực này để quảng bá sản phẩm, đưa ra quyết định bán hàng và phân phối.

Ngành công nghiệp khách sạn:

Ngành công nghiệp này sử dụng các dịch vụ kho bãi để thiết kế cũng như ước tính các chiến dịch quảng cáo và khuyến mại mà họ muốn nhắm đến khách hàng dựa trên phản hồi và thói quen di chuyển của họ.

Các bước triển khai kho dữ liệu

Cách tốt nhất để giải quyết rủi ro kinh doanh liên quan đến việc triển khai Datawarehouse là sử dụng chiến lược ba hướng như dưới đây

  1. Chiến lược doanh nghiệp: Tại đây chúng tôi xác định kỹ thuật bao gồm kiến ​​trúc và công cụ hiện tại. Chúng tôi cũng xác định các sự kiện, kích thước và thuộc tính. Ánh xạ và chuyển đổi dữ liệu cũng được thông qua.
  2. Phân phối theo giai đoạn: Việc triển khai Datawarehouse nên được thực hiện theo từng giai đoạn dựa trên các lĩnh vực chủ đề. Các thực thể kinh doanh liên quan như đặt chỗ và thanh toán nên được triển khai trước rồi sau đó tích hợp với nhau.
  3. Nguyên mẫu lặp đi lặp lại: Thay vì áp dụng một cách tiếp cận mang tính đột phá trong triển khai, Datwarehouse cần được phát triển và thử nghiệm lặp đi lặp lại.

Dưới đây là các bước chính trong quá trình triển khai Datawarehouse cùng với các sản phẩm phân phối của nó.

Bước Nhiệm vụ Phân phôi
1 Cần xác định phạm vi dự án Định nghĩa phạm vi
2 Cần xác định nhu cầu kinh doanh Mô hình dữ liệu logic
3 Định nghĩa Operayêu cầu về kho dữ liệu OperaMô hình lưu trữ dữ liệu quốc tế
4 Mua hoặc phát triển các công cụ khai thác Công cụ và phần mềm giải nén
5 Xác định yêu cầu dữ liệu kho dữ liệu Mô hình dữ liệu chuyển tiếp
6 Tài liệu thiếu dữ liệu Danh sách dự án cần làm
7 Maps OperaKho dữ liệu quốc tế tới kho dữ liệu Bản đồ tích hợp dữ liệu D/W
8 Phát triển thiết kế cơ sở dữ liệu kho dữ liệu Thiết kế cơ sở dữ liệu D/W
9 Trích xuất dữ liệu từ Operakho dữ liệu quốc tế Trích xuất dữ liệu D/W tích hợp
10 Tải kho dữ liệu Tải dữ liệu ban đầu
11 Bảo trì kho dữ liệu Truy cập dữ liệu liên tục và tải tiếp theo

Các phương pháp hay nhất để triển khai Kho dữ liệu

  • Quyết định kế hoạch kiểm tra tính nhất quán, chính xác và toàn vẹn của dữ liệu.
  • Kho dữ liệu phải được tích hợp tốt, được xác định rõ ràng và được đánh dấu thời gian.
  • Trong khi thiết kế Datawarehouse, hãy đảm bảo bạn sử dụng đúng công cụ, tuân thủ vòng đời, quan tâm đến xung đột dữ liệu và sẵn sàng nhận biết lỗi lầm của mình.
  • Không bao giờ thay thế hệ thống vận hành và báo cáo
  • Đừng dành quá nhiều thời gian cho việc trích xuất, làm sạch và tải dữ liệu.
  • Đảm bảo có sự tham gia của tất cả các bên liên quan bao gồm cả nhân viên kinh doanh vào quá trình triển khai Datawarehouse. Xác định rằng Kho dữ liệu là một dự án chung/nhóm. Bạn không muốn tạo Kho dữ liệu không hữu ích cho người dùng cuối.
  • Chuẩn bị một kế hoạch đào tạo cho người dùng cuối.

Tại sao chúng ta cần kho dữ liệu? Ưu điểm và nhược điểm

Ưu điểm của Kho dữ liệu (DWH):

  • Kho dữ liệu cho phép người dùng doanh nghiệp truy cập nhanh chóng dữ liệu quan trọng từ một số nguồn ở cùng một nơi.
  • Kho dữ liệu cung cấp thông tin nhất quán về các hoạt động đa chức năng khác nhau. Nó cũng hỗ trợ báo cáo và truy vấn đặc biệt.
  • Data Warehouse giúp tích hợp nhiều nguồn dữ liệu để giảm bớt căng thẳng cho hệ thống sản xuất.
  • Kho dữ liệu giúp giảm tổng thời gian quay vòng để phân tích và báo cáo.
  • Tái cấu trúc và tích hợp giúp người dùng dễ dàng sử dụng hơn để báo cáo và phân tích.
  • Kho dữ liệu cho phép người dùng truy cập dữ liệu quan trọng từ nhiều nguồn ở một nơi duy nhất. Vì vậy, nó giúp người dùng tiết kiệm thời gian lấy dữ liệu từ nhiều nguồn.
  • Kho dữ liệu lưu trữ một lượng lớn dữ liệu lịch sử. Điều này giúp người dùng phân tích các khoảng thời gian và xu hướng khác nhau để đưa ra dự đoán trong tương lai.

Nhược điểm của kho dữ liệu:

  • Không phải là một lựa chọn lý tưởng cho dữ liệu phi cấu trúc.
  • Việc tạo và triển khai Kho dữ liệu chắc chắn là một vấn đề khó hiểu.
  • Kho dữ liệu có thể bị lỗi thời tương đối nhanh chóng
  • Khó thực hiện các thay đổi về kiểu và phạm vi dữ liệu, lược đồ nguồn dữ liệu, chỉ mục và truy vấn.
  • Kho dữ liệu có vẻ đơn giản nhưng thực tế lại quá phức tạp đối với người dùng trung bình.
  • Bất chấp những nỗ lực tốt nhất trong quản lý dự án, phạm vi dự án lưu trữ dữ liệu sẽ luôn tăng lên.
  • Đôi khi người dùng kho sẽ phát triển các quy tắc kinh doanh khác nhau.
  • Các tổ chức cần dành nhiều nguồn lực cho mục đích đào tạo và triển khai.

Tương lai của kho dữ liệu

  • Thay đổi trong Ràng buộc pháp lý có thể hạn chế khả năng kết hợp nguồn dữ liệu khác nhau. Các nguồn khác nhau này có thể bao gồm dữ liệu phi cấu trúc khó lưu trữ.
  • như kích thước của các cơ sở dữ liệu phát triển, ước tính về những gì cấu thành nên một cơ sở dữ liệu rất lớn tiếp tục tăng. Thật phức tạp để xây dựng và vận hành các hệ thống kho dữ liệu luôn tăng về quy mô. Các tài nguyên phần cứng và phần mềm hiện có không cho phép lưu trữ một lượng lớn dữ liệu trực tuyến.
  • Dữ liệu đa phương tiện không thể dễ dàng thao tác dưới dạng dữ liệu văn bản, trong khi thông tin văn bản có thể được truy xuất bằng phần mềm quan hệ hiện có. Đây có thể là một chủ đề nghiên cứu.

Công cụ kho dữ liệu

Có rất nhiều công cụ lưu trữ dữ liệu có sẵn trên thị trường. Dưới đây là một số nổi bật nhất:

1. MarkLogic:

MarkLogic là giải pháp kho dữ liệu hữu ích giúp tích hợp dữ liệu dễ dàng và nhanh hơn bằng cách sử dụng một loạt các tính năng doanh nghiệp. Công cụ này giúp thực hiện các hoạt động tìm kiếm rất phức tạp. Nó có thể truy vấn các loại dữ liệu khác nhau như tài liệu, mối quan hệ và siêu dữ liệu.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle là cơ sở dữ liệu hàng đầu trong ngành. Nó cung cấp nhiều lựa chọn giải pháp kho dữ liệu cho cả tại chỗ và trên đám mây. Nó giúp tối ưu hóa trải nghiệm của khách hàng bằng cách tăng hiệu quả hoạt động.

https://www.oracle.com/index.html

3. Amazon đỏShift:

Amazon Redshift là công cụ kho dữ liệu. Đây là một công cụ đơn giản và tiết kiệm chi phí để phân tích tất cả các loại dữ liệu bằng cách sử dụng tiêu chuẩn SQL và các công cụ BI hiện có. Nó cũng cho phép chạy các truy vấn phức tạp trên petabyte dữ liệu có cấu trúc, sử dụng kỹ thuật tối ưu hóa truy vấn.

https://aws.amazon.com/redshift/?nc2=h_m1

Đây là danh sách đầy đủ các thông tin hữu ích Công cụ kho dữ liệu.

HỌC TẬP CHÍNH

  • Kho dữ liệu (DWH), còn được gọi là Kho dữ liệu doanh nghiệp (EDW).
  • Kho dữ liệu được định nghĩa là kho lưu trữ trung tâm nơi thông tin đến từ một hoặc nhiều nguồn dữ liệu.
  • Ba loại kho dữ liệu chính là Kho dữ liệu doanh nghiệp (EDW), OperaKho dữ liệu quốc tế và Data Mart.
  • Trạng thái chung của kho dữ liệu là ngoại tuyến OperaCơ sở dữ liệu quốc tế, Kho dữ liệu ngoại tuyến, Kho dữ liệu thời gian thực và Kho dữ liệu tích hợp.
  • Bốn thành phần chính của Datawarehouse là Trình quản lý tải, Trình quản lý kho, Trình quản lý truy vấn, Công cụ truy cập của người dùng cuối
  • Datawarehouse được sử dụng trong các ngành công nghiệp đa dạng như Hàng không, Ngân hàng, Chăm sóc sức khỏe, Bảo hiểm, Bán lẻ, v.v.
  • Việc triển khai Datawarehosue là chiến lược 3 mũi nhọn: Chiến lược doanh nghiệp, Phân phối theo giai đoạn và Nguyên mẫu lặp đi lặp lại.
  • Kho dữ liệu cho phép người dùng doanh nghiệp truy cập nhanh chóng dữ liệu quan trọng từ một số nguồn ở cùng một nơi.