Hồ dữ liệu là gì? Của nó Archikiến trúc: Hướng dẫn về hồ dữ liệu
Data Lake là gì?
Hồ dữ liệu là kho lưu trữ có thể lưu trữ lượng lớn dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc. Đây là nơi lưu trữ mọi loại dữ liệu ở định dạng gốc mà không có giới hạn cố định về kích thước hoặc tệp tài khoản. Nó cung cấp số lượng dữ liệu cao để tăng hiệu suất phân tích và tích hợp gốc.
Data Lake giống như một container lớn rất giống với hồ và sông thực sự. Giống như trong một hồ, bạn có nhiều nhánh sông chảy vào, một data lake có dữ liệu có cấu trúc, dữ liệu không có cấu trúc, máy với máy, nhật ký chảy qua theo thời gian thực.

Data Lake dân chủ hóa dữ liệu và là cách tiết kiệm chi phí để lưu trữ tất cả dữ liệu của một tổ chức để xử lý sau. Nhà phân tích nghiên cứu có thể tập trung vào việc tìm kiếm các mẫu ý nghĩa trong dữ liệu chứ không phải bản thân dữ liệu.
Khác với hệ thống phân cấp Kho dữ liệu nơi dữ liệu được lưu trữ trong Tệp và Thư mục, Data lake có kiến trúc phẳng. Mỗi phần tử dữ liệu trong Data Lake được cấp một mã định danh duy nhất và được gắn thẻ bằng một tập hợp thông tin siêu dữ liệu.
Tại sao hồ dữ liệu?
Mục tiêu chính của việc xây dựng hồ dữ liệu là cung cấp cái nhìn tổng thể về dữ liệu cho các nhà khoa học dữ liệu.
Lý do sử dụng Data Lake là:
- Với sự ra đời của các công cụ lưu trữ như Hadoop việc lưu trữ thông tin khác nhau đã trở nên dễ dàng. Không cần phải mô hình hóa dữ liệu thành lược đồ toàn doanh nghiệp với Hồ dữ liệu.
- Với sự gia tăng về khối lượng dữ liệu, chất lượng dữ liệu và siêu dữ liệu, chất lượng phân tích cũng tăng lên.
- Data Lake mang lại sự linh hoạt cho doanh nghiệp
- Machine Learning và Trí tuệ nhân tạo có thể được sử dụng để đưa ra dự đoán có lợi nhuận.
- Nó mang lại lợi thế cạnh tranh cho tổ chức thực hiện.
- Không có cấu trúc silo dữ liệu. Data Lake cung cấp cái nhìn 360 độ về khách hàng và giúp việc phân tích trở nên hiệu quả hơn.
Hồ dữ liệu Archikiến trúc

Hình ảnh cho thấy kiến trúc của một Hồ dữ liệu doanh nghiệp. Các cấp thấp hơn biểu diễn dữ liệu chủ yếu ở trạng thái nghỉ trong khi các cấp cao hơn biểu diễn dữ liệu giao dịch theo thời gian thực. Dữ liệu này chảy qua hệ thống mà không có hoặc có rất ít độ trễ. Sau đây là các cấp quan trọng trong Hồ dữ liệu Archikiến trúc:
- Cấp nhập: Các bậc ở phía bên trái mô tả các nguồn dữ liệu. Dữ liệu có thể được tải vào hồ dữ liệu theo đợt hoặc theo thời gian thực
- Cấp thông tin chi tiết: Các cấp độ bên phải đại diện cho phía nghiên cứu nơi sử dụng những hiểu biết sâu sắc từ hệ thống. SQL, Truy vấn NoSQL hoặc thậm chí excel có thể được sử dụng để phân tích dữ liệu.
- HDFS là một giải pháp tiết kiệm chi phí cho cả dữ liệu có cấu trúc và không cấu trúc. Đây là nơi hạ cánh cho tất cả dữ liệu đang ở trạng thái nghỉ trong hệ thống.
- Tầng chưng cất lấy dữ liệu từ bộ lưu trữ và chuyển đổi nó thành dữ liệu có cấu trúc để phân tích dễ dàng hơn.
- Cấp xử lý chạy các thuật toán phân tích và truy vấn của người dùng với các thời gian thực, tương tác, hàng loạt khác nhau để tạo ra dữ liệu có cấu trúc để phân tích dễ dàng hơn.
- Cấp độ hoạt động thống nhất quản lý và giám sát hệ thống. Nó bao gồm kiểm toán và quản lý trình độ, quản lý dữ liệu, quản lý công việc.
Hồ dữ liệu chính Concepts
Sau đây là các khái niệm chính về Data Lake mà người ta cần hiểu để hiểu hoàn toàn về Data Lake Archikiến trúc

Nhập dữ liệu
Nhập dữ liệu cho phép trình kết nối lấy dữ liệu từ các nguồn dữ liệu khác và tải vào Hồ dữ liệu.
Hỗ trợ nhập dữ liệu:
- Tất cả các loại dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc.
- Nhiều lần nhập như Hàng loạt, Thời gian thực, Tải một lần.
- Nhiều loại nguồn dữ liệu như Cơ sở dữ liệu, Máy chủ web, Email, IOTvà FTP.
Lưu trữ dữ liệu
Việc lưu trữ dữ liệu phải có khả năng mở rộng, cung cấp khả năng lưu trữ hiệu quả về mặt chi phí và cho phép truy cập nhanh vào việc khám phá dữ liệu. Nó sẽ hỗ trợ các định dạng dữ liệu khác nhau.
Quản trị dữ liệu
Quản trị dữ liệu là một quá trình quản lý tính sẵn có, khả năng sử dụng, bảo mật và tính toàn vẹn của dữ liệu được sử dụng trong một tổ chức.
Bảo mật
Bảo mật cần được triển khai ở mọi lớp của Hồ dữ liệu. Nó bắt đầu với Lưu trữ, Khai thác và Tiêu thụ. Nhu cầu cơ bản là ngừng truy cập đối với người dùng trái phép. Nó sẽ hỗ trợ các công cụ khác nhau để truy cập dữ liệu với GUI và Bảng điều khiển dễ điều hướng.
Xác thực, Kế toán, Ủy quyền và Bảo vệ dữ liệu là một số tính năng quan trọng của bảo mật hồ dữ liệu.
Chất lượng dữ liệu
Chất lượng dữ liệu là một thành phần thiết yếu của kiến trúc Data Lake. Dữ liệu được sử dụng để xác định giá trị kinh doanh. Trích xuất thông tin chi tiết từ dữ liệu chất lượng kém sẽ dẫn đến thông tin chi tiết chất lượng kém.
Khám phá dữ liệu
Khám phá dữ liệu là một giai đoạn quan trọng khác trước khi bạn có thể bắt đầu chuẩn bị dữ liệu hoặc phân tích. Ở giai đoạn này, kỹ thuật gắn thẻ được sử dụng để thể hiện sự hiểu biết về dữ liệu bằng cách tổ chức và diễn giải dữ liệu được nhập vào Hồ dữ liệu.
Kiểm tra dữ liệu
Hai nhiệm vụ kiểm tra dữ liệu chính là theo dõi các thay đổi đối với tập dữ liệu chính.
- Theo dõi các thay đổi đối với các thành phần dữ liệu quan trọng
- Nắm bắt cách thức/khi nào/và ai thay đổi các yếu tố này.
Kiểm toán dữ liệu giúp đánh giá rủi ro và tuân thủ.
Dòng dữ liệu
Thành phần này xử lý nguồn gốc của dữ liệu. Nó chủ yếu đề cập đến nơi nó di chuyển theo thời gian và điều gì xảy ra với nó. Nó giúp giảm bớt việc sửa lỗi trong quy trình phân tích dữ liệu từ đầu đến cuối.
Thăm dò dữ liệu
Đây là giai đoạn đầu của phân tích dữ liệu. Việc xác định đúng tập dữ liệu là rất quan trọng trước khi bắt đầu Khám phá dữ liệu.
Tất cả các thành phần nhất định cần phối hợp với nhau để đóng vai trò quan trọng trong việc xây dựng Hồ dữ liệu, dễ dàng phát triển và khám phá môi trường.
Các giai đoạn trưởng thành của Data Lake
Định nghĩa về các giai đoạn trưởng thành của Data Lake khác nhau tùy theo sách giáo khoa. Mặc dù cốt lõi vẫn như vậy. Sau giai đoạn trưởng thành, định nghĩa giai đoạn là theo quan điểm của người bình thường.

Giai đoạn 1: Xử lý và nhập dữ liệu trên quy mô lớn
Giai đoạn đầu tiên của Quá trình trưởng thành dữ liệu này liên quan đến việc cải thiện khả năng chuyển đổi và phân tích dữ liệu. Tại đây, chủ doanh nghiệp cần tìm các công cụ phù hợp với kỹ năng của mình để thu thập thêm dữ liệu và xây dựng các ứng dụng phân tích.
Giai đoạn 2: Xây dựng cơ bắp phân tích
Đây là giai đoạn thứ hai liên quan đến việc cải thiện khả năng chuyển đổi và phân tích dữ liệu. Trong giai đoạn này, các công ty sử dụng công cụ phù hợp nhất với kỹ năng của họ. Họ bắt đầu thu thập thêm dữ liệu và xây dựng ứng dụng. Ở đây, các khả năng của kho dữ liệu doanh nghiệp và hồ dữ liệu được sử dụng cùng nhau.
Giai đoạn 3: EDW và Data Lake hoạt động đồng bộ
Bước này liên quan đến việc đưa dữ liệu và phân tích đến tay càng nhiều người càng tốt. Trong giai đoạn này, hồ dữ liệu và kho dữ liệu doanh nghiệp bắt đầu hoạt động thống nhất. Cả hai đều đóng vai trò phân tích
Giai đoạn 4: Năng lực doanh nghiệp trong hồ
Trong giai đoạn trưởng thành này của Hồ dữ liệu, các khả năng của doanh nghiệp sẽ được thêm vào Hồ dữ liệu. Áp dụng quản trị thông tin, khả năng quản lý vòng đời thông tin và quản lý siêu dữ liệu. Tuy nhiên, rất ít tổ chức có thể đạt đến mức độ trưởng thành này nhưng con số này sẽ tăng lên trong tương lai.
Các phương pháp hay nhất để triển khai Data Lake
- Archicác thành phần kiến trúc, sự tương tác của chúng và các sản phẩm được xác định phải hỗ trợ các kiểu dữ liệu gốc
- Thiết kế của Hồ dữ liệu phải được thúc đẩy bởi những gì có sẵn thay vì những gì được yêu cầu. Yêu cầu về lược đồ và dữ liệu không được xác định cho đến khi được truy vấn
- Thiết kế phải được hướng dẫn bởi các thành phần dùng một lần được tích hợp với API dịch vụ.
- Việc khám phá, nhập, lưu trữ, quản trị, chất lượng, chuyển đổi và trực quan hóa dữ liệu phải được quản lý độc lập.
- Kiến trúc Data Lake phải được thiết kế riêng cho một ngành cụ thể. Nó phải đảm bảo rằng các khả năng cần thiết cho miền đó là một phần vốn có của thiết kế
- Việc tiếp nhận các nguồn dữ liệu mới được phát hiện nhanh hơn là rất quan trọng
- Data Lake giúp quản lý tùy chỉnh để trích xuất giá trị tối đa
- Hồ dữ liệu phải hỗ trợ các kỹ thuật và phương pháp quản lý dữ liệu doanh nghiệp hiện có
Những thách thức của việc xây dựng hồ dữ liệu:
- Trong Data Lake, Khối lượng dữ liệu cao hơn nên quy trình phải phụ thuộc nhiều hơn vào quản trị theo chương trình
- Khó xử lý dữ liệu thưa thớt, không đầy đủ, không ổn định
- Phạm vi dữ liệu và nguồn rộng hơn cần quản trị và hỗ trợ dữ liệu lớn hơn
Sự khác biệt giữa Hồ dữ liệu và Kho dữ liệu
Thông số Kỹ thuật | Hồ dữ liệu | Kho dữ liệu |
---|---|---|
Ngày | Hồ dữ liệu lưu trữ mọi thứ. | Kho dữ liệu chỉ tập trung vào Quy trình kinh doanh. |
Đang xử lý | Dữ liệu chủ yếu chưa được xử lý | Dữ liệu được xử lý cao. |
Loại dữ liệu | Nó có thể là Không cấu trúc, bán cấu trúc và có cấu trúc. | Nó chủ yếu ở dạng bảng và cấu trúc. |
Nhiệm vụ | Chia sẻ quản lý dữ liệu | Tối ưu hóa để truy xuất dữ liệu |
nhanh nhẹn | Rất linh hoạt, cấu hình và cấu hình lại khi cần thiết. | So với Hồ dữ liệu, nó kém linh hoạt hơn và có cấu hình cố định. |
Người dùng | Data Lake chủ yếu được sử dụng bởi Nhà khoa học dữ liệu | Các chuyên gia kinh doanh sử dụng rộng rãi kho dữ liệu |
Kho lưu trữ | Thiết kế hồ dữ liệu để lưu trữ chi phí thấp | Bộ nhớ đắt tiền cho thời gian phản hồi nhanh được sử dụng |
Bảo mật | Cung cấp khả năng kiểm soát ít hơn. | Cho phép kiểm soát dữ liệu tốt hơn. |
Thay thế EDW | Hồ dữ liệu có thể là nguồn cho EDW | Bổ sung cho EDW (không thay thế) |
Schema | Lược đồ khi đọc (không có lược đồ được xác định trước) | Lược đồ khi ghi (lược đồ được xác định trước) |
Xử lí dữ liệu | Giúp nhập nhanh dữ liệu mới. | Tốn thời gian để giới thiệu nội dung mới. |
Độ chi tiết của dữ liệu | Dữ liệu ở mức độ chi tiết hoặc chi tiết thấp. | Dữ liệu ở mức độ tóm tắt hoặc tổng hợp chi tiết. |
CÔNG CỤ | Có thể sử dụng các công cụ/nguồn mở như Hadoop/Map Giảm | Chủ yếu là các công cụ thương mại. |
Lợi ích và rủi ro khi sử dụng Data Lake
Dưới đây là một số lợi ích chính khi sử dụng Hồ dữ liệu:
- Giúp hoàn toàn với quá trình ion hóa sản phẩm và phân tích nâng cao
- Cung cấp khả năng mở rộng và tính linh hoạt hiệu quả về chi phí
- Cung cấp giá trị từ các loại dữ liệu không giới hạn
- Giảm chi phí sở hữu dài hạn
- Cho phép lưu trữ kinh tế các tệp
- Thích ứng nhanh với những thay đổi
- Ưu điểm chính của hồ dữ liệu là tập trung hóa các nguồn nội dung khác nhau
- Người dùng, từ nhiều phòng ban khác nhau, có thể sống rải rác trên toàn cầu có thể có truy cập linh hoạt đến dữ liệu
Rủi ro khi sử dụng Data Lake:
- Sau một thời gian, Data Lake có thể mất đi mức độ liên quan và động lực
- Có nhiều rủi ro hơn khi thiết kế Data Lake
- Dữ liệu phi cấu trúc có thể dẫn đến sự hỗn loạn không được quản lý, dữ liệu không sử dụng được, các công cụ phức tạp và không đồng nhất, sự hợp tác trên toàn doanh nghiệp, thống nhất, nhất quán và chung
- Nó cũng làm tăng chi phí lưu trữ và tính toán
- Không có cách nào để có được thông tin chi tiết từ những người khác đã làm việc với dữ liệu bởi vì không có tài khoản về nguồn gốc của các phát hiện của các nhà phân tích trước đó
- Rủi ro lớn nhất của hồ dữ liệu là bảo mật và kiểm soát truy cập. Đôi khi dữ liệu có thể được đặt vào một hồ mà không có bất kỳ sự giám sát nào, vì một số dữ liệu có thể có nhu cầu về quyền riêng tư và quy định
Tổng kết
- Hồ dữ liệu là kho lưu trữ có thể lưu trữ lượng lớn dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc.
- Mục tiêu chính của việc xây dựng hồ dữ liệu là cung cấp cái nhìn tổng thể về dữ liệu cho các nhà khoa học dữ liệu.
- Tầng hoạt động hợp nhất, Tầng xử lý, Tầng chưng cất và HDFS là các tầng quan trọng của Data Lake Archikiến trúc
- Nhập dữ liệu, Lưu trữ dữ liệu, Chất lượng dữ liệu, Kiểm tra dữ liệu, Khám phá dữ liệu, Khám phá dữ liệu là một số thành phần quan trọng của Hồ dữ liệu Archikiến trúc
- Thiết kế của Hồ dữ liệu phải được thúc đẩy bởi những gì có sẵn thay vì những gì được yêu cầu.
- Hồ dữ liệu giảm chi phí sở hữu lâu dài và cho phép lưu trữ tệp một cách tiết kiệm
- Rủi ro lớn nhất của hồ dữ liệu là bảo mật và kiểm soát truy cập. Đôi khi dữ liệu có thể được đưa vào hồ mà không có bất kỳ sự giám sát nào, vì một số dữ liệu có thể có nhu cầu về quyền riêng tư và quy định.