データレイクとは何ですか?その Archi構造: データレイクのチュートリアル

データレイクとは何ですか?

データ レイクは、大量の構造化データ、半構造化データ、および非構造化データを保存できるストレージ リポジトリです。 アカウント サイズやファイルに固定の制限がなく、あらゆる種類のデータをネイティブ形式で保存する場所です。 大量のデータを提供して、分析パフォーマンスとネイティブ統合を向上させます。

データ レイクは、実際の湖や川に非常によく似た大きなコンテナのようなものです。湖に複数の支流が流れ込むのと同じように、データ レイクには構造化データ、非構造化データ、マシン間、ログがリアルタイムで流れています。

データレイク
データレイク

データ レイクはデータを民主化し、組織のすべてのデータを後で処理するためにコスト効率よく保存する方法です。リサーチ アナリストは、データ自体ではなく、データ内の意味パターンを見つけることに集中できます。

階層構造とは異なります データウェアハウス データはファイルとフォルダーに保存されますが、データ レイクはフラットなアーキテクチャです。データ レイク内のすべてのデータ要素には一意の識別子が付与され、メタデータ情報のセットがタグ付けされます。

なぜデータレイクなのか?

データ レイクを構築する主な目的は、データの純粋なビューをデータ サイエンティストに提供することです。

データ レイクを使用する理由は次のとおりです。

  • のようなストレージエンジンの登場により、 Hadoopの さまざまな情報を保存することが容易になりました。 Data Lake を使用してデータを企業全体のスキーマにモデル化する必要はありません。
  • データ量、データ品質、メタデータの増加に伴い、分析の品質も向上します。
  • データ レイクはビジネスの俊敏性を提供します
  • 機械学習 人工知能を使用すると、収益性の高い予測を行うことができます。
  • これは、導入組織に競争上の優位性をもたらします。
  • データサイロ構造はありません。 Data Lake は顧客の 360 度のビューを提供し、分析をより堅牢にします。

データレイク Archi構造

データレイク Archi構造
データレイク Archi構造

この図はビジネス データ レイクのアーキテクチャを示しています。下位レベルは主に保存されているデータを表し、上位レベルはリアルタイムのトランザクション データを表します。このデータは、システム内をほとんどまたはまったく遅延なく流れます。以下は、データ レイクの重要な層です。 Archi構造:

  1. インジェスト層: 左側の層はデータ ソースを表します。 データはバッチまたはリアルタイムでデータ レイクにロードできます。
  2. インサイト層: 右側の階層は、システムからの洞察が使用される研究側を表します。 SQL、NoSQL クエリ、さらには Excel をデータ分析に使用することもできます。
  3. HDFS は、構造化データと非構造化データの両方に対してコスト効率の高いソリューションです。 これは、システム内に保存されているすべてのデータのランディング ゾーンです。
  4. 蒸留層 ストレージタイヤからデータを取得し、分析を容易にするために構造化データに変換します。
  5. 処理層 分析アルゴリズムとユーザークエリをさまざまなリアルタイム、インタラクティブ、バッチで実行し、構造化されたデータを生成することで、分析を容易にします。
  6. 統合運用層 システムの管理と監視を管理します。 これには、監査と熟練度管理、データ管理、 ワークフロー管理.

キーデータレイク Concepts

以下は、データレイクを完全に理解するために理解する必要がある主要なデータレイクの概念です。 Archi構造

キー Concepts データレイクの
キー Concepts データレイクの

データの取り込み

データ インジェストにより、コネクタはさまざまなデータ ソースからデータを取得し、データ レイクに読み込むことができます。

データ取り込みは以下をサポートします。

  • あらゆる種類の構造化データ、半構造化データ、非構造化データ。
  • バッチ、リアルタイム、ワンタイムロードなどの複数の取り込み。
  • データベース、ウェブサーバー、電子メールなどの多くの種類のデータソース IoT、FTP。

データストレージ

データ ストレージはスケーラブルであり、コスト効率の高いストレージを提供し、データ探索への高速アクセスを可能にする必要があります。 さまざまなデータ形式をサポートする必要があります。

データガバナンス

データ ガバナンスは、組織内で使用されるデータの可用性、使いやすさ、セキュリティ、整合性を管理するプロセスです。

セキュリティ

セキュリティはデータレイクのすべての層に実装する必要があります。 それは、保管、発掘、消費から始まります。 基本的に必要なのは、権限のないユーザーのアクセスを停止することです。 簡単にナビゲートできる GUI とダッシュボードを使用してデータにアクセスするためのさまざまなツールをサポートする必要があります。

認証、アカウンティング、認可、データ保護は、データ レイク セキュリティの重要な機能です。

データ品質

データ品質は、データ レイク アーキテクチャの重要なコンポーネントです。データはビジネス価値を正確に把握するために使用されます。品質の低いデータから洞察を抽出すると、品質の低い洞察しか得られません。

データ発見

データ検出は、データの準備や分析を開始する前のもう XNUMX つの重要な段階です。 この段階では、タグ付け技術を使用して、データ レイクに取り込まれたデータを整理して解釈することで、データの理解を表現します。

データ監査

XNUMX つの主要なデータ監査タスクは、主要なデータセットへの変更を追跡することです。

  1. 重要なデータセット要素への変更の追跡
  2. これらの要素をいつ、誰がどのように変更するかを記録します。

データ監査は、リスクとコンプライアンスの評価に役立ちます。

データ系統

このコンポーネントはデータの起源を扱います。 主に、時間の経過とともに移動する場所とそれに何が起こるかを扱います。 これにより、送信元から送信先までのデータ分析プロセスにおけるエラー修正が容易になります。

データ探査

データ分析の初期段階です。 データ探索を開始する前に、適切なデータセットを特定することが重要です。

データ レイクの構築において重要な役割を果たすには、すべての所定のコンポーネントが連携して環境を簡単に進化させ、探索する必要があります。

データレイクの成熟段階

データ レイクの成熟段階の定義は、教科書によって異なります。ただし、要点は同じです。成熟に続いて、段階の定義は素人の観点から行われます。

データレイクの成熟段階
データレイクの成熟段階

ステージ 1: 大規模なデータの処理と取り込み

データ成熟度のこの最初の段階には、データの変換と分析の能力の向上が含まれます。 ここで、ビジネス オーナーは、より多くのデータを取得し、分析アプリケーションを構築するために、自分のスキルセットに応じたツールを見つける必要があります。

ステージ 2: 分析力の構築

これは第 XNUMX 段階であり、データの変換および分析能力の向上が含まれます。 この段階では、企業は自社のスキルセットに最も適したツールを使用します。 彼らはさらに多くのデータを取得し、アプリケーションを構築し始めます。 ここでは、エンタープライズ データ ウェアハウスとデータ レイクの機能が併用されます。

ステージ 3: EDW とデータ レイクが連携して動作する

このステップには、データと分析をできるだけ多くの人に届けることが含まれます。 この段階では、データ レイクとエンタープライズ データ ウェアハウスが連携して動作し始めます。 どちらも分析においてそれぞれの役割を果たしています

ステージ 4: 湖におけるエンタープライズ機能

データ レイクのこの成熟段階では、エンタープライズ機能がデータ レイクに追加されます。 情報ガバナンス、情報ライフサイクル管理機能、およびメタデータ管理の導入。 ただし、このレベルの成熟度に到達できる組織はほとんどなく、将来的にはこの数は増加するでしょう。

データ レイク実装のベスト プラクティス

  • Archi構造コンポーネント、それらの相互作用、および識別された製品はネイティブ データ型をサポートする必要があります
  • データ レイクの設計は、何が必要かではなく、何が利用できるかによって推進される必要があります。 スキーマとデータの要件は、クエリされるまで定義されません。
  • 設計は、サービス API と統合された使い捨てコンポーネントによってガイドされる必要があります。
  • データの検出、取り込み、保存、管理、品質、変換、視覚化は個別に管理する必要があります。
  • データレイクアーキテクチャは特定の業界に合わせて調整する必要があります。そのドメインに必要な機能が設計の本質的な部分であることを確認する必要があります。
  • 新しく発見されたデータソースをより迅速にオンボーディングすることが重要です
  • Data Lake は、カスタマイズされた管理で最大の価値を引き出すのに役立ちます
  • データ レイクは、既存のエンタープライズ データ管理技術と方法をサポートする必要があります。

データレイク構築の課題:

  • Data Lake ではデータ量が増えるため、プロセスはプログラムによる管理にさらに依存する必要があります
  • まばらで不完全な揮発性のデータを扱うのは難しい
  • より広範囲のデータセットとソースには、より大規模なデータ ガバナンスとサポートが必要です

データレイクとデータウェアハウスの違い

Parameters データレイク データウェアハウス
Rescale データ データレイクにはすべてが保存されます。 データ ウェアハウスはビジネス プロセスのみに焦点を当てています。
処理 データは主に未処理です 高度に処理されたデータ。
データの種類 非構造化、半構造化、構造化のいずれかになります。 ほとんどの場合、表形式と構造になっています。
仕事 データ管理を共有する データ取得用に最適化
アジリティ 機敏性が高く、必要に応じて構成および再構成が可能です。 データ レイクと比較すると、俊敏性が低く、構成が固定されています。
ユーザー データレイクは主にデータサイエンティストによって使用されます ビジネスプロフェッショナルはデータウェアハウスを広く利用しています
Storage データ レイクは、低コストのストレージ向けに設計されています。 応答時間が速い高価なストレージが使用されている
セキュリティ 制御性が低くなります。 データをより適切に制御できるようになります。
EDWの置き換え データレイクは EDW のソースになる可能性があります EDW を補完します (代替ではありません)
スキーマ 読み取り時のスキーマ (事前定義されたスキーマなし) 書き込み時のスキーマ (事前定義されたスキーマ)
情報処理 新しいデータの迅速な取り込みに役立ちます。 新しいコンテンツを導入するには時間がかかります。
データの粒度 低レベルの詳細または粒度のデータ。 概要または集計された詳細レベルのデータ。
ツール Hadoop/Map Reduce などのオープンソース/ツールを使用可能 主に商用ツールです。

Data Lake を使用する利点とリスク

データ レイクを使用する主な利点は次のとおりです。

  • 製品のイオン化と高度な分析に完全に役立ちます
  • コスト効率の高い拡張性と柔軟性を提供します
  • 無制限のデータタイプから価値を提供します
  • 長期的な所有コストを削減
  • ファイルを経済的に保存できる
  • 変化に素早く対応できる
  • データレイクの主な利点は次のとおりです。 集中化 さまざまなコンテンツソースの
  • さまざまな部門のユーザーが世界中に分散している可能性があります。 柔軟なアクセス データに

データレイク使用のリスク:

  • しばらくすると、データレイクは重要性と勢いを失う可能性がある
  • データレイクの設計中には、より大きなリスクが伴います
  • 非構造化データは、管理されていない混乱、使用できないデータ、異種で複雑なツール、企業全体のコラボレーション、統一された一貫性のある共通性につながる可能性があります。
  • ストレージとコンピューティングのコストも増加します
  • 以前のアナリストによる調査結果の系統が説明されていないため、データを使用した他の人から洞察を得る方法はありません。
  • データレイクの最大のリスクはセキュリティとアクセス制御です。 データの中にはプライバシーや規制上の必要性がある場合があるため、データを監視することなくレイクに置くことができる場合があります。

まとめ

  • データ レイクは、大量の構造化データ、半構造化データ、および非構造化データを保存できるストレージ リポジトリです。
  • データ レイクを構築する主な目的は、データの純粋なビューをデータ サイエンティストに提供することです。
  • 統合オペレーション層、処理層、蒸留層、HDFSはデータレイクの重要な層です。 Archi構造
  • データ取り込み、データ ストレージ、データ品質、データ監査、データ探索、データ検出は、データ レイクの重要なコンポーネントです。 Archi構造
  • データ レイクの設計は、何が必要かではなく、何が利用できるかによって推進される必要があります。
  • データ レイクは長期的な所有コストを削減し、ファイルを経済的に保管できるようにします。
  • データレイクの最大のリスクはセキュリティとアクセス制御です。 データの中にはプライバシーや規制上の必要性がある場合があるため、データを監視することなくレイクに配置できる場合があります。