データ ウェアハウスとは何ですか? 種類、定義、例
データ ウェアハウジングとは
A データウェアハウス (DW) は、さまざまなソースからデータを収集して管理し、有意義なビジネス インサイトを提供するプロセスです。データ ウェアハウスは通常、異種ソースからのビジネス データを接続して分析するために使用されます。データ ウェアハウスは、データ分析とレポート作成用に構築された BI システムの中核です。
これは、データの戦略的な使用を支援するテクノロジーとコンポーネントの融合です。これは、トランザクション処理ではなくクエリと分析用に設計された、企業による大量の情報の電子ストレージです。これは、データを情報に変換し、タイムリーにユーザーに提供して違いを生み出すプロセスです。
意思決定支援データベース (データ ウェアハウス) は、組織の運用データベースとは別に管理されます。ただし、データ ウェアハウスは製品ではなく環境です。これは、従来の運用データ ストアではアクセスや表示が困難な、現在および過去の意思決定支援情報をユーザーに提供する情報システムのアーキテクチャ構造です。
在庫システム用に 3NF で設計されたデータベースの多くには、相互に関連するテーブルがあることをご存知の方も多いでしょう。 たとえば、現在のインベントリ情報に関するレポートには、12 を超える結合条件が含まれる場合があります。 これにより、クエリとレポートの応答時間が急速に遅くなる可能性があります。 データ ウェアハウスは、応答時間を短縮し、レポートや分析のクエリのパフォーマンスを向上させる新しい設計を提供します。
データ ウェアハウス システムは、次の名前でも知られています。
- 意思決定支援システム (DSS)
- 経営情報システム
- 経営情報システム
- ビジネスインテリジェンスソリューション
- 分析アプリケーション
- データウェアハウス
データウェアハウスの歴史
データウェアハウスは、ユーザーが組織のパフォーマンスを理解し、強化するのに役立ちます。コンピュータ システムが複雑になり、処理する必要のある情報量が増えるにつれて、データをウェアハウス化する必要性が高まりました。ただし、データ ウェアハウスは新しいものではありません。
データ ウェアハウスの進化における重要な出来事をいくつか紹介します。
- 1960年 - ダートマスとゼネラル・ミルズは共同研究プロジェクトで、寸法と事実という用語を開発しました。
- 1970 - ニールセンと IRI が小売販売向けに次元データ マートを導入。
- 1983 - Tera Data Corporation は、意思決定支援用に特別に設計されたデータベース管理システムを導入
- データ ウェアハウスは 1980 年代後半に始まりました。 IBM 労働者の Paul Murphy と Barry Devlin は、ビジネス データ ウェアハウスを開発しました。
- しかし、本当のコンセプトは印門によって与えられました。 Bill。彼はデータ ウェアハウスの父とみなされていました。彼は、倉庫と企業情報ファクトリーの構築、使用法、メンテナンスに関するさまざまなトピックについて書いていました。
データウェアハウスはどのように機能するのでしょうか?
データ ウェアハウスは、XNUMX つ以上のデータ ソースから情報が届く中央リポジトリとして機能します。 データは、トランザクション システムや他のリレーショナル データベースからデータ ウェアハウスに流れ込みます。
データは次のとおりです。
- 構造化されました
- 半構造化
- 非構造化データ
データは処理、変換、取り込まれ、ユーザーはビジネス インテリジェンス ツール、SQL クライアント、スプレッドシートを通じてデータ ウェアハウス内の処理済みデータにアクセスできるようになります。 データ ウェアハウスは、さまざまなソースからの情報を XNUMX つの包括的なデータベースに統合します。
これらすべての情報を XNUMX か所に統合することで、組織は顧客をより総合的に分析できるようになります。 これは、利用可能なすべての情報を確実に考慮するのに役立ちます。 データ ウェアハウジングによりデータ マイニングが可能になります。 データマイニングでは、売上や利益の増加につながる可能性のあるデータのパターンを探します。
データ ウェアハウスの種類
データ ウェアハウス (DWH) の主なタイプは次の XNUMX つです。
1. エンタープライズ データ ウェアハウス (EDW):
エンタープライズ データ ウェアハウス (EDW) は、集中型のウェアハウスです。 企業全体に意思決定支援サービスを提供します。 データを整理して表現するための統一されたアプローチを提供します。 また、主題に従ってデータを分類し、それらの部門に従ってアクセスを許可する機能も提供します。
2. Operaローカルデータストア:
OperaODS とも呼ばれるデータ ストアは、データ ウェアハウスも OLTP システムも組織のレポート ニーズをサポートしていない場合に必要なデータ ストアにすぎません。 ODS では、データ ウェアハウスはリアルタイムで更新されます。したがって、従業員の記録の保存などの日常的な活動に広く好まれています。
3. データマート:
A データマート データ ウェアハウスのサブセットです。 これは、販売、財務、営業、財務などの特定の業種向けに特別に設計されています。 独立したデータ マートでは、データをソースから直接収集できます。
データ ウェアハウスの一般的な段階
以前、組織は比較的単純なデータ ウェアハウジングの使用を開始していました。 しかし、時間が経つにつれて、データ ウェアハウジングのより高度な使用が始まりました。
データ ウェアハウス (DWH) の一般的な使用段階は次のとおりです。
オフライン Operaデータベース:
この段階では、データは運用システムから別のサーバーにコピーされるだけです。この方法では、コピーされたデータの読み込み、処理、レポートは運用システムのパフォーマンスに影響を与えません。
オフライン データ ウェアハウス:
データウェアハウス内のデータは、 Operaデータベース。 Datawarehouse 内のデータは、Datawarehouse の目的を満たすようにマッピングおよび変換されます。
リアルタイム データ ウェアハウス:
この段階では、運用データベースでトランザクションが発生するたびにデータ ウェアハウスが更新されます。たとえば、航空会社や鉄道の予約システムなどです。
統合データウェアハウス:
この段階では、運用システムがトランザクションを実行すると、データ ウェアハウスが継続的に更新されます。その後、データ ウェアハウスはトランザクションを生成し、運用システムに返します。
データ ウェアハウスのコンポーネント
データ ウェアハウスの XNUMX つのコンポーネントは次のとおりです。
負荷マネージャー: ロード マネージャーはフロント コンポーネントとも呼ばれます。データの抽出とウェアハウスへのロードに関連するすべての操作を実行します。これらの操作には、データ ウェアハウスに入力するデータを準備するための変換が含まれます。
倉庫マネージャー: ウェアハウス マネージャーは、ウェアハウス内のデータの管理に関連する操作を実行します。一貫性を確保するためのデータの分析、インデックスとビューの作成、非正規化と集計の生成、ソース データの変換とマージ、データのアーカイブとベイクアップなどの操作を実行します。
クエリマネージャー: クエリ マネージャーは、バックエンド コンポーネントとも呼ばれます。ユーザー クエリの管理に関連するすべての操作を実行します。このデータ ウェアハウス コンポーネントの操作は、クエリの実行をスケジュールするための適切なテーブルへの直接クエリです。
エンドユーザーアクセスツール:
これは、1. データ レポート 2. クエリ ツール 3. アプリケーション開発ツール 4. EIS ツール 5. OLAP ツール データマイニングツール.
データ ウェアハウスを必要とするのは誰ですか?
DWH (データ ウェアハウス) は、次のようなあらゆるタイプのユーザーに必要です。
- 大量のデータに依存する意思決定者
- カスタマイズされた複雑なプロセスを使用して複数のデータ ソースから情報を取得するユーザー。
- データにアクセスするためのシンプルなテクノロジーを必要とする人々にも使用されます。
- また、意思決定のための体系的なアプローチを必要とする人々にとっても不可欠です。
- ユーザーがレポート、グリッド、グラフに必要な大量のデータに対する高速パフォーマンスを望む場合、データ ウェアハウスが役立つことがわかります。
- データ フローとグループ化の「隠れたパターン」を発見したい場合は、データ ウェアハウスが最初のステップです。
データ ウェアハウスは何に使用されますか?
データ ウェアハウスが使用される最も一般的な分野は次のとおりです。
航空会社:
航空会社のシステムでは、乗務員の割り当て、路線の収益性の分析、マイレージプログラムのプロモーションなどの運用目的で使用されます。
銀行:
銀行業界では、デスクで利用できるリソースを効果的に管理するために広く使用されています。市場調査、製品や業務のパフォーマンス分析にも使用している銀行もいくつかあります。
健康管理:
ヘルスケア部門もデータ ウェアハウスを使用して、戦略を立てて結果を予測し、患者の治療レポートを作成し、提携保険会社や医療援助サービスなどとデータを共有しました。
公的機関:
公共部門では、データ ウェアハウスは情報収集に使用されます。 これは、政府機関がすべての個人の納税記録や医療政策記録を維持および分析するのに役立ちます。
投資および保険部門:
この分野では、倉庫は主にデータパターンや顧客動向を分析し、市場の動向を追跡するために使用されます。
チェーンを保持:
小売チェーンでは、データ ウェアハウスは流通とマーケティングに広く使用されています。また、商品、顧客の購入パターン、プロモーションを追跡するのにも役立ち、価格設定ポリシーの決定にも使用されます。
電気通信:
この分野では、データ ウェアハウスは製品のプロモーション、販売の決定、流通の決定に使用されます。
ホスピタリティ産業:
この業界では、倉庫サービスを活用して、顧客のフィードバックや旅行パターンに基づいて顧客をターゲットとする広告やプロモーション キャンペーンを設計および見積もります。
データ ウェアハウスの実装手順
データウェアハウスの実装に関連するビジネス リスクに対処する最善の方法は、次の XNUMX つの戦略を採用することです。
- 企業戦略: ここでは、現在のアーキテクチャとツールを含む技術的な部分を特定します。また、事実、ディメンション、属性も特定します。データのマッピングと変換も渡されます。
- 段階的な配信: データウェアハウスの実装は、主題領域に基づいて段階的に行う必要があります。予約や請求などの関連するビジネス エンティティを最初に実装し、その後相互に統合する必要があります。
- 反復的なプロトタイピング: データウェアハウスは実装に対するビッグバン アプローチではなく、反復的に開発およびテストする必要があります。
ここでは、Datawarehouse 実装の主要な手順とその成果物を示します。
手順 | タスク | 成果 |
---|---|---|
1 | プロジェクトのスコープを定義する必要がある | スコープ定義 |
2 | ビジネスニーズを判断する必要がある | 論理データ モデル |
3 | 定義する Operaデータストアの要件 | Operaデータストアモデル |
4 | 抽出ツールを取得または開発する | 抽出ツールとソフトウェア |
5 | データ ウェアハウスのデータ要件を定義する | 移行データモデル |
6 | ドキュメントの欠落データ | ToDoプロジェクトリスト |
7 | ゲレンデマップ Operaデータストアからデータウェアハウスへ | D/Wデータ統合マップ |
8 | データ ウェアハウス データベース設計の開発 | D/Wデータベース設計 |
9 | データを抽出する Operaナショナルデータストア | 統合された D/W データ抽出 |
10 | データウェアハウスのロード | 初期データロード |
11 | データウェアハウスの保守 | 進行中のデータアクセスとその後のロード |
データ ウェアハウスを実装するためのベスト プラクティス
- データの一貫性、正確性、完全性をテストする計画を決定します。
- データ ウェアハウスは適切に統合され、明確に定義され、タイムスタンプが押されている必要があります。
- Datawarehouse を設計するときは、適切なツールを使用し、ライフサイクルを守り、データの競合に注意し、自分の間違いを認識できるように準備してください。
- 運用システムやレポートを決して置き換えない
- データの抽出、クリーニング、ロードにあまり時間をかけないでください。
- データウェアハウスの実装プロセスには、ビジネス担当者を含むすべての関係者を必ず参加させてください。 データ ウェアハウジングが共同/チーム プロジェクトであることを確立します。 エンド ユーザーにとって役に立たないデータ ウェアハウスは作成したくありません。
- エンドユーザー向けのトレーニング計画を準備します。
データ ウェアハウスが必要な理由メリットとデメリット
データ ウェアハウス (DWH) の利点:
- データ ウェアハウスを使用すると、ビジネス ユーザーは、いくつかのソースからの重要なデータに XNUMX か所から迅速にアクセスできます。
- データ ウェアハウスは、部門を超えたさまざまな活動に関する一貫した情報を提供します。 アドホックなレポートとクエリもサポートしています。
- データ ウェアハウスは、多くのデータ ソースを統合して実稼働システムへのストレスを軽減するのに役立ちます。
- データ ウェアハウスは、分析とレポートの総所要時間を短縮するのに役立ちます。
- 再構築と統合により、ユーザーはレポートと分析に使いやすくなります。
- データ ウェアハウスを使用すると、ユーザーは XNUMX か所にある多数のソースから重要なデータにアクセスできます。 したがって、ユーザーが複数のソースからデータを取得する時間を節約できます。
- データ ウェアハウスには大量の履歴データが保存されます。 これは、ユーザーがさまざまな期間や傾向を分析して将来の予測を立てるのに役立ちます。
データ ウェアハウスの欠点:
- 非構造化データには理想的なオプションではありません。
- データ ウェアハウスの作成と実装は、確かに時間のかかる作業です。
- データ ウェアハウスは比較的早く古くなってしまう可能性があります
- データ型と範囲、データ ソース スキーマ、インデックス、クエリを変更するのが難しい。
- データ ウェアハウスは簡単に思えるかもしれませんが、実際には平均的なユーザーにとっては複雑すぎます。
- プロジェクト管理に最善の努力を払っても、データ ウェアハウジング プロジェクトの範囲は常に拡大します。
- 場合によっては、倉庫ユーザーは異なるビジネス ルールを作成することがあります。
- 組織はトレーニングと実装の目的に多くのリソースを費やす必要があります。
データ ウェアハウジングの未来
- の変化 規制上の制約 異種データのソースを結合する機能が制限される可能性があります。 これらの異種ソースには、保存が困難な非構造化データが含まれる場合があります。
- として サイズ データベースの数が増加するにつれて、大規模データベースを構成するものの推定値も増加し続けます。サイズが常に増加するデータ ウェアハウス システムを構築して実行することは複雑です。現在利用可能なハードウェアおよびソフトウェア リソースでは、大量のデータをオンラインで保持することはできません。
- マルチメディアデータ テキスト データとして簡単に操作することはできませんが、テキスト情報は現在利用可能なリレーショナル ソフトウェアで取得できます。 これは研究対象になるかもしれません。
データ ウェアハウス ツール
市場には多くのデータ ウェアハウジング ツールが入手可能です。 最も顕著なものをいくつか挙げます。
1.マークロジック:
MarkLogic は、さまざまなエンタープライズ機能を使用してデータ統合を簡単かつ迅速にする便利なデータ ウェアハウス ソリューションです。このツールは、非常に複雑な検索操作を実行するのに役立ちます。ドキュメント、関係、メタデータなど、さまざまな種類のデータをクエリできます。
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle は業界をリードするデータベースです。オンプレミスとクラウドの両方で、幅広いデータ ウェアハウス ソリューションの選択肢を提供します。運用効率を高めることで、顧客体験の最適化に役立ちます。
https://www.oracle.com/index.html
3. Amazon レッドShift:
Amazon Redshiftはデータウェアハウスツールです。標準を使用してあらゆる種類のデータを分析するためのシンプルでコスト効率の高いツールです。 SQL 既存の BI ツールと連携して動作します。また、クエリ最適化の手法を使用して、ペタバイト単位の構造化データに対して複雑なクエリを実行することもできます。
https://aws.amazon.com/redshift/?nc2=h_m1
ここに便利な機能の完全なリストがあります データウェアハウス ツール。
重要な学習
- データ ウェアハウス (DWH) は、エンタープライズ データ ウェアハウス (EDW) とも呼ばれます。
- データ ウェアハウスは、XNUMX つ以上のデータ ソースから情報が取得される中央リポジトリとして定義されます。
- データ ウェアハウスには主に 3 つのタイプがあります。エンタープライズ データ ウェアハウス (EDW)、 Operaデータ ストアとデータ マート。
- データウェアハウスの一般的な状態はオフラインです Operaデータベース、オフライン データ ウェアハウス、リアルタイム データ ウェアハウス、統合データ ウェアハウス。
- Datawarehouse の XNUMX つの主要コンポーネントは、ロード マネージャー、ウェアハウス マネージャー、クエリ マネージャー、エンドユーザー アクセス ツールです。
- データウェアハウスは、航空会社、銀行、ヘルスケア、保険、小売などのさまざまな業界で使用されています。
- データウェアハウスの実装は、エンタープライズ戦略、段階的な配信、反復的なプロトタイピングという 3 つの戦略から成ります。
- データ ウェアハウスを使用すると、ビジネス ユーザーは、いくつかのソースからの重要なデータに XNUMX か所から迅速にアクセスできます。