データウェアハウス Archi構造、コンポーネント、図 Concepts

データウェアハウス Concepts

データウェアハウスの基本コンセプトは、企業の意思決定と予測のために単一バージョンの真実を容易にすることです。データウェアハウスは、単一または複数のソースからの履歴データと交換データを含む情報システムです。データウェアハウス Concepts 組織のレポートと分析のプロセスを簡素化します。

データウェアハウスの特徴

データウェアハウス Concepts 以下の特徴があります:

主題指向
Integrated
時間変動
不揮発性

主題指向

データウェアハウスは、企業の進行中の業務ではなくテーマに関する情報を提供するため、主題指向です。これらの主題には、販売、マーケティング、流通などがあります。

データウェアハウスは、継続的な運用に焦点を合わせることはありません。代わりに、データのモデリングと分析に重点を置いています。 意思決定。また、意思決定プロセスのサポートに役立たないデータを除外することで、特定の主題に関するシンプルかつ簡潔なビューを提供します。

Integrated

データウェアハウスでは、統合とは、異なるデータベースからのすべての類似データに対して共通の測定単位を確立することを意味します。データは、共通かつ広く受け入れられる方法でデータウェアハウスに保存する必要もあります。

データウェアハウスは、メインフレーム、リレーショナルデータベース、フラットファイルなどのさまざまなソースからのデータを統合することによって開発されます。さらに、一貫した命名規則、形式、コーディングを維持する必要があります。

この統合は、データの効果的な分析に役立ちます。命名規則、属性の測定、エンコード構造などの一貫性を確保する必要があります。次の例を検討してください。

上の例では、A、B、C というラベルの付いた XNUMX つの異なるアプリケーションがあります。これらのアプリケーションに保存されている情報は、性別、日付、および残高です。ただし、各アプリケーションのデータは異なる方法で保存されます。

アプリケーションでは、性別フィールドに M や F などの論理値が格納されます。
アプリケーションBの性別フィールドは数値ですが、
アプリケーション C アプリケーションでは、性別フィールドは文字値の形式で保存されます。
日付と残高も同様です

ただし、変換とクリーニングのプロセスの後、このデータはすべて共通形式でデータウェアハウス.

時変型

データウェアハウスのタイムホライズンは、運用システムと比較してかなり広範囲です。データウェアハウスに収集されたデータは、特定の期間で認識され、履歴の観点から情報を提供します。明示的または暗黙的に、時間の要素が含まれます。

データウェアハウスのデータ表示時間の差異が発生する場所の XNUMX つは、レコードキーの構造です。 DW に含まれるすべての主キーには、暗黙的または明示的に時間の要素が含まれている必要があります。日、週、月など。

時間差異のもう XNUMX つの側面は、データがウェアハウスに挿入されると、更新または変更できないことです。

不揮発性

データウェアハウスは不揮発性でもあり、新しいデータが入力されても以前のデータは消去されません。

データは読み取り専用で、定期的に更新されます。これは、履歴データを分析し、いつ何が起こったのかを理解するのにも役立ちます。トランザクションプロセス、リカバリ、同時実行制御メカニズムは必要ありません。

運用アプリケーション環境で実行される削除、更新、挿入などのアクティビティは、データウェアハウス環境では省略されます。データウェアハウスで実行されるデータ操作は、2つのタイプのみです。

データの読み込み
データアクセス

ここでは、アプリケーションとデータウェアハウスの主な違いをいくつか示します。

Operaアプリケーション	データウェアハウス
データアップグレードプロセスが最終製品の高い整合性を維持するようにするには、複雑なプログラムをコーディングする必要があります。	データ更新を行わないため、このような問題は発生しません。
データは正規化された形式で配置され、冗長性が最小限に抑えられます。	データは正規化された形式で保存されません。
デッドロックは非常に複雑なため、トランザクション、データ回復、ロールバック、解決の問題をサポートするためのテクノロジが必要です。	比較的シンプルなテクノロジーを提供します。

データウェアハウス Archi構造

データウェアハウス Archi構造 データウェアハウスは、複数のソースからの履歴データと交換可能なデータを含む情報システムであるため複雑です。データウェアハウスレイヤーを構築するには、単層、3 層、3 層の XNUMX つのアプローチがあります。データウェアハウスのこの XNUMX 層アーキテクチャは、次のように説明されます。

単層アーキテクチャ

単一レイヤーの目的は、保存されるデータの量を最小限に抑えることです。この目標は、データの冗長性を排除することです。このアーキテクチャは実際にはあまり使用されません。

2層アーキテクチャ

2 層アーキテクチャは、物理的に利用可能なソースとデータウェアハウスを分離するデータウェアハウスレイヤーの 1 つです。このアーキテクチャは拡張可能ではなく、多数のエンドユーザーをサポートしていません。また、ネットワークの制限により接続の問題も発生します。

3層データウェアハウス Archi構造

これが最も広く使われている Archiデータウェアハウスの構造。

これは、上層、中層、下層で構成されます。

最下層: 最下層としてのデータウェアハウスサーバーのデータベース。通常はリレーショナルデータベースシステムです。データは、バックエンドツールを使用してクレンジング、変換され、このレイヤーにロードされます。
中間層： データウェアハウスの中間層は、ROLAPまたはMOLAPモデルを使用して実装されたOLAPサーバーです。ユーザーにとって、このアプリケーション層は、tracデータベースのテッドビュー。このレイヤーは、エンドユーザーとデータベース間の仲介役も果たします。
トップティア： 最上位層はフロントエンドクライアント層です。最上位層は、接続してデータウェアハウスからデータを取得するためのツールと API です。それは、クエリツール、レポートツール、マネージドクエリツール、分析ツール、データマイニングツールなどです。

データウェアハウスのコンポーネント

データウェアハウスコンポーネントについて学び、 Archiデータウェアハウスの構造を以下に示す図で示します。

データウェアハウスは、環境全体が機能し、管理しやすく、アクセスしやすいようにするためのいくつかの主要なデータウェアハウスコンポーネントに囲まれた中央情報リポジトリである RDBMS サーバーに基づいています。

データウェアハウスコンポーネントは主に XNUMX つあります。

データウェアハウスデータベース

中央データベースはデータウェアハウス環境の基盤です。このデータベースは、 RDBMS テクノロジー。ただし、この種の実装は、従来の RDBMS システムがデータウェアハウジングではなくトランザクションデータベース処理に最適化されているという事実によって制約を受けます。たとえば、アドホッククエリ、複数テーブルの結合、集計はリソースを大量に消費し、パフォーマンスを低下させます。

したがって、以下にリストされているように、データベースに対する代替アプローチが使用されます。

データウェアハウスでは、スケーラビリティを実現するためにリレーショナルデータベースが並列に展開されます。並列リレーショナルデータベースでは、さまざまなマルチプロセッサ構成または超並列プロセッサ上で共有メモリまたは共有なしモデルも使用できます。
新しいインデックス構造は、リレーショナルテーブルスキャンをバイパスし、速度を向上させるために使用されます。
多次元データベース (MDDB) を使用して、リレーショナルデータウェアハウスモデルによる制限を克服します。例: Essbase から Oracle.

調達、取得、クリーンアップおよび変換ツール (ETL)

データソース、変換、移行ツールは、データウェアハウスでデータを統一フォーマットに変換するために必要なすべての変換、集計、および変更を実行するために使用されます。tract、変換およびロード（ETL）ツール。

それらの機能は次のとおりです。

規制規定に従ってデータを匿名化します。
運用データベースの不要なデータがデータウェアハウスに読み込まれないようにする。
さまざまなソースから到着するデータの一般的な名前と定義を検索して置き換えます。
集計と派生データの計算
データが欠落している場合は、デフォルトで入力します。
複数のデータソースから到着する重複を排除した繰り返しデータ。

これらの元tract、Transform、Load ツールは、cron ジョブ、バックグラウンドジョブを生成する可能性があります。 COBOLプログラム、データウェアハウス内のデータを定期的に更新するシェルスクリプトなど。これらのツールは、メタデータの保守にも役立ちます。

ボーマン ETLツールデータベースとデータの異質性という課題に対処する必要があります。

メタデータという名前は、高度な技術的なデータウェアハウジングを示唆しています。 Concepts。ただし、それは非常に簡単です。メタデータは、データウェアハウスを定義するデータに関するデータです。データウェアハウスの構築、保守、管理に使用されます。

データウェアハウス内 Archiメタデータは、データウェアハウスデータのソース、使用法、値、機能を指定するため、重要な役割を果たします。また、データを変更および処理する方法も定義します。データウェアハウスと密接に関係しています。

たとえば、販売データベースの行には次のものが含まれる場合があります。

4030 KJ732 299.90

これは、メタを調べて、それがそうであったことを知らせるまでは、意味のないデータです。

モデル番号：4030
販売代理店ID：KJ732
総売上高 $299.90

したがって、メタデータはデータを知識に変換する上で不可欠な要素です。

メタデータは次の質問に答えるのに役立ちます

データウェアハウスにはどのようなテーブル、属性、キーが含まれていますか?
データはどこから来たのでしょうか?
データは何回リロードされますか?
クレンジングによってどのような変化が適用されましたか?

メタデータは次のカテゴリに分類できます。

テクニカルメタデータ: この種類のメタデータには、データウェアハウスの設計者と管理者が使用するウェアハウスに関する情報が含まれています。
ビジネスメタデータ: この種のメタデータには、データウェアハウスに保存されている情報をエンドユーザーが簡単に理解できるようにする詳細が含まれています。

クエリツール

データウェアハウジングの主な目的の XNUMX つは、企業が戦略的な意思決定を行うための情報を提供することです。クエリツールを使用すると、ユーザーはデータウェアハウスシステムと対話できるようになります。

これらのツールは、次の XNUMX つの異なるカテゴリに分類されます。

クエリおよびレポートツール
アプリケーション開発ツール
データマイニングツール
OLAPツール

1. クエリおよびレポートツール

クエリおよびレポートツールはさらに次のように分類できます。

報告ツール
マネージドクエリツール

レポートツール：

報告ツールさらに、プロダクションレポートツールとデスクトップレポートライターに分けることができます。

レポート作成者: この種のレポートツールは、エンドユーザーの分析用に設計されたツールです。
生産レポート: この種のツールを使用すると、組織は定期的な運用レポートを作成できます。また、印刷や計算などの大量のバッチジョブもサポートします。人気のあるレポートツールには、Brio、Business Objectsなどがあります。 Oracle、PowerSoft、SAS Institute。

マネージドクエリツール:

この種のアクセスツールは、ユーザーとデータベースの間にメタレイヤーを挿入することで、エンドユーザーがデータベース、SQL、データベース構造の問題を解決するのに役立ちます。

2. アプリケーション開発ツール

場合によっては、組み込みのグラフィカルツールや分析ツールが組織の分析ニーズを満たさないことがあります。このような場合、カスタムレポートはアプリケーション開発ツールを使用して開発されます。

3. データマイニングツール

データマイニングは、大量のデータをマイニングすることによって、意味のある新しい相関関係、パターン、傾向を発見するプロセスです。データマイニングツールこのプロセスを自動化するために使用されます。

4.OLAPツール

これらのツールは、多次元データベースの概念に基づいています。これにより、ユーザーは精巧で複雑な多次元ビューを使用してデータを分析できます。

データウェアハウスバス Archi構造

データウェアハウスバスは、ウェアハウス内のデータの流れを決定します。データウェアハウス内のデータフローは、インフロー、アップフロー、ダウンフロー、アウトフロー、メタフローに分類できます。

データバスを設計する際には、データマート全体にわたる共有ディメンションやファクトを考慮する必要があります。

データマート

A データマートユーザーにデータを取得するために使用されるアクセス層です。構築にかかる時間と費用が少ないため、大規模なデータウェアハウスのオプションとして提示されます。ただし、データマートの標準的な定義はなく、人によって異なります。

簡単に言うと、データマートはデータウェアハウスの子会社です。データマートは、特定のユーザーグループ用に作成されたデータのパーティションに使用されます。

データマートは、データウェアハウスと同じデータベースに作成することも、物理的に別のデータベースに作成することもできます。

データウェアハウス Archiベストプラクティスを構築する

データウェアハウスを設計するには Archiこの構造では、以下のベストプラクティスに従う必要があります。

情報検索用に最適化されたデータウェアハウスモデルを使用します。これには、ディメンションモード、非正規化、またはハイブリッドアプローチを使用できます。
データウェアハウスでのトップダウンアプローチとボトムアップアプローチとして適切な設計アプローチを選択します。
データが迅速かつ正確に処理されることを保証する必要があります。同時に、データを単一の真実のバージョンに統合するアプローチを取る必要があります。
データウェアハウスのデータ取得とクレンジングのプロセスを慎重に設計します。
データウェアハウスのコンポーネント間でメタデータを共有できるメタデータアーキテクチャを設計する
情報検索の必要性がデータ量の底辺に近い場合は、ODSモデルの実装を検討してください。trac機能ピラミッド、またはアクセスする必要のある複数の運用ソースがある場合。
データモデルが単なる統合ではなく統合されていることを確認する必要があります。その場合は、3NF データモデルを検討する必要があります。 ETL やデータクレンジングツールの取得にも最適です

製品概要

データウェアハウスは、単一または複数のソースからの履歴データと交換データを含む情報システムです。これらのソースには、従来のデータウェアハウス、クラウドデータウェアハウス、または仮想データウェアハウスを使用できます。
データウェアハウスは、組織の進行中の業務ではなく主題に関する情報を提供するため、主題指向です。
データウェアハウスでは、統合とは、異なるデータベースからのすべての同様のデータに対して共通の測定単位を確立することを意味します。
データウェアハウスは不揮発性でもあり、新しいデータが入力されても以前のデータは消去されません。
DW 内のデータは保存期間が長いため、データウェアハウスは時間変化します。
データウェアハウスには主に 5 つのコンポーネントがあります Archi構造: 1) データベース 2) ETL ツール 3) メタデータ 4) クエリツール 5) データマート
これらは、クエリツールの 1 つの主なカテゴリです。 2. クエリとレポート、ツール 3. アプリケーション開発ツール、 4. データマイニングツール XNUMX. OLAP ツール
すべての変換と要約を実行するために、データソーシング、変換、および移行ツールが使用されます。
データウェアハウス内 Archiメタデータは、データウェアハウスデータのソース、使用法、値、機能を指定するため、重要な役割を果たします。

データウェアハウス Archi構造、コンポーネント、図 Concepts

データウェアハウス Concepts

データウェアハウスの特徴

主題指向

Integrated

時変型

不揮発性

データウェアハウス Archi構造

データウェアハウスのコンポーネント

データウェアハウスデータベース

調達、取得、クリーンアップおよび変換ツール (ETL)

クエリツール

1. クエリおよびレポートツール

レポートツール：

マネージドクエリツール:

2. アプリケーション開発ツール

3. データマイニングツール

4.OLAPツール

データウェアハウスバス Archi構造

データマート

データウェアハウス Archiベストプラクティスを構築する

製品概要

この投稿を要約すると次のようになります:

ニュースレターに登録する

データウェアハウス Concepts

データウェアハウスの特徴

主題指向

Integrated

時変型

不揮発性

関連記事

データウェアハウス Archi構造

データウェアハウスのコンポーネント

データ ウェアハウス データベース

調達、取得、クリーンアップおよび変換ツール (ETL)

クエリツール

1. クエリおよびレポートツール

レポートツール：

マネージド クエリ ツール:

2. アプリケーション開発ツール

3. データマイニングツール

4.OLAPツール

データウェアハウス バス Archi構造

データマート

データウェアハウス Archiベストプラクティスを構築する

製品概要

この投稿を要約すると次のようになります:

ニュースレターに登録する

データウェアハウスデータベース

マネージドクエリツール:

データウェアハウスバス Archi構造