25 年の ETL テスト面接の質問と回答トップ 2024

ここでは、夢の仕事に就くための、新人および経験豊富な候補者向けの ETL テストの面接の質問と回答を紹介します。

 

新卒者向けの ETL テスト面接の質問


1) ETLとは何ですか?

データウェアハウスにおいて archiETL は、あらゆるビジネス プロセスのデータを管理する重要なコンポーネントです。 ETLの略です 抽出、変換 > 負荷。 Extract は、データベースからデータを読み取るプロセスを実行します。 変換は、レポートと分析に適した形式にデータを変換します。 一方、load はターゲット データベースにデータを書き込むプロセスを実行します。

👉 無料 PDF ダウンロード: ETL テストの面接の質問と回答


2) ETL テスト操作には何が含まれるのか説明してください。

ETL テストには次のものが含まれます。

  • データがビジネス要件に従って正しく変換されているかどうかを検証する
  • 投影されたデータが切り捨てやデータ損失なくデータ ウェアハウスにロードされていることを確認します。
  • ETL アプリケーションが無効なデータを報告し、デフォルト値に置き換えることを確認します。
  • スケーラビリティとパフォーマンスを向上させるために、予想される時間枠でデータがロードされるようにします。

ETLプロセス
ETL


3) データ ウェアハウス アプリケーションの種類と、データ マイニングとデータ ウェアハウジングの違いについて説明します。

データ ウェアハウス アプリケーションの種類は次のとおりです。

  • 情報処理
  • 分析処理
  • データマイニング

データマイニング これは、大規模なデータベースから隠された予測情報を抽出してデータを解釈するプロセスとして定義できますが、データ ウェアハウジングではデータ マイニングを利用してデータをより高速に分析処理することができます。 データウェアハウジング 複数のソースからのデータを XNUMX つの共通リポジトリに集約するプロセスです


4) ETL で使用されるさまざまなツールは何ですか?

  • Cognos の意思決定ストリーム
  • Oracle 倉庫ビルダー
  • ビジネスオブジェクト XI
  • SAS ビジネスウェアハウス
  • SAS Enterprise ETLサーバー

5) 事実とは何ですか? 事実にはどのような種類がありますか?

これは、分析対象のメジャーを含む多次元モデルの中心的なコンポーネントです。 事実は次元に関係しています。

事実の種類としては、

  • 相加的事実
  • 準添加剤の事実
  • 非相加的事実

6) キューブと OLAP キューブとは何ですか?

キューブは、データ ウェアハウスのファクト テーブルとディメンションで構成されるデータ処理単位です。 多次元分析を提供します。

OLAP は Online Analytics Processing の略で、OLAP キューブはレポート目的で大量のデータを多次元形式で保存します。 ディメンションごとに分類されたメジャーと呼ばれるファクトで構成されます。


7) トレースレベルとは何か、またその種類について説明してください。

トレース レベルは、ログ ファイルに保存されるデータの量です。 トレースレベルはNormalとVerboseのXNUMXつに分類できます。 通常レベルではトレース レベルが詳細に説明され、冗長では各行のトレース レベルが説明されます。


8) 事実の粒状とは何ですか?

粒状ファクトは、ファクト情報が保存されるレベルとして定義できます。 ファクト粒度としても知られています


9) ファクトレスファクトスキーマとは何か、またメジャーとは何かを説明してください。

メジャーのないファクト テーブルは、ファクトレス ファクト テーブルと呼ばれます。 発生したイベントの数を表示できます。 たとえば、会社の従業員数などのイベントを記録するために使用されます。

ファクト テーブルの列に基づく数値データはメジャーと呼ばれます。


10) 変換とは何ですか?

変換は、データを生成、変更、または渡すリポジトリ オブジェクトです。 変換にはアクティブとパッシブの XNUMX つのタイプがあります


ETL 開発者インタビューの経験者向けの質問と回答

11) ルックアップ変換の使用法について説明してください。

ルックアップ変換は次の場合に役立ちます。

  • 列の値を使用してテーブルから関連する値を取得する
  • ゆっくりと変化するディメンション テーブルを更新する
  • レコードがテーブルにすでに存在するかどうかを確認する

12) パーティショニング、ハッシュ パーティショニング、ラウンド ロビン パーティショニングとは何ですか?

パフォーマンスを向上させるために、トランザクションはさらに分割されます。これはパーティショニングと呼ばれます。 パーティショニングにより可能になる 情報 さまざまなソースへの複数の接続を作成するためのサーバー

パーティションの種類は、

ラウンドロビンパーティショニング:

  • informatica により、データはすべてのパーティションに均等に分散されます
  • 処理する行数がほぼ同じである各パーティションで、このパーティショニングが適用されます。

ハッシュパーティショニング:

  • キーをパーティション化してパーティション間でデータをグループ化する目的で、Informatica サーバーはハッシュ関数を適用します。
  • 同じパーティション内の同じパーティションキーを持つ行のプロセスグループを保証する必要がある場合に使用されます。

13) DataReader 宛先アダプターを使用する利点について言及してください。

DataReader 宛先アダプターを使用する利点は、 ADO レコードセット (レコードと列で構成されます) をメモリ内に置き、DataReader インターフェイスを実装することで DataFlow タスクからのデータを公開し、他のアプリケーションがデータを利用できるようにします。


14) SSIS (SQL Server Integration Service) を使用してテーブルを更新するにはどのような方法がありますか?

SSIS を使用してテーブルを更新するには、次の方法が考えられます。

  • 使用 SQL command
  • ステージングテーブルを使用する
  • キャッシュを使用
  • スクリプトタスクを使用する
  • MSSQL が使用されている場合は、更新に完全なデータベース名を使用します

15) ルックアップ用の非 OLEDB (オブジェクト リンクおよび埋め込みデータベース) ソースがある場合、どうしますか?

ルックアップに OLEBD 以外のソースがある場合は、キャッシュを使用してデータをロードし、それをソースとして使用する必要があります。


16) 接続された変換と接続されていない変換で動的キャッシュと静的キャッシュを使用するのはどのような場合ですか?

  • 動的キャッシュは、マスターテーブルおよび緩やかに変化するディメンション (SCD) タイプ 1 を更新する必要がある場合に使用されます。
  • フラット ファイルの場合、静的キャッシュが使用されます

17) 未接続ルックアップと接続済みルックアップの違いを説明してください。

接続されたルックアップ 接続されていないルックアップ
接続されたルックアップはマッピングに参加します マッピング中に式変換の代わりにルックアップ関数が使用される場合に使用されます。
複数の値を返すことができます XNUMX つの出力ポートのみを返します
別の変換に接続して値を返すことができます 別の変換は接続できません
接続されたルックアップには静的または動的キャッシュを使用できます 静的キャッシュのみとして未接続
接続されたルックアップはユーザー定義のデフォルト値をサポートします 接続されていないルックアップはユーザー定義のデフォルト値をサポートしません
接続されたルックアップでは、複数の列を同じ行から返すことも、動的ルックアップ キャッシュに挿入することもできます 接続されていないルックアップは XNUMX つの戻りポートを指定し、各行から XNUMX つの列を返します。

18) データソースビューとは何ですか?

データ ソース ビューを使用すると、分析サービス データベースで使用されるリレーショナル スキーマを定義できます。 ディメンションとキューブは、データ ソース オブジェクトから直接作成されるのではなく、データ ソース ビューから作成されます。


19) OLAP ツールと ETL ツールの違いを説明してください。

ETL ツールと OLAP ツールの違いは次のとおりです。

ETLツール これは、レガシー システムからデータを抽出し、データ クレンジングのプロセスを使用して指定されたデータベースにロードすることを目的としています。

例: データステージ、インフォマティカなど

OLAP は、多方向モデルで使用できる OLAP データのレポートを目的としています。

例: ビジネス オブジェクト、Cognos など


20) Informatica を使用して SAP データを抽出するにはどうすればよいですか?

  • 電源接続オプションを使用すると、informatica を使用して SAP データを抽出できます。
  • PowerConnect ツールをインストールして構成する
  • ソースを Source Analyzer にインポートします。 Informatica と SAP Powerconnect の間はゲートウェイとして機能します。 次のステップでは、マッピング用の ABAP コードを生成します。その後、informatica のみが SAP からデータをプルできます。
  • 外部システムに接続してソースをインポートするには、Power Connect を使用します

21) パワーマートとパワーセンターの違いについて述べてください。

パワーセンター パワーマート
膨大な量のデータを処理するとします 少量のデータを処理すると仮定します
SAP、People Soft などの ERP ソースをサポートします。 ERPソースはサポートしていません
ローカルおよびグローバルリポジトリをサポートします ローカルリポジトリをサポートします
ローカルリポジトリをグローバルリポジトリに変換します ローカルリポジトリをグローバルリポジトリに変換する仕様はありません

22) ステージング領域とは何ですか、またステージング領域の目的は何ですか?

データ ステージングは​​、データ ウェアハウス サーバー上にデータを一時的に保持する領域です。 データステージングには以下が含まれますwing ステップ

  • ソースデータの抽出とデータ変換(再構築)
  • データ変換(データクレンジング、価値変換)
  • 代理キーの割り当て

23) バススキーマとは何ですか?

さまざまなビジネス プロセスで共通のディメンションを識別するために、BUS スキーマが使用されます。 適合した寸法と標準化された情報定義が付属しています


24) データパージとは何ですか?

データのパージは、データ ウェアハウスからデータを削除するプロセスです。 null 値や余分なスペースを含む行などのジャンク データを削除します。


25) スキーマ オブジェクトとは何ですか?

スキーマ オブジェクトは、データベース データを直接参照する論理構造です。 スキーマ オブジェクトには、テーブル、ビュー、シーケンス シノニム、インデックス、クラスター、関数パッケージ、データベース リンクが含まれます。


26) セッション、ワークレット、マプレット、ワークフローという用語について説明しますか?

  • マップレット: 変換のセットを配置または作成します
  • ワークレット: 与えられた特定のタスクのセットを表します
  • ワークフロー: これは、サーバーにタスクの実行方法を指示する一連の命令です。
  • セッション: これは、ソースからターゲットにデータを移動する方法をサーバーに指示する一連のパラメータです。

これらの面接の質問は、あなたの活力(口頭)にも役立ちます