As 25 principais perguntas e respostas da entrevista de teste de ETL para 2024

Aqui estão as perguntas e respostas da entrevista de teste ETL para candidatos mais novos e experientes para conseguir o emprego dos sonhos.

 

Perguntas da entrevista de teste ETL para calouros


1) O que é ETL?

Em armazenamento de dados archiarquitetura, ETL é um componente importante, que gerencia os dados para qualquer processo de negócios. ETL significa Extrair, transformar e Ver. Extract faz o processo de leitura de dados de um banco de dados. Transform faz a conversão de dados em um formato que possa ser apropriado para relatórios e análises. Enquanto, load realiza o processo de gravação dos dados no banco de dados de destino.

👉 Download gratuito de PDF: Perguntas e respostas da entrevista de teste ETL


2) Explique o que são os testes ETL operações inclui?

O teste ETL inclui:

  • Verifique se os dados estão sendo transformados corretamente de acordo com os requisitos do negócio
  • Verifique se os dados projetados são carregados no data warehouse sem qualquer truncamento e perda de dados
  • Certifique-se de que o aplicativo ETL reporte dados inválidos e os substitua por valores padrão
  • Certifique-se de que os dados sejam carregados no prazo esperado para melhorar a escalabilidade e o desempenho

Processo ETL
ETL


3) Mencione quais são os tipos de aplicativos de data warehouse e qual a diferença entre mineração de dados e data warehousing?

Os tipos de aplicativos de data warehouse são

  • Processamento de informações
  • Processamento Analítico
  • Data Mining

Mineração de dados pode ser definido como o processo de extração de informações preditivas ocultas de grandes bancos de dados e interpretação dos dados, enquanto o armazenamento de dados pode fazer uso de uma mina de dados para processamento analítico dos dados de forma mais rápida. Armazenamento de dados é o processo de agregar dados de múltiplas fontes em um repositório comum


4) Quais são as diversas ferramentas utilizadas em ETL?

  • Fluxo de decisão do Cognos
  • Oracle Construtor de Armazém
  • Objetos de Negócios XI
  • Armazém comercial SAS
  • Servidor SAS Enterprise ETL

5) O que é fato? Quais são os tipos de fatos?

É um componente central de um modelo multidimensional que contém as medidas a serem analisadas. Os fatos estão relacionados às dimensões.

Os tipos de fatos são

  • Fatos Aditivos
  • Fatos semi-aditivos
  • Fatos não aditivos

6) Explique o que são Cubos e Cubos OLAP?

Cubos são unidades de processamento de dados compostas por tabelas de fatos e dimensões do data warehouse. Ele fornece análise multidimensional.

OLAP significa Online Analytics Processing, e o cubo OLAP armazena grandes dados em formato multidimensional para fins de relatórios. Consiste em fatos chamados de medidas categorizadas por dimensões.


7) Explique o que é nível de rastreamento e quais são os tipos?

O nível de rastreamento é a quantidade de dados armazenados nos arquivos de log. O nível de rastreamento pode ser classificado em dois Normal e Verbose. O nível normal explica o nível de rastreamento de maneira detalhada, enquanto o detalhado explica os níveis de rastreamento em cada linha.


8) Explique o que é Grão de Fato?

O fato granular pode ser definido como o nível em que as informações do fato são armazenadas. Também é conhecido como granularidade de fatos


9) Explique o que é esquema de fatos sem fatos e o que são medidas?

Uma tabela de fatos sem medidas é conhecida como tabela de fatos sem fatos. Ele pode visualizar o número de eventos ocorridos. Por exemplo, é usado para registrar um evento como a contagem de funcionários em uma empresa.

Os dados numéricos baseados em colunas em uma tabela de fatos são conhecidos como Medidas


10) Explique o que é transformação?

Uma transformação é um objeto de repositório que gera, modifica ou transmite dados. As transformações são de dois tipos: Ativa e Passiva


Perguntas e respostas da entrevista com desenvolvedores de ETL para experientes

11) Explique o uso da transformação de pesquisa?

A transformação de pesquisa é útil para

  • Obtendo um valor relacionado de uma tabela usando um valor de coluna
  • Atualizar tabela de dimensões que muda lentamente
  • Verifique se já existem registros na tabela

12) Explique o que é particionamento, particionamento hash e particionamento round robin?

Para melhorar o desempenho, as transações são subdivididas, isso é chamado de Particionamento. O particionamento permite informática Servidor para criação de múltiplas conexões para diversas fontes

Os tipos de partições são

Particionamento Round Robin:

  • Pela informatica os dados são distribuídos uniformemente entre todas as partições
  • Em cada partição onde o número de linhas a processar é aproximadamente o mesmo, este particionamento é aplicável

Particionamento de hash:

  • Para fins de particionamento de chaves para agrupar dados entre partições, o servidor Informatica aplica uma função hash
  • É usado para garantir que os grupos de processos de linhas com a mesma chave de particionamento na mesma partição precisam ser garantidos

13) Mencione qual é a vantagem de usar o DataReader Destination Adapter?

A vantagem de usar o DataReader Destination Adapter é que ele preenche um Conjunto de registros ADO (consiste em registros e colunas) na memória e expõe os dados da tarefa DataFlow implementando a interface DataReader, para que outra aplicação possa consumir os dados.


14) Utilizando SSIS (SQL Server Integration Service) quais são as formas possíveis de atualizar tabela?

Para atualizar a tabela usando SSIS as formas possíveis são:

  • Usar um SQL comando
  • Use uma tabela intermediária
  • Usar cache
  • Use a tarefa de script
  • Use o nome completo do banco de dados para atualização se MSSQL for usado

15) Caso você tenha uma fonte não OLEDB (Object Linking and Embedding Database) para a pesquisa, o que você faria?

Caso você tenha uma fonte não OLEBD para a pesquisa, será necessário usar o Cache para carregar os dados e usá-los como fonte


16) Em que caso você utiliza cache dinâmico e cache estático em transformações conectadas e não conectadas?

  • O cache dinâmico é usado quando você precisa atualizar a tabela mestre e as dimensões de alteração lenta (SCD) tipo 1
  • Para arquivos simples, o cache estático é usado

17) Explique quais são as diferenças entre a pesquisa Desconectada e Conectada?

Pesquisa conectada Pesquisa não conectada
A pesquisa conectada participa do mapeamento É usado quando a função de pesquisa é usada em vez de uma transformação de expressão durante o mapeamento
Vários valores podem ser retornados Retorna apenas uma porta de saída
Pode ser conectado a outras transformações e retorna um valor Outra transformação não pode ser conectada
Cache estático ou dinâmico pode ser usado para pesquisa conectada Desconectado apenas como cache estático
A pesquisa conectada suporta valores padrão definidos pelo usuário A pesquisa desconectada não suporta valores padrão definidos pelo usuário
Na pesquisa conectada, várias colunas podem ser retornadas da mesma linha ou inseridas no cache de pesquisa dinâmica A pesquisa não conectada designa uma porta de retorno e retorna uma coluna de cada linha

18) Explique o que é visualização da fonte de dados?

Uma visualização da fonte de dados permite definir o esquema relacional que será utilizado nos bancos de dados dos serviços de análise. Em vez de diretamente a partir de objetos de origem de dados, dimensões e cubos são criados a partir de visualizações de origem de dados.


19) Explique qual é a diferença entre ferramentas OLAP e ferramentas ETL?

A diferença entre a ferramenta ETL e OLAP é que

Ferramenta ETL destina-se à extração de dados de sistemas legados e carregamento em um banco de dados especificado com algum processo de limpeza de dados.

Exemplo: Estágio de dados, Informatica etc.

Enquanto o OLAP se destina a fins de relatório em dados OLAP disponíveis no modelo multidirecional.

Exemplo: Objetos de negócios, Cognos etc.


20) Como você pode extrair dados SAP usando a Informatica?

  • Com a opção power connect você extrai dados SAP usando a informatica
  • Instalar e configurar a ferramenta PowerConnect
  • Importe a origem para o Source Analyzer. Entre a Informatica e o SAP Powerconnect atuam como um gateway. A próxima etapa é gerar o código ABAP para o mapeamento e somente a informatica poderá extrair dados do SAP
  • Para conectar e importar fontes de sistemas externos, o Power Connect é usado

21) Mencione qual a diferença entre Power Mart e Power Center?

Central de energia Power Mart
Suponha que processe um grande volume de dados Suponha que processe baixo volume de dados
Suporta fontes de ERP como SAP, people soft etc. Não suporta fontes ERP
Suporta repositório local e global Suporta repositório local
Ele converte repositório local em global Não possui especificação para converter repositório local em global

22) Explique o que é área de preparação e qual é a finalidade de uma área de preparação?

A preparação de dados é uma área onde você mantém os dados temporariamente no servidor de data warehouse. A preparação de dados inclui o acompanhamentowing passos

  • Extração de dados de origem e transformação de dados (reestruturação)
  • Transformação de dados (limpeza de dados, transformação de valor)
  • Atribuições de chave substituta

23) O que é esquema de ônibus?

Para que os vários processos de negócios identifiquem as dimensões comuns, o esquema BUS é usado. Ele vem com dimensões conformadas junto com uma definição padronizada de informações


24) Explique o que é eliminação de dados?

A eliminação de dados é um processo de exclusão de dados do data warehouse. Ele exclui dados indesejados, como linhas com valores nulos ou espaços extras.


25) Explique o que são objetos de esquema?

Objetos de esquema são a estrutura lógica que se refere diretamente aos dados do banco de dados. Os objetos de esquema incluem tabelas, visualizações, sinônimos de sequência, índices, clusters, pacotes de funções e links de banco de dados


26) Explique estes termos Sessão, Worklet, Mapplet e Workflow?

  • Mapa: Ele organiza ou cria conjuntos de transformação
  • Worklet: Representa um conjunto específico de tarefas dadas
  • Fluxo de Trabalho: É um conjunto de instruções que informam ao servidor como executar tarefas
  • Sessão: É um conjunto de parâmetros que informa ao servidor como mover os dados das fontes para o destino

Essas perguntas da entrevista também ajudarão em sua viva (oral)