Mais de 60 perguntas e respostas da entrevista com engenheiros de dados em 2024

Aqui estão as perguntas e respostas da entrevista de engenharia de dados para candidatos mais novos e experientes em engenharia de dados para conseguir o emprego dos sonhos.

 

Perguntas da entrevista do engenheiro de dados para calouros

1) Explique a Engenharia de Dados.

Engenharia de dados é um termo usado em big data. Ele se concentra na aplicação de coleta de dados e pesquisa. Os dados gerados de várias fontes são apenas dados brutos. A engenharia de dados ajuda a converter esses dados brutos em informações úteis.


2) O que é modelagem de dados?

Modelagem de dados é o método de documentar complex design de software como um diagrama para que qualquer pessoa possa entender facilmente. É uma representação conceitual de objetos de dados associados a vários objetos de dados e às regras.

Modelagem de Dados


3) Liste vários tipos de esquemas de design em modelagem de dados

Existem principalmente dois tipos de esquemas na modelagem de dados: 1) esquema em estrela e 2) esquema em floco de neve.


4) Distinguir entre dados estruturados e não estruturados

Following é uma diferença entre dados estruturados e não estruturados:

Parâmetro Dados estruturados Dados Não Estruturados
Armazenamento DBMS Estruturas de arquivos não gerenciados
Padrão ADO.net, ODBC e SQL STMP, XML, CSV e SMS
Ferramenta de Integração ELT (Extrair, Transformar, Carregar) Entrada manual de dados ou processamento em lote que inclui códigos
dimensionamento O dimensionamento do esquema é difícil Dimensionar é muito fácil.

5) Explique todos os componentes de uma aplicação Hadoop

Following são o componentes do aplicativo Hadoop:

Hadoop EcoSsistema e componentes

  • Hadoop comum: É um conjunto comum de utilitários e bibliotecas utilizados pelo Hadoop.
  • HDFS: Este aplicativo Hadoop está relacionado ao sistema de arquivos no qual os dados do Hadoop são armazenados. É um sistema de arquivos distribuído com alta largura de banda.
  • Hadoop MapReduce: É baseado em um algoritmo para fornecer processamento de dados em larga escala.
  • FIO Hadoop: É usado para gerenciamento de recursos no cluster Hadoop. Também pode ser usado para agendamento de tarefas para usuários.

6) O que é NameNode?

É a peça central do HDFS. Ele armazena dados do HDFS e rastreia vários arquivos nos clusters. Aqui, os dados reais não são armazenados. Os dados são armazenados em DataNodes.


7) Defina o streaming do Hadoop

É um utilitário que permite a criação do mapa e reduz os jobs e os envia para um cluster específico.


8) Qual é a forma completa do HDFS?

HDFS significa Sistema de Arquivos Distribuídos Hadoop.


9) Definir bloco e scanner de bloco no HDFS

Os blocos são a menor unidade de um arquivo de dados. O Hadoop divide automaticamente arquivos enormes em pequenos pedaços.

Block Scanner verifica a lista de blocos apresentados em um DataNode.


10) Quais são as etapas que ocorrem quando o Block Scanner detecta um bloco de dados corrompido?

Following são as etapas que ocorrem quando o Block Scanner encontra um bloco de dados corrompido:

1) Em primeiro lugar, quando o Block Scanner encontra um bloco de dados corrompido, o DataNode reporta ao NameNode

2) NameNode inicia o processo de criação de uma nova réplica usando uma réplica do bloco corrompido.

3) A contagem de replicações das réplicas corretas tenta corresponder ao fator de replicação. Se a correspondência for encontrada, o bloco de dados corrompido não será excluído.


11) Cite duas mensagens que NameNode recebe do DataNode?

Existem duas mensagens que NameNode obtém do DataNode. Eles são 1) Relatório de bloco e 2) Pulsação.


12) Liste vários arquivos de configuração XML no Hadoop?

Existem cinco arquivos de configuração XML no Hadoop:

  • Site mapeado
  • Site principal
  • Site HDFS
  • Site de fios

13) Quais são os quatro V's do big data?

Os quatro V's do big data são:

  • Velocidade
  • Variedade
  • Volume
  • Veracidade

14) Explique os recursos do Hadoop

Recursos importantes do Hadoop são:

  • É uma estrutura de código aberto que está disponível como freeware.
  • O Hadoop é compatível com vários tipos de hardware e fácil acesso a novos hardwares em um nó específico.
  • O Hadoop oferece suporte ao processamento de dados distribuído mais rapidamente.
  • Ele armazena os dados no cluster, que é independente do restante das operações.
  • O Hadoop permite criar 3 réplicas para cada bloco com nós diferentes.

15) Explique os principais métodos do Redutor

  • setup(): É usado para configurar parâmetros como tamanho dos dados de entrada e cache distribuído.
  • cleanup(): Este método é usado para limpar arquivos temporários.
  • reduzir(): É o coração do redutor que é chamado uma vez por chave com a tarefa reduzida associada

16) Qual é a abreviatura de COSHH?

A abreviatura de COSHH é Cronograma baseado em Classificação e Otimização para Heterogeneonós, sistemas Hadoop.


17) Explique o esquema estelar

Esquema Star ou Star Join Schema é o tipo mais simples de esquema de Data Warehouse. É conhecido como esquema em estrela porque sua estrutura é semelhante a uma estrela. No esquema Star, o centro da estrela pode ter uma tabela de fatos e várias tabelas de dimensões associadas. Este esquema é usado para consultar grandes conjuntos de dados.


18) Como implantar uma solução de big data?

Siga o seguintewing etapas para implantar uma solução de big data.

1) Integre dados usando fontes de dados como RDBMS, SAP, MySQL, Salesforce
2) Armazene os dados extraídos no banco de dados NoSQL ou HDFS.
3) Implantar solução de big data usando estruturas de processamento como Pig, Sparke MapReduce.


19) Explique o FSCK

Verificação do sistema de arquivos ou FSCK é um comando usado pelo HDFS. O comando FSCK é usado para verificar inconsistências e problemas no arquivo.


20) Explique o esquema do floco de neve

A Esquema de Floco de Neve é uma extensão de um esquema em estrela e adiciona dimensões adicionais. É chamado de floco de neve porque seu diagrama se parece com um floco de neve. As tabelas de dimensão são normalizadas, o que divide os dados em tabelas adicionais.


21) Distinguir entre esquema estrela e floco de neve

Estrela esquema floco de neve
Dimensões aquiarchies são armazenados na tabela dimensional. Cada hierarquia é armazenada em tabelas separadas.
As chances de redundância de dados são altas As chances de redundância de dados são baixas.
Tem um design de banco de dados muito simples Tem um com.plex Projeto de banco de dados
Fornece uma maneira mais rápida de processamento de cubos O processamento do cubo é lento devido ao complex Junte.

22) Explique o sistema de arquivos distribuído Hadoop

O Hadoop funciona com sistemas de arquivos distribuídos escaláveis ​​como S3, HFTP FS, FS e HDFS. O Hadoop Distributed File System é feito no Google File System. Este sistema de arquivos foi projetado de forma que possa ser executado facilmente em um grande cluster do sistema de computador.


23) Explique as principais responsabilidades de um engenheiro de dados

Os engenheiros de dados têm muitas responsabilidades. Eles gerenciam o sistema de origem dos dados. Engenheiros de dados simplificam a comunicaçãoplex estrutura de dados e evitar a reduplicação de dados. Muitas vezes eles também fornecem ELT e transformação de dados.


24) Qual é a forma completa do YARN?

A forma completa do YARN é mais um negociador de recursos.


25) Liste vários modos no Hadoop

Os modos no Hadoop são 1) Modo autônomo 2) Modo pseudodistribuído 3) Modo totalmente distribuído.


26) Como conseguir segurança no Hadoop?

Execute o seguintewing etapas para obter segurança no Hadoop:

1) O primeiro passo é proteger o canal de autenticação do cliente para o servidor. Forneça carimbo de data/hora ao cliente.
2) Na segunda etapa, o cliente utiliza o carimbo de data/hora recebido para solicitar ao TGS um ticket de serviço.
3) Na última etapa, o cliente utiliza ticket de serviço para autoautenticação em um servidor específico.


27) O que é pulsação no Hadoop?

No Hadoop, NameNode e DataNode se comunicam entre si. Heartbeat é o sinal enviado regularmente pelo DataNode ao NameNode para mostrar sua presença.


28) Distinguir entre NAS e DAS no Hadoop

NAS DAS
A capacidade de armazenamento é 109 para 1012 em bytes. A capacidade de armazenamento é 109 em bytes.
O custo de gerenciamento por GB é moderado. O custo de gerenciamento por GB é alto.
Transmita dados usando Ethernet ou TCP/IP. Transmitir dados usando IDE/SCSI

29) Liste campos ou idiomas importantes usados ​​pelo engenheiro de dados

Aqui estão alguns campos ou linguagens usadas pelo engenheiro de dados:

  • Probabilidade, bem como álgebra linear
  • Aprendizado de máquinas
  • Análise de tendências e regressão
  • Bancos de dados Hive QL e SQL

30) O que é Big Data?

É uma grande quantidade de dados estruturados e não estruturados, que não podem ser facilmente processados ​​pelos métodos tradicionais de armazenamento de dados. Os engenheiros de dados estão usando o Hadoop para gerenciar big data.


Perguntas da entrevista com engenheiro de dados para experientes

31) O que é agendamento FIFO?

É um algoritmo de agendamento de tarefas do Hadoop. Neste agendamento FIFO, um repórter seleciona trabalhos de uma fila de trabalhos, o trabalho mais antigo primeiro.


32) Mencione os números das portas padrão nas quais o rastreador de tarefas, NameNode e o rastreador de tarefas são executados no Hadoop

Os números de porta padrão nos quais o rastreador de tarefas, NameNode e rastreador de tarefas são executados no Hadoop são os seguintes:

  • O rastreador de tarefas é executado na porta 50060
  • NameNode é executado na porta 50070
  • Job Tracker é executado na porta 50030

33) Como desabilitar o Block Scanner no HDFS Data Node

Para desabilitar o Block Scanner no HDFS Data Node, defina dfs.datanode.scan.period.hours como 0.


34) Como definir a distância entre dois nós no Hadoop?

A distância é igual à soma da distância até os nós mais próximos. O método getDistance() é usado para calcular a distância entre dois nós.


35) Por que usar hardware comum no Hadoop?

O hardware básico é fácil de obter e acessível. É um sistema compatível com Windows, MS-DOS ou Linux.


36) Defina o fator de replicação no HDFS

O fator de replicação é o número total de réplicas de um arquivo no sistema.


37) Quais dados são armazenados no NameNode?

Namenode armazena os metadados para o HDFS, como informações de bloco e informações de namespace.


38) O que você quer dizer com Rack Awareness?

No cluster Haddop, o Namenode usa o Datanode para melhorar o tráfego da rede durante a leitura ou gravação de qualquer arquivo que esteja mais próximo do rack próximo à solicitação de leitura ou gravação. Namenode mantém o ID do rack de cada DataNode para obter informações do rack. Este conceito é chamado de Rack Awareness no Hadoop.


39) Quais são as funções do NameNode Secundário?

Following são as funções do NameNode secundário:

  • FsImage que armazena uma cópia do arquivo EditLog e FsImage.
  • Falha do NameNode: Se o NameNode falhar, o FsImage do NameNode secundário poderá ser usado para recriar o NameNode.
  • Ponto de verificação: é usado pelo NameNode secundário para confirmar se os dados não estão corrompidos no HDFS.
  • Atualizar: Atualiza automaticamente o arquivo EditLog e FsImage. Isso ajuda a manter o arquivo FsImage no NameNode secundário atualizado.

40) O que acontece quando o NameNode está inativo e o usuário envia um novo trabalho?

NameNode é o único ponto de falha no Hadoop, portanto, o usuário não pode enviar um novo trabalho e não pode ser executado. Se o NameNode estiver inativo, o trabalho poderá falhar, pois o usuário precisa aguardar a reinicialização do NameNode antes de executar qualquer trabalho.


41) Quais são as fases básicas do redutor no Hadoop?

Existem três fases básicas de um redutor no Hadoop:

1. Shuffle: Aqui, o Redutor copia a saída do Mapper.

2. Classificar: Na classificação, o Hadoop classifica a entrada para o Redutor usando a mesma chave.

3. Reduzir: Nesta fase, os valores de saída associados a uma chave são reduzidos para consolidar os dados na saída final.


42) Por que o Hadoop usa o objeto Context?

A estrutura Hadoop usa o objeto Context com a classe Mapper para interagir com o sistema restante. O objeto de contexto obtém a configuração do sistematails e job em seu construtor.

Usamos o objeto Context para passar as informações nos métodos setup(), cleanup() e map(). Este objeto disponibiliza informações vitais durante as operações do mapa.


43) Definir Combinador no Hadoop

É uma etapa opcional entre Mapear e Reduzir. Combiner pega a saída da função Map, cria pares de valores-chave e envia para o Hadoop Reducer. A tarefa do Combiner é resumir o resultado final do Map em registros resumidos com uma chave idêntica.


44) Qual é o fator de replicação padrão disponível no HDFS. O que ele indica?

O fator de replicação padrão disponível no HDFS é três. O fator de replicação padrão indica que haverá três réplicas de cada dado.


45) O que você quer dizer com localidade de dados no Hadoop?

Num sistema Big Data, o tamanho dos dados é enorme e é por isso que não faz sentido mover dados pela rede. Agora, o Hadoop tenta aproximar a computação dos dados. Dessa forma, os dados permanecem locais no local armazenado.


46) Definir balanceador em HDFS

No HDFS, o balanceador é um recurso administrativo usado pela equipe administrativa para reequilibrar dados entre DataNodes e mover blocos de nós superutilizados para nós subutilizados.


47) Explique o modo de segurança no HDFS

É um modo somente leitura do NameNode em um cluster. Inicialmente, NameNode está em modo de segurança. Impede a gravação no sistema de arquivos no modo de segurança. Neste momento, ele coleta dados e estatísticas de todos os DataNodes.


48) Qual a importância do Cache Distribuído no Apache Hadoop?

O Hadoop possui um recurso utilitário útil chamado Cache Distribuído, que melhora o desempenho dos trabalhos armazenando em cache os arquivos utilizados pelos aplicativos. Um aplicativo pode especificar um arquivo para o cache usando a configuração JobConf.

O framework Hadoop faz a réplica desses arquivos para os nós onde uma tarefa deve ser executada. Isso é feito antes do início da execução da tarefa. O Cache Distribuído suporta a distribuição de arquivos somente leitura, bem como arquivos zip e jars.


49) O que é Metastore no Hive?

Ele armazena o esquema e também o local da tabela Hive.

A tabela Hive define, mapeamentos e metadados que são armazenados no Metastore. Isso pode ser armazenado em RDBMS compatível com JPOX.


50) O que significa SerDe no Hive?

SerDe é um nome abreviado para Serializer ou Deserializer. No Hive, o SerDe permite ler dados da tabela e gravar em um campo específico em qualquer formato desejado.


51) Liste os componentes disponíveis no modelo de dados Hive

Existem os seguinteswing componentes no modelo de dados Hive:

  • Tabelas
  • Divisórias
  • Baldes

52) Explique o uso do Hive no ecossistema Hadoop.

Hive fornece uma interface para gerenciar dados armazenados no ecossistema Hadoop. O Hive é usado para mapear e trabalhar com tabelas HBase. As consultas do Hive são convertidas em trabalhos MapReduce para ocultar o complexassociada à criação e execução de jobs MapReduce.


53) Liste vários complex tipos/coleção de dados são suportados pelo Hive

Hive suporta o seguintewing complex tipos de dados:

  • Mapa
  • Estrutura
  • Ordem
  • União

54) Explique como o arquivo .hiverc no Hive é usado?

No Hive, .hiverc é o arquivo de inicialização. Este arquivo é carregado inicialmente quando iniciamos a Interface de Linha de Comando (CLI) para Hive. Podemos definir os valores iniciais dos parâmetros no arquivo .hiverc.


55) É possível criar mais de uma tabela no Hive para um único arquivo de dados?

Sim, podemos criar mais de um esquema de tabela para um arquivo de dados. O Hive salva o esquema no Hive Metastore. Com base neste esquema, podemos recuperar resultados diferentes dos mesmos dados.


56) Explique as diferentes implementações SerDe disponíveis no Hive

Existem muitas implementações SerDe disponíveis no Hive. Você também pode escrever sua própria implementação personalizada do SerDe. Sigawing estão algumas implementações famosas do SerDe:

  • OpenCSVServe
  • RegexSerDe
  • DelimitadoJSONSerDe
  • ByteStreamTypedSerDe

57) Listar funções de geração de tabela disponíveis no Hive

Following é uma lista de funções geradoras de tabela:

  • Explodir (matriz)
  • JSON_tuple()
  • Pilha()
  • Explodir (mapa)

58) O que é uma tabela distorcida no Hive?

Uma tabela distorcida é uma tabela que contém valores de coluna com mais frequência. No Hive, quando especificamos uma tabela como SKEWED durante a criação, os valores distorcidos são gravados em arquivos separados e os valores restantes vão para outro arquivo.


59) Liste os objetos criados pela instrução create no MySQL.

Os objetos criados pela instrução create no MySQL são os seguintes:

  • banco de dados
  • Índice
  • mesa
  • Utilizador
  • Procedimento
  • Gatilho
  • Evento
  • Ver
  • função

60) Como ver a estrutura do banco de dados no MySQL?

Para ver a estrutura do banco de dados em MySQL, Você pode usar

Comando DESCREVER. A sintaxe deste comando é DESCRIBE Table name;.


Perguntas da entrevista SQL para engenheiro de dados

61) Como procurar uma String específica na coluna da tabela MySQL?

Use o operador regex para procurar uma String na coluna MySQL. Aqui também podemos definir vários tipos de expressões regulares e pesquisar usando regex.


62) Explique como a análise de dados e o big data podem aumentar a receita da empresa?

Following são as maneiras pelas quais a análise de dados e o big data podem aumentar a receita da empresa:

  • Use os dados de forma eficiente para garantir o crescimento do negócio.
  • Aumentar o valor do cliente.
  • Tornando-se analítico para melhorar as previsões dos níveis de pessoal.
  • Reduzir o custo de produção das organizações.

Essas perguntas da entrevista também ajudarão em sua viva (oral)