Más de 60 preguntas y respuestas de entrevistas para ingenieros de datos en 2025
Preguntas de la entrevista para ingenieros de datos para principiantes
1) Explicar la ingeniería de datos.
La ingeniería de datos es un término utilizado en big data. Se centra en la aplicación de la recopilación de datos y la investigación. Los datos generados a partir de diversas fuentes son solo datos sin procesar. La ingeniería de datos ayuda a convertir estos datos sin procesar en información útil.
2) ¿Qué es el modelado de datos?
Modelado de datos Es un método para documentar el diseño de software complejo en forma de diagrama, de manera que cualquier persona pueda comprenderlo fácilmente. Es una representación conceptual de objetos de datos asociados entre varios objetos de datos y las reglas.
3) Enumere varios tipos de esquemas de diseño en modelado de datos.
Existen principalmente dos tipos de esquemas en el modelado de datos: 1) esquema de estrella y 2) esquema de copo de nieve.
4) Distinguir entre datos estructurados y no estructurados
A continuación se muestra una diferencia entre datos estructurados y no estructurados:
Parámetro | Datos estructurados | Datos no estructurados |
---|---|---|
Almacenaje | DBMS | Estructuras de archivos no administrados |
Estándar | ADO.net, ODBC y SQL | STMP, XML, CSV y SMS |
Herramienta de integración | ELT (Extraer, Transformar, Cargar) | Entrada de datos manual o procesamiento por lotes que incluye códigos |
la ampliación | El escalado del esquema es difícil | Escalar es muy fácil. |
5) Explicar todos los componentes de una aplicación Hadoop.
Los siguientes son los componentes de la aplicación Hadoop:
- Común de Hadoop: Es un conjunto común de utilidades y bibliotecas que utiliza Hadoop.
- HDFS: Esta aplicación Hadoop se relaciona con el sistema de archivos en el que se almacenan los datos de Hadoop. Es un sistema de archivos distribuido que tiene un gran ancho de banda.
- Reducción de mapas de Hadoop: Se basa en un algoritmo para garantizar el procesamiento de datos a gran escala.
- HILO Hadoop: Se utiliza para la gestión de recursos dentro del clúster Hadoop. También se puede utilizar para la programación de tareas para los usuarios.
6) ¿Qué es NameNode?
Es la pieza central de HDFS. Almacena datos de HDFS y realiza un seguimiento de varios archivos en los clústeres. Aquí no se almacenan los datos reales, sino que se almacenan en nodos de datos.
7) Definir la transmisión de Hadoop
Es una utilidad que permite crear el mapa y reducir trabajos y enviarlos a un clúster específico.
8) ¿Cuál es la forma completa de HDFS?
HDFS significa Sistema de archivos distribuido Hadoop.
9) Definir bloque y escáner de bloque en HDFS
Los bloques son la unidad más pequeña de un archivo de datos. Hadoop divide automáticamente archivos enormes en partes pequeñas.
Block Scanner verifica la lista de bloques que se presentan en un DataNode.
10) ¿Cuáles son los pasos que ocurren cuando Block Scanner detecta un bloque de datos dañado?
Los siguientes son los pasos que ocurren cuando Block Scanner encuentra un bloque de datos dañado:
1) En primer lugar, cuando Block Scanner encuentra un bloque de datos corrupto, DataNode informa a NameNode.
2) NameNode inicia el proceso de creación de una nueva réplica utilizando una réplica del bloque dañado.
3) El recuento de replicaciones de las réplicas correctas intenta coincidir con el factor de replicación. Si se encuentra la coincidencia, el bloque de datos dañado no se eliminará.
11) ¿Nombra dos mensajes que NameNode recibe de DataNode?
Hay dos mensajes que NameNode recibe de DataNode. Son 1) Informe de bloqueo y 2) Latido del corazón.
12) ¿Enumerar varios archivos de configuración XML en Hadoop?
Hay cinco archivos de configuración XML en Hadoop:
- Sitio mapeado
- Sitio principal
- Sitio HDFS
- Sitio de hilo
13) ¿Cuáles son las cuatro V del big data?
Las cuatro V del big data son:
- Rapidez
- Variedad
- Volumen
- Veracidad
14) Explica las características de Hadoop.
Las características importantes de Hadoop son:
- Es un marco de código abierto que está disponible de forma gratuita.
- Hadoop es compatible con muchos tipos de hardware y es fácil acceder al nuevo hardware dentro de un nodo específico.
- Hadoop admite un procesamiento de datos distribuido más rápido.
- Almacena los datos en el cluster, que es independiente del resto de operaciones.
- Hadoop permite crear 3 réplicas para cada bloque con diferentes nodos.
15) Explicar los principales métodos de Reductor.
- setup (): se utiliza para configurar parámetros como el tamaño de los datos de entrada y el caché distribuido.
- cleanup(): este método se utiliza para limpiar archivos temporales.
- reduce(): es un corazón del reductor que se llama una vez por clave con la tarea reducida asociada
16) ¿Cuál es la abreviatura de COSHH?
La abreviatura de COSHH es Programación basada en clasificación y optimización para sistemas Hadoop heterogéneos.
17) Explica el esquema de estrellas
Esquema de estrella o Star Join Schema es el tipo más simple de esquema de almacén de datos. Se le conoce como esquema estrella porque su estructura es como una estrella. En el esquema de estrella, el centro de la estrella puede tener una tabla de hechos y varias tablas de dimensiones asociadas. Este esquema se utiliza para consultar grandes conjuntos de datos.
18) ¿Cómo implementar una solución de big data?
Siga los siguientes pasos para implementar una solución de big data.
1) Integrar datos utilizando fuentes de datos como RDBMS, SAP, MySQL, Salesforce
2) Almacene los datos extraídos en una base de datos NoSQL o HDFS.
3) Implementar una solución de big data utilizando marcos de procesamiento como Pig, Sparky MapReduce.
19) Explica FSCK
File System Check o FSCK es un comando utilizado por HDFS. El comando FSCK se utiliza para verificar inconsistencias y problemas en el archivo.
20) Explica el esquema del copo de nieve
A Esquema de copo de nieve es una extensión de un esquema en estrella y agrega dimensiones adicionales. Se le llama copo de nieve porque su diagrama parece un copo de nieve. Las tablas de dimensiones están normalizadas, lo que divide los datos en tablas adicionales.
21) Distinguir entre esquema de estrella y copo de nieve
Estrella | Esquema de copo de nieve |
Las jerarquías de dimensiones se almacenan en una tabla dimensional. | Cada jerarquía se almacena en tablas separadas. |
Las posibilidades de redundancia de datos son altas | Las posibilidades de redundancia de datos son bajas. |
Tiene un diseño de base de datos muy simple. | Tiene un diseño de base de datos complejo. |
Proporcionar una forma más rápida de procesar cubos | El procesamiento del cubo es lento debido a la unión compleja. |
22) Explicar el sistema de archivos distribuido Hadoop
Hadoop funciona con sistemas de archivos distribuidos escalables como S3, HFTP FS, FS y HDFS. El sistema de archivos distribuido Hadoop está basado en el sistema de archivos de Google. Este sistema de archivos está diseñado de manera que pueda ejecutarse fácilmente en un gran clúster del sistema informático.
23) Explica las principales responsabilidades de un ingeniero de datos.
Los ingenieros de datos tienen muchas responsabilidades. Gestionan el sistema de origen de los datos. Los ingenieros de datos simplifican la estructura compleja de los datos y evitan la duplicación de los mismos. Muchas veces también proporcionan ELT y transformación de datos.
24) ¿Cuál es la forma completa de YARN?
La versión completa de YARN es otro negociador de recursos.
25) Enumere varios modos en Hadoop
Los modos en Hadoop son 1) Modo independiente 2) Modo pseudodistribuido 3) Modo totalmente distribuido.
26) ¿Cómo lograr seguridad en Hadoop?
Realice los siguientes pasos para lograr seguridad en Hadoop:
1) El primer paso es asegurar el canal de autenticación del cliente al servidor. Proporcionar sello de tiempo al cliente.
2) En el segundo paso, el cliente utiliza el sello de tiempo recibido para solicitar a TGS un ticket de servicio.
3) En el último paso, el cliente utiliza el ticket de servicio para la autoautenticación en un servidor específico.
27) ¿Qué es Heartbeat en Hadoop?
En Hadoop, NameNode y DataNode se comunican entre sí. Heartbeat es la señal enviada por DataNode a NameNode de forma regular para mostrar su presencia.
28) Distinguir entre NAS y DAS en Hadoop
NAS | DAS |
La capacidad de almacenamiento es 109 al 1012 en bytes. | La capacidad de almacenamiento es 109 en bytes. |
El coste de gestión por GB es moderado. | El coste de gestión por GB es elevado. |
Transmita datos mediante Ethernet o TCP/IP. | Transmitir datos usando IDE/SCSI |
29) Enumere campos o idiomas importantes utilizados por el ingeniero de datos.
A continuación se muestran algunos campos o idiomas utilizados por el ingeniero de datos:
- Probabilidad y álgebra lineal.
- Aprendizaje automático
- Análisis de tendencias y regresión
- Bases de datos Hive QL y SQL
30) ¿Qué es Big Data?
Es una gran cantidad de datos estructurados y no estructurados que no pueden procesarse fácilmente con los métodos tradicionales de almacenamiento de datos. Los ingenieros de datos están utilizando Hadoop para gestionar big data.
Preguntas de la entrevista para ingenieros de datos para experimentados
31) ¿Qué es la programación FIFO?
Es un algoritmo de programación de trabajos de Hadoop. En esta programación FIFO, un reportero selecciona trabajos de una cola de trabajos, el trabajo más antiguo primero.
32) Mencione los números de puerto predeterminados en los que se ejecutan el rastreador de tareas, NameNode y el rastreador de trabajos en Hadoop
Los números de puerto predeterminados en los que se ejecutan el rastreador de tareas, NameNode y el rastreador de trabajos en Hadoop son los siguientes:
- El rastreador de tareas se ejecuta en el puerto 50060
- NameNode se ejecuta en el puerto 50070
- Job Tracker se ejecuta en el puerto 50030
33) Cómo deshabilitar Block Scanner en el nodo de datos HDFS
Para deshabilitar el escáner de bloques en el nodo de datos HDFS, configure dfs.datanode.scan.period.hours en 0.
34) ¿Cómo definir la distancia entre dos nodos en Hadoop?
La distancia es igual a la suma de la distancia a los nodos más cercanos. El método getDistance() se utiliza para calcular la distancia entre dos nodos.
35) ¿Por qué utilizar hardware básico en Hadoop?
El hardware básico es fácil de obtener y asequible. Es un sistema compatible con Windows, MS-DOS o Linux.
36) Definir el factor de replicación en HDFS
El factor de replicación es el número total de réplicas de un archivo en el sistema.
37) ¿Qué datos se almacenan en NameNode?
Namenode almacena los metadatos para HDFS, como información de bloques e información de espacios de nombres.
38) ¿Qué quieres decir con Rack Awareness?
En el clúster Haddop, Namenode utiliza el Datanode para mejorar el tráfico de red mientras lee o escribe cualquier archivo que esté más cerca del rack cercano a la solicitud de lectura o escritura. Namenode mantiene el ID del rack de cada DataNode para obtener información del rack. Este concepto se denomina "Conocimiento del rack" en Hadoop.
39) ¿Cuáles son las funciones del NameNode secundario?
Las siguientes son las funciones del NameNode secundario:
- FsImage que almacena una copia del archivo EditLog y FsImage.
- Fallo del NameNode: si el NameNode falla, entonces se puede usar FsImage del NameNode secundario para recrear el NameNode.
- Punto de control: lo utiliza el NameNode secundario para confirmar que los datos no están dañados en HDFS.
- Actualización: Actualiza automáticamente el archivo EditLog y FsImage. Ayuda a mantener actualizado el archivo FsImage en el NameNode secundario.
40) ¿Qué sucede cuando NameNode no funciona y el usuario envía un nuevo trabajo?
NameNode es el único punto de falla en Hadoop, por lo que el usuario no puede enviar un nuevo trabajo y no puede ejecutarlo. Si NameNode está inactivo, entonces el trabajo puede fallar, debido a que este usuario debe esperar a que NameNode se reinicie antes de ejecutar cualquier trabajo.
41) ¿Cuáles son las fases básicas del reductor en Hadoop?
Hay tres fases básicas de un reductor en Hadoop:
1. Mezclar: Aquí, Reducer copia la salida de Mapper.
2. Ordenar: al ordenar, Hadoop ordena la entrada al Reductor usando la misma clave.
3. Reducir: en esta fase, los valores de salida asociados con una clave se reducen para consolidar los datos en la salida final.
42) ¿Por qué Hadoop usa el objeto Context?
El marco Hadoop utiliza el objeto Context con la clase Mapper para interactuar con el resto del sistema. El objeto Context obtiene los detalles de configuración del sistema y el trabajo en su constructor.
Utilizamos el objeto Context para pasar la información en los métodos setup(), cleanup() y map(). Este objeto pone a disposición información vital durante las operaciones de mapeo.
43) Definir combinador en Hadoop
Es un paso opcional entre Map y Reduce. Combiner toma la salida de la función Map, crea pares de valores clave y los envía a Hadoop Reducer. La tarea de Combiner es resumir el resultado final de Map en registros de resumen con una clave idéntica.
44) ¿Cuál es el factor de replicación predeterminado disponible en HDFS? ¿Qué indica?
El factor de replicación predeterminado disponible en HDFS es tres. El factor de replicación predeterminado indica que habrá tres réplicas de cada dato.
45) ¿Qué quieres decir con localidad de datos en Hadoop?
En un sistema Big Data, el tamaño de los datos es enorme y es por eso que no tiene sentido mover datos a través de la red. Ahora, Hadoop intenta acercar la computación a los datos. De esta manera, los datos permanecen locales en la ubicación almacenada.
46) Definir equilibrador en HDFS
En HDFS, el equilibrador es un elemento administrativo utilizado por el personal administrativo para reequilibrar los datos entre DataNodes y mueve bloques de nodos sobreutilizados a nodos subutilizados.
47) Explica el modo seguro en HDFS
Es un modo de solo lectura de NameNode en un clúster. Inicialmente, NameNode está en modo seguro. Impide escribir en el sistema de archivos en modo seguro. En este momento, recopila datos y estadísticas de todos los DataNodes.
48) ¿Cuál es la importancia de la caché distribuida en Apache Hadoop?
Hadoop tiene una función de utilidad útil llamada caché distribuida que mejora el rendimiento de los trabajos al almacenar en caché los archivos utilizados por las aplicaciones. Una aplicación puede especificar un archivo para el caché usando la configuración de JobConf.
El marco Hadoop hace una réplica de estos archivos en los nodos en los que se debe ejecutar una tarea. Esto se hace antes de que comience la ejecución de la tarea. La caché distribuida admite la distribución de archivos de solo lectura, así como archivos zip y jar.
49) ¿Qué es Metastore en Hive?
Almacena el esquema y la ubicación de la tabla de Hive.
La tabla de Hive define las asignaciones y los metadatos que se almacenan en Metastore. Esto se puede almacenar en RDBMS compatible con JPOX.
50) ¿Qué significa SerDe en Hive?
SerDe es un nombre corto para Serializador o Deserializador. En Hive, SerDe permite leer datos de una tabla y escribir en un campo específico en cualquier formato que desee.
51) Listar los componentes disponibles en el modelo de datos de Hive
El modelo de datos de Hive tiene los siguientes componentes:
- Mesas
- Particiones
- Cubetas
52) Explique el uso de Hive en el ecosistema Hadoop.
Hive proporciona una interfaz para administrar los datos almacenados en el ecosistema Hadoop. Hive se utiliza para mapear y trabajar con tablas de HBase. Las consultas de Hive se convierten en trabajos de MapReduce para ocultar la complejidad asociada con la creación y ejecución de trabajos de MapReduce.
53) Enumere los distintos tipos y colecciones de datos complejos que admite Hive
Hive admite los siguientes tipos de datos complejos:
- Mapa
- Estructura
- Formación
- Union
54) Explique cómo se usa el archivo .hiverc en Hive.
En Hive, .hiverc es el archivo de inicialización. Este archivo se carga inicialmente cuando iniciamos la interfaz de línea de comandos (CLI) para Hive. Podemos establecer los valores iniciales de los parámetros en el archivo .hiverc.
55) ¿Es posible crear más de una tabla en Hive para un solo archivo de datos?
Sí, podemos crear más de un esquema de tabla para un archivo de datos. Hive guarda el esquema en Hive Metastore. Según este esquema, podemos recuperar resultados diferentes de los mismos datos.
56) Explique las diferentes implementaciones de SerDe disponibles en Hive.
Hay muchas implementaciones de SerDe disponibles en Hive. También puedes escribir tu propia implementación de SerDe personalizada. A continuación, se muestran algunas implementaciones de SerDe famosas:
- OpenCSVServidor
- RegexSerDe
- DelimitadoJSONSerDe
- ByteStreamTypedSerDe
57) Lista de funciones de generación de tablas disponibles en Hive
A continuación se muestra una lista de funciones generadoras de tablas:
- Explotar (matriz)
- JSON_tupla()
- Pila()
- Explotar (mapa)
58) ¿Qué es una tabla sesgada en Hive?
Una tabla sesgada es una tabla que contiene valores de columna con mayor frecuencia. En Hive, cuando especificamos una tabla como SKEWED durante la creación, los valores sesgados se escriben en archivos separados y los valores restantes van a otro archivo.
59) Enumere los objetos creados mediante la declaración de creación en MySQL.
Objetos creados por la declaración de creación en MySQL son los siguientes:
- Database
- Home
- Tabla
- User
- Procedimiento
- Desencadenar
- Eventos
- Ver
- Función
60) Cómo ver la estructura de la base de datos en MySQL?
Para ver la estructura de la base de datos en MySQL, puedes usar
comando DESCRIBIR. La sintaxis de este comando es DESCRIBE Table name;
.
Preguntas de la entrevista SQL para ingenieros de datos
61) Cómo buscar una cadena específica en MySQL columna de la tabla?
Utilice el operador regex para buscar una cadena en MySQL columna. Aquí, también podemos definir varios tipos de expresiones regulares y buscar usando expresiones regulares.
62) Explique cómo el análisis de datos y el big data pueden aumentar los ingresos de la empresa.
A continuación se presentan las formas en que el análisis de datos y el big data pueden aumentar los ingresos de la empresa:
- Utilice los datos de manera eficiente para garantizar el crecimiento empresarial.
- Aumentar el valor del cliente.
- Volviéndose analítico para mejorar las previsiones de niveles de dotación de personal.
- Reducir el costo de producción de las organizaciones.
Estas preguntas de la entrevista también te ayudarán en tu viva(orals)