Las 60 preguntas y respuestas principales de la entrevista de Hadoop (2025)

Aquí hay preguntas y respuestas de la entrevista de Hadoop MapReduce para que los candidatos más nuevos y experimentados consigan el trabajo de sus sueños.

Preguntas de entrevista de Hadoop MapReduce

1) ¿Qué es Hadoop Map Reduce?

Para procesar grandes conjuntos de datos en paralelo en un clúster Hadoop, se utiliza el marco Hadoop MapReduce. El análisis de datos utiliza un proceso de mapeo y reducción de dos pasos.


2) ¿Cómo funciona Hadoop MapReduce?

En MapReduce, durante la fase de mapa, cuenta las palabras en cada documento, mientras que en la fase de reducción agrega los datos según el documento que abarca toda la colección. Durante la fase de mapa, los datos de entrada se dividen en divisiones para su análisis mediante tareas de mapa que se ejecutan en paralelo en el marco de Hadoop.

👉 Descarga gratuita de PDF: Preguntas y respuestas de la entrevista de Hadoop y MapReduce


3) Explique qué es la reproducción aleatoria en MapReduce.

El proceso mediante el cual el sistema realiza la clasificación y transfiere las salidas del mapa al reductor como entradas se conoce como reproducción aleatoria.


4) Explique qué es la caché distribuida en MapReduce Framework.

La caché distribuida es una característica importante proporcionada por el marco MapReduce. Cuando desea compartir algunos archivos en todos los nodos de Hadoop Cluster, Se utiliza caché distribuida. Los archivos pueden ser archivos jar ejecutables o archivos de propiedades simples.

Preguntas de entrevista de Hadoop MapReduce
Preguntas de entrevista de Hadoop MapReduce

5) Explique qué es NameNode en Hadoop.

NameNode en Hadoop es el nodo donde Hadoop almacena toda la información de ubicación de archivos en HDFS (sistema de archivos distribuido Hadoop)En otras palabras, NameNode es la pieza central de un sistema de archivos HDFS. Mantiene el registro de todos los archivos en el sistema de archivos y rastrea los datos de los archivos en el clúster o en varias máquinas.


6) Explique qué es JobTracker en Hadoop. ¿Cuáles son las acciones que sigue Hadoop?

In Hadoop para enviar y rastrear trabajos de MapReduce, se utiliza JobTracker. El rastreador de trabajos se ejecuta en su propio proceso JVM

Job Tracker realiza las siguientes acciones en Hadoop

  • La aplicación del cliente envía trabajos al rastreador de trabajos
  • JobTracker se comunica con el modo Nombre para determinar la ubicación de los datos
  • Cerca de los datos o con espacios disponibles, JobTracker ubica los nodos de TaskTracker
  • En los nodos TaskTracker elegidos, envía el trabajo.
  • Cuando una tarea falla, Job Tracker lo notifica y decide qué hacer en ese momento.
  • Los nodos de TaskTracker son monitoreados por JobTracker

7) Explique qué son los latidos del corazón en HDFS.

Latido se refiere a una señal utilizada entre un nodo de datos y un nodo de nombre, y entre el rastreador de tareas y el rastreador de trabajos, si el nodo de nombre o el rastreador de trabajos no responde a la señal, entonces se considera que hay algunos problemas con el nodo de datos o la tarea. rastreador


8) Explique qué son los combinadores y cuándo debe utilizar un combinador en un trabajo de MapReduce.

Para aumentar la eficiencia de Programa MapReduce, Se utilizan combinadores. La cantidad de datos se puede reducir con la ayuda de combinadores que deben transferirse a los reductores. Si la operación realizada es conmutativa y asociativa, puede utilizar su código reductor como combinador. La ejecución del combinador no está garantizada en Hadoop.


9) ¿Qué sucede cuando falla un nodo de datos?

Cuando falla un nodo de datos

  • Jobtracker y namenode detectan el fallo
  • En el nodo fallido todas las tareas se reprograman
  • Namenode replica los datos del usuario en otro nodo

10) Explique ¿qué es la ejecución especulativa?

En Hadoop, durante la ejecución especulativa, se inicia una cierta cantidad de tareas duplicadas. En un nodo esclavo diferente, se pueden ejecutar múltiples copias del mismo mapa o tarea de reducción mediante la ejecución especulativa. En palabras simples, si una unidad en particular tarda mucho en completar una tarea, Hadoop creará una tarea duplicada en otro disco. Un disco que finaliza la tarea primero se retiene y los discos que no finalizan primero se eliminan.


11) ¿Explica cuáles son los parámetros básicos de un Mapper?

Los parámetros básicos de un Mapper son

  • Escritura larga y texto
  • Texto e IntWritable

12) Explique cuál es la función del particionador MapReduce.

La función del particionador MapReduce es garantizar que todo el valor de una sola clave vaya al mismo reductor, lo que eventualmente ayuda a una distribución uniforme de la salida del mapa entre los reductores.


13) Explique cuál es la diferencia entre una división de entrada y un bloque HDFS.

La división lógica de datos se conoce como división, mientras que la división física de datos se conoce como bloque HDFS.


14) ¿Explica qué sucede en formato de texto?

En el formato de entrada de texto, cada línea del archivo de texto es un registro. El valor es el contenido de la línea, mientras que la clave es el desplazamiento de bytes de la línea. Por ejemplo, Clave: longWritable, Valor: texto


15) Mencione cuáles son los principales parámetros de configuración que el usuario debe especificar para ejecutar MapReduce Job.

El usuario del marco MapReduce debe especificar

  • Ubicaciones de entrada del trabajo en el sistema de archivos distribuido
  • Ubicación de salida del trabajo en el sistema de archivos distribuido
  • Formato de entrada
  • Formato de salida
  • Clase que contiene la función de mapa.
  • Clase que contiene la función de reducción.
  • Archivo JAR que contiene las clases de asignador, reductor y controlador.

16) Explique ¿qué es WebDAV en Hadoop?

Para facilitar la edición y actualización de archivos, WebDAV es un conjunto de extensiones de HTTP. En la mayoría de los sistemas operativos, los recursos compartidos WebDAV se pueden montar como sistemas de archivos, por lo que es posible acceder a HDFS como un sistema de archivos estándar mediante la exposición de HDFS sobre WebDAV.


17) Explique qué es Sqoop en Hadoop.

Para transferir los datos entre Gestión de bases de datos relacionales (RDBMS) y Hadoop HDFS Se utiliza una herramienta conocida como Sqoop. Usando Sqoop los datos se pueden transferir desde RDMS como MySQL or Oracle en HDFS y exportar datos desde un archivo HDFS a RDBMS


18) Explique cómo JobTracker programa una tarea.

El rastreador de tareas envía mensajes de latido a JobTracker generalmente cada pocos minutos para asegurarse de que JobTracker esté activo y funcionando. El mensaje también informa a JobTracker sobre la cantidad de espacios disponibles, de modo que JobTracker pueda mantenerse actualizado sobre dónde se puede delegar el trabajo del clúster.


19) Explique qué es el formato de entrada Sequencefile.

El formato de entrada de archivo de secuencia se utiliza para leer archivos en secuencia. Es un formato de archivo binario comprimido específico que está optimizado para pasar datos entre la salida de un trabajo MapReduce y la entrada de algún otro trabajo MapReduce.


20) Explique qué hace la clase conf.setMapper.

Conf.setMapperclass establece la clase del asignador y todo lo relacionado con el trabajo del mapa, como leer datos y generar un par clave-valor a partir del asignador.

21) Explique ¿qué es Hadoop?

Es un marco de software de código abierto para almacenar datos y ejecutar aplicaciones en clústeres de hardware de uso general. Proporciona una enorme potencia de procesamiento y almacenamiento masivo para cualquier tipo de datos.


22) Mencione ¿cuál es la diferencia entre un RDBMS y Hadoop?

RDBMS Hadoop
RDBMS es un sistema de gestión de bases de datos relacionales. Hadoop es una estructura plana basada en nodos
Se utiliza para el procesamiento OLTP, mientras que Hadoop Actualmente se utiliza para análisis y procesamiento de BIG DATA.
En RDBMS, el clúster de bases de datos utiliza los mismos archivos de datos almacenados en un almacenamiento compartido. En Hadoop, los datos de almacenamiento se pueden almacenar de forma independiente en cada nodo de procesamiento.
Es necesario preprocesar los datos antes de almacenarlos. no es necesario preprocesar los datos antes de almacenarlos

23) ¿Mencionar los componentes principales de Hadoop?

Los componentes principales de Hadoop incluyen,

  • HDFS
  • MapReduce

24) ¿Qué es NameNode en Hadoop?

NameNode en Hadoop es donde Hadoop almacena toda la información de ubicación de archivos en HDFS. Es el nodo maestro en el que se ejecuta el rastreador de trabajos y consta de metadatos.


25) Mencione ¿cuáles son los componentes de datos utilizados por Hadoop?

Los componentes de datos utilizados por Hadoop son


26) Mencione cuál es el componente de almacenamiento de datos utilizado por Hadoop.

El componente de almacenamiento de datos utilizado por Hadoop es HBase.


27) Mencione ¿cuáles son los formatos de entrada más comunes definidos en Hadoop?

Los formatos de entrada más comunes definidos en Hadoop son;

  • Formato de entrada de texto
  • Formato de entrada de valor clave
  • Formato de entrada de archivo de secuencia

28) En Hadoop ¿qué es InputSplit?

Divide los archivos de entrada en fragmentos y asigna cada división a un asignador para su procesamiento.


29) Para un trabajo de Hadoop, ¿cómo escribirías un particionador personalizado?

Escribe un particionador personalizado para un trabajo de Hadoop, sigue la siguiente ruta

  • Cree una nueva clase que extienda la clase Partitioner
  • Anular el método getPartition
  • En el contenedor que ejecuta MapReduce
  • Agregue el particionador personalizado al trabajo utilizando el método set Partitioner Class o – agregue el particionador personalizado al trabajo como un archivo de configuración

30) Para un trabajo en Hadoop, ¿es posible cambiar la cantidad de mapeadores que se crearán?

No, no es posible cambiar la cantidad de mapeadores que se crearán. El número de mapeadores está determinado por el número de divisiones de entrada.


31) Explique ¿qué es un archivo de secuencia en Hadoop?

Para almacenar pares binarios clave/valor, se utiliza un archivo de secuencia. A diferencia de los archivos comprimidos normales, los archivos de secuencia admiten la división incluso cuando los datos dentro del archivo están comprimidos.


32) Cuando Namenode no funciona, ¿qué sucede con el rastreador de trabajos?

Namenode es el único punto de falla en HDFS, por lo que cuando Namenode deja de funcionar, su clúster se activará.


33) Explique cómo se realiza la indexación en HDFS.

Hadoop tiene una forma única de indexar. Una vez que los datos se almacenan según el tamaño del bloque, HDFS seguirá almacenando la última parte de los datos, que indica dónde estará la siguiente parte de los datos.


34) Explique si es posible buscar archivos usando comodines.

Sí, es posible buscar archivos utilizando comodines.


35) ¿Enumerar los tres archivos de configuración de Hadoop?

Los tres archivos de configuración son

  • core-sitio.xml
  • mapred-sitio.xml
  • hdfs-sitio.xml

36) Explique cómo puede verificar si Namenode está funcionando además de usar el comando jps.

Además de usar el comando jps, para verificar si Namenode está funcionando, también puedes usar

/etc/init.d/hadoop-0.20-namenode estado.


37) Explique qué es "mapa" y qué es "reductor" en Hadoop.

En Hadoop, un mapa es una fase en la resolución de consultas HDFS. Un mapa lee datos de una ubicación de entrada y genera un par clave-valor según el tipo de entrada.

En Hadoop, un reductor recopila el resultado generado por el asignador, lo procesa y crea su propio resultado final.


38) En Hadoop, ¿qué archivo controla los informes en Hadoop?

En Hadoop, el archivo hadoop-metrics.properties controla los informes.


39) ¿Para usar Hadoop, enumere los requisitos de red?

Para utilizar Hadoop, la lista de requisitos de red es:

  • Conexión SSH sin contraseña
  • Secure Shell (SSH) para iniciar procesos del servidor

40) Mencione ¿qué es la conciencia de rack?

El conocimiento del bastidor es la forma en que el nodo de nombre determina cómo colocar bloques en función de las definiciones del bastidor.


41) Explique qué es un rastreador de tareas en Hadoop.

Un rastreador de tareas en Hadoop es un demonio de nodo esclavo en el clúster que acepta tareas de un rastreador de tareas. También envía mensajes de latidos al rastreador de tareas cada pocos minutos para confirmar que el rastreador de tareas sigue activo.


42) Mencione qué demonios se ejecutan en un nodo maestro y en nodos esclavos.

  • Los demonios que se ejecutan en el nodo maestro son "NameNode"
  • Los demonios que se ejecutan en cada nodo esclavo son "Task Tracker" y "Data"

43) Explique cómo se puede depurar el código Hadoop.

Los métodos populares para depurar código Hadoop son:

  • Mediante el uso de la interfaz web proporcionada por el marco Hadoop
  • Usando contadores

44) Explique qué son los nodos de almacenamiento y computación.

  • El nodo de almacenamiento es la máquina o computadora donde reside su sistema de archivos para almacenar los datos de procesamiento.
  • El nodo informático es la computadora o máquina donde se ejecutará su lógica empresarial real.

45) Mencione ¿para qué sirve Context Object?

El objeto de contexto permite al asignador interactuar con el resto de Hadoop.

sistema. Incluye datos de configuración para el trabajo, así como interfaces que le permiten emitir resultados.


46) Mencione ¿cuál es el siguiente paso después de Mapper o MapTask?

El siguiente paso después de Mapper o MapTask es ordenar la salida de Mapper y crear particiones para la salida.


47) Mencione cuál es el número de particionadores predeterminados en Hadoop.

En Hadoop, el particionador predeterminado es un particionador "Hash".


48) Explique cuál es el propósito de RecordReader en Hadoop.

En Hadoop, RecordReader carga los datos desde su fuente y los convierte en pares (clave, valor) adecuados para que el Mapper los lea.


49) Explique cómo se particionan los datos antes de enviarlos al reductor si no se define ningún particionador personalizado en Hadoop.

Si no se define ningún particionador personalizado en Hadoop, entonces un particionador predeterminado calcula un valor hash para la clave y asigna la partición según el resultado.


50) Explique qué sucede cuando Hadoop generó 50 tareas para un trabajo y una de ellas falló.

Reiniciará la tarea nuevamente en algún otro TaskTracker si la tarea falla más que el límite definido.


51) Mencione cuál es la mejor manera de copiar archivos entre clústeres HDFS.

La mejor manera de copiar archivos entre clústeres HDFS es mediante el uso de varios nodos y el comando distcp, de modo que se comparta la carga de trabajo.


52) Mencione cuál es la diferencia entre HDFS y NAS.

Los bloques de datos HDFS se distribuyen entre las unidades locales de todas las máquinas de un clúster, mientras que los datos NAS se almacenan en hardware dedicado.


53) Mencione en qué se diferencia Hadoop de otras herramientas de procesamiento de datos.

En Hadoop, puede aumentar o disminuir la cantidad de mapeadores sin preocuparse por el volumen de datos a procesar.


54) Mencione ¿qué trabajo hace la clase conf?

La clase de configuración de trabajos separa los distintos trabajos que se ejecutan en el mismo clúster. Realiza la configuración a nivel de trabajo, como declarar un trabajo en un entorno real.


55) Mencione cuál es el contrato de API de Hadoop MapReduce para una clase de clave y valor.

Para una clase de clave y valor, hay dos contratos API de Hadoop MapReduce

  • El valor debe definir la interfaz org.apache.hadoop.io.Writable
  • La clave debe ser definir la interfaz org.apache.hadoop.io.WritableComparable

56) Mencione cuáles son los tres modos en los que se puede ejecutar Hadoop.

Los tres modos en los que se puede ejecutar Hadoop son

  • Modo pseudodistribuido
  • Modo autónomo (local)
  • Modo totalmente distribuido

57) Mencione ¿qué hace el formato de entrada de texto?

El formato de entrada de texto creará un objeto de línea que es un número hexadecimal. El valor se considera como un texto de línea completa, mientras que la clave se considera como un objeto de línea. El asignador recibirá el valor como parámetro de "texto", mientras que la clave será el parámetro de "escripción larga".


58) Mencione cuántos InputSplits genera un marco Hadoop.

Hadoop hará 5 divisiones

  • 1 división para archivos de 64K
  • 2 divididos para archivos de 65 MB
  • 2 divisiones para archivos de 127 MB

59) Mencione qué es el caché distribuido en Hadoop.

La caché distribuida en Hadoop es una función proporcionada por el marco MapReduce. En el momento de la ejecución del trabajo, se utiliza para almacenar en caché el archivo. Framework copia los archivos necesarios en el nodo esclavo antes de la ejecución de cualquier tarea en ese nodo.


60) Explique cómo Hadoop Classpath juega un papel vital al detener o iniciar demonios de Hadoop.

Classpath constará de una lista de directorios que contienen archivos jar para detener o iniciar demonios.

Estas preguntas de la entrevista también te ayudarán en tu viva(orals)