Las 60 preguntas y respuestas principales de la entrevista de Hadoop (2026)
Aquรญ hay preguntas y respuestas de la entrevista de Hadoop MapReduce para que los candidatos mรกs nuevos y experimentados consigan el trabajo de sus sueรฑos.
Preguntas de entrevista de Hadoop MapReduce
1) ยฟQuรฉ es Hadoop Map Reduce?
Para procesar grandes conjuntos de datos en paralelo en un clรบster Hadoop, se utiliza el marco Hadoop MapReduce. El anรกlisis de datos utiliza un proceso de mapeo y reducciรณn de dos pasos.
2) ยฟCรณmo funciona Hadoop MapReduce?
En MapReduce, durante la fase de mapa, cuenta las palabras en cada documento, mientras que en la fase de reducciรณn agrega los datos segรบn el documento que abarca toda la colecciรณn. Durante la fase de mapa, los datos de entrada se dividen en divisiones para su anรกlisis mediante tareas de mapa que se ejecutan en paralelo en el marco de Hadoop.
๐ Descarga gratuita de PDF: Preguntas y respuestas de la entrevista de Hadoop y MapReduce
3) Explique quรฉ es la reproducciรณn aleatoria en MapReduce.
El proceso mediante el cual el sistema realiza la clasificaciรณn y transfiere las salidas del mapa al reductor como entradas se conoce como reproducciรณn aleatoria.
4) Explique quรฉ es la cachรฉ distribuida en MapReduce Framework.
La cachรฉ distribuida es una caracterรญstica importante proporcionada por el marco MapReduce. Cuando desea compartir algunos archivos en todos los nodos de Hadoop Cluster, Se utiliza cachรฉ distribuida. Los archivos pueden ser archivos jar ejecutables o archivos de propiedades simples.

5) Explique quรฉ es NameNode en Hadoop.
NameNode en Hadoop es el nodo donde Hadoop almacena toda la informaciรณn de ubicaciรณn de archivos en HDFS (sistema de archivos distribuido Hadoop)En otras palabras, NameNode es la pieza central de un sistema de archivos HDFS. Mantiene el registro de todos los archivos en el sistema de archivos y tracks los datos del archivo en todo el clรบster o en varias mรกquinas
6) Explica quรฉ es un trabajoTracยฟQuรฉ es ker en Hadoop? ยฟCuรกles son las acciones que sigue Hadoop?
In Hadoop para enviar y tracTrabajos de King MapReduce, TrabajoTracSe utiliza ker. Trabajo tracker se ejecuta en su propio proceso JVM
Trabajos Tracker realiza las siguientes acciones en Hadoop
- El cliente envรญa solicitudes de empleo al trabajo tracker
- TrabajosTracker se comunica con el modo Nombre para determinar la ubicaciรณn de los datos.
- Cerca de los datos o con espacios disponibles TrabajoTracker localiza la tareaTracnodos ker
- En la tarea elegidaTracker Nodes, envรญa el trabajo
- Cuando una tarea falla, Job tracEl ker notifica y decide quรฉ hacer entonces.
- La TareaTracLos nodos ker son monitoreados por JobTracker
7) Explique quรฉ son los latidos del corazรณn en HDFS.
El latido del corazรณn se refiere a una seรฑal utilizada entre un nodo de datos y un nodo de nombre, y entre tareas. tracker y trabajo tracker, si el nodo o trabajo de nombre tracSi ker no responde a la seรฑal, se considera que hay algรบn problema con el nodo de datos o la tarea. tracker
8) Explique quรฉ son los combinadores y cuรกndo debe utilizar un combinador en un trabajo de MapReduce.
Para aumentar la eficiencia de Programa MapReduce, Se utilizan combinadores. La cantidad de datos se puede reducir con la ayuda de combinadores que deben transferirse a los reductores. Si la operaciรณn realizada es conmutativa y asociativa, puede utilizar su cรณdigo reductor como combinador. La ejecuciรณn del combinador no estรก garantizada en Hadoop.
9) ยฟQuรฉ sucede cuando falla un nodo de datos?
Cuando falla un nodo de datos
- Trabajostracker y namenode detectan el fallo
- En el nodo fallido todas las tareas se reprograman
- Namenode replica los datos del usuario en otro nodo
10) Explique ยฟquรฉ es la ejecuciรณn especulativa?
En Hadoop, durante la ejecuciรณn especulativa, se inicia una cierta cantidad de tareas duplicadas. En un nodo esclavo diferente, se pueden ejecutar mรบltiples copias del mismo mapa o tarea de reducciรณn mediante la ejecuciรณn especulativa. En palabras simples, si una unidad en particular tarda mucho en completar una tarea, Hadoop crearรก una tarea duplicada en otro disco. Un disco que finaliza la tarea primero se retiene y los discos que no finalizan primero se eliminan.
11) ยฟExplica cuรกles son los parรกmetros bรกsicos de un Mapper?
Los parรกmetros bรกsicos de un Mapper son
- Escritura larga y texto
- Texto e IntWritable
12) Explique cuรกl es la funciรณn del particionador MapReduce.
La funciรณn del particionador MapReduce es garantizar que todo el valor de una sola clave vaya al mismo reductor, lo que eventualmente ayuda a una distribuciรณn uniforme de la salida del mapa entre los reductores.
13) Explique cuรกl es la diferencia entre una divisiรณn de entrada y un bloque HDFS.
La divisiรณn lรณgica de datos se conoce como divisiรณn, mientras que la divisiรณn fรญsica de datos se conoce como bloque HDFS.
14) ยฟExplica quรฉ sucede en formato de texto?
En el formato de entrada de texto, cada lรญnea del archivo de texto es un registro. El valor es el contenido de la lรญnea, mientras que la clave es el desplazamiento de bytes de la lรญnea. Por ejemplo, Clave: longWritable, Valor: texto
15) Mencione cuรกles son los principales parรกmetros de configuraciรณn que el usuario debe especificar para ejecutar MapReduce Job.
El usuario del marco MapReduce debe especificar
- Ubicaciones de entrada del trabajo en el sistema de archivos distribuido
- Ubicaciรณn de salida del trabajo en el sistema de archivos distribuido
- Formato de entrada
- Formato de salida
- Clase que contiene la funciรณn de mapa.
- Clase que contiene la funciรณn de reducciรณn.
- Archivo JAR que contiene las clases de asignador, reductor y controlador.
16) Explique ยฟquรฉ es WebDAV en Hadoop?
Para facilitar la ediciรณn y actualizaciรณn de archivos, WebDAV es un conjunto de extensiones de HTTP. En la mayorรญa de los sistemas operativos, los recursos compartidos WebDAV se pueden montar como sistemas de archivos, por lo que es posible acceder a HDFS como un sistema de archivos estรกndar mediante la exposiciรณn de HDFS sobre WebDAV.
17) Explique quรฉ es Sqoop en Hadoop.
Para transferir los datos entre Gestiรณn de bases de datos relacionales (RDBMS) y Hadoop HDFS Se utiliza una herramienta conocida como Sqoop. Usando Sqoop los datos se pueden transferir desde RDMS como MySQL or Oracle en HDFS y exportar datos desde un archivo HDFS a RDBMS
18) Explica cรณmo funciona JobTracยฟEl programador asigna una tarea?
La tarea tracKer envรญa mensajes de latidos del corazรณn a Job.tracker normalmente cada pocos minutos para asegurarse de que el trabajoTracker estรก activo y funcionando. El mensaje tambiรฉn informa a JobTracker sobre el nรบmero de puestos disponibles, por lo que el trabajoTracker puede mantenerse al dรญa sobre dรณnde se puede delegar el trabajo del clรบster
19) Explique quรฉ es el formato de entrada Sequencefile.
El formato de entrada de archivo de secuencia se utiliza para leer archivos en secuencia. Es un formato de archivo binario comprimido especรญfico que estรก optimizado para pasar datos entre la salida de un trabajo MapReduce y la entrada de algรบn otro trabajo MapReduce.
20) Explique quรฉ hace la clase conf.setMapper.
Conf.setMapperclass establece la clase del asignador y todo lo relacionado con el trabajo del mapa, como leer datos y generar un par clave-valor a partir del asignador.
21) Explique ยฟquรฉ es Hadoop?
Es un marco de software de cรณdigo abierto para almacenar datos y ejecutar aplicaciones en clรบsteres de hardware de uso general. Proporciona una enorme potencia de procesamiento y almacenamiento masivo para cualquier tipo de datos.
22) Mencione ยฟcuรกl es la diferencia entre un RDBMS y Hadoop?
| RDBMS | Hadoop |
|---|---|
| RDBMS es un sistema de gestiรณn de bases de datos relacionales. | Hadoop es una estructura plana basada en nodos |
| Se utiliza para el procesamiento OLTP, mientras que Hadoop | Actualmente se utiliza para anรกlisis y procesamiento de BIG DATA. |
| En RDBMS, el clรบster de bases de datos utiliza los mismos archivos de datos almacenados en un almacenamiento compartido. | En Hadoop, los datos de almacenamiento se pueden almacenar de forma independiente en cada nodo de procesamiento. |
| Es necesario preprocesar los datos antes de almacenarlos. | no es necesario preprocesar los datos antes de almacenarlos |
23) ยฟMencionar los componentes principales de Hadoop?
Los componentes principales de Hadoop incluyen,
- HDFS
- MapReduce
24) ยฟQuรฉ es NameNode en Hadoop?
NameNode en Hadoop es donde Hadoop almacena toda la informaciรณn de ubicaciรณn de archivos en HDFS. Es el nodo maestro en el que se ejecutan los trabajos. tracker se ejecuta y consta de metadatos.
25) Mencione ยฟcuรกles son los componentes de datos utilizados por Hadoop?
Los componentes de datos utilizados por Hadoop son
26) Mencione cuรกl es el componente de almacenamiento de datos utilizado por Hadoop.
El componente de almacenamiento de datos utilizado por Hadoop es HBase.
27) Mencione ยฟcuรกles son los formatos de entrada mรกs comunes definidos en Hadoop?
Los formatos de entrada mรกs comunes definidos en Hadoop son;
- Formato de entrada de texto
- Formato de entrada de valor clave
- Formato de entrada de archivo de secuencia
28) En Hadoop ยฟquรฉ es InputSplit?
Divide los archivos de entrada en fragmentos y asigna cada divisiรณn a un asignador para su procesamiento.
29) Para un trabajo de Hadoop, ยฟcรณmo escribirรญas un particionador personalizado?
Escribe un particionador personalizado para un trabajo de Hadoop, sigue la siguiente ruta
- Cree una nueva clase que extienda la clase Partitioner
- Anular el mรฉtodo getPartition
- En el contenedor que ejecuta MapReduce
- Agregue el particionador personalizado al trabajo utilizando el mรฉtodo set Partitioner Class o โ agregue el particionador personalizado al trabajo como un archivo de configuraciรณn
30) Para un trabajo en Hadoop, ยฟes posible cambiar la cantidad de mapeadores que se crearรกn?
No, no es posible cambiar la cantidad de mapeadores que se crearรกn. El nรบmero de mapeadores estรก determinado por el nรบmero de divisiones de entrada.
31) Explique ยฟquรฉ es un archivo de secuencia en Hadoop?
Para almacenar pares binarios clave/valor, se utiliza un archivo de secuencia. A diferencia de los archivos comprimidos normales, los archivos de secuencia admiten la divisiรณn incluso cuando los datos dentro del archivo estรกn comprimidos.
32) ยฟQuรฉ sucede con el trabajo cuando Namenode estรก caรญdo? tracยฟque?
Namenode es el รบnico punto de falla en HDFS, por lo que cuando Namenode deja de funcionar, su clรบster se activarรก.
33) Explique cรณmo se realiza la indexaciรณn en HDFS.
Hadoop tiene una forma รบnica de indexar. Una vez que los datos se almacenan segรบn el tamaรฑo del bloque, HDFS seguirรก almacenando la รบltima parte de los datos, que indica dรณnde estarรก la siguiente parte de los datos.
34) Explique si es posible buscar archivos usando comodines.
Sรญ, es posible buscar archivos utilizando comodines.
35) ยฟEnumerar los tres archivos de configuraciรณn de Hadoop?
Los tres archivos de configuraciรณn son
- core-sitio.xml
- mapred-sitio.xml
- hdfs-sitio.xml
36) Explique cรณmo puede verificar si Namenode estรก funcionando ademรกs de usar el comando jps.
Ademรกs de usar el comando jps, para verificar si Namenode estรก funcionando, tambiรฉn puedes usar
/etc/init.d/hadoop-0.20-namenode estado.
37) Explique quรฉ es "mapa" y quรฉ es "reductor" en Hadoop.
En Hadoop, un mapa es una fase en la resoluciรณn de consultas HDFS. Un mapa lee datos de una ubicaciรณn de entrada y genera un par clave-valor segรบn el tipo de entrada.
En Hadoop, un reductor recopila el resultado generado por el asignador, lo procesa y crea su propio resultado final.
38) En Hadoop, ยฟquรฉ archivo controla los informes en Hadoop?
En Hadoop, el archivo hadoop-metrics.properties controla los informes.
39) ยฟPara usar Hadoop, enumere los requisitos de red?
Para utilizar Hadoop, la lista de requisitos de red es:
- Conexiรณn SSH sin contraseรฑa
- Secure Shell (SSH) para iniciar procesos del servidor
40) Mencione ยฟquรฉ es la conciencia de rack?
El conocimiento del bastidor es la forma en que el nodo de nombre determina cรณmo colocar bloques en funciรณn de las definiciones del bastidor.
41) Explica quรฉ es una tarea. Tracยฟker en Hadoop?
Una tarea Tracker en Hadoop es un demonio de nodo esclavo en el clรบster que acepta tareas de un JobTracker. Tambiรฉn envรญa los mensajes de latido al trabajo.Tracker, cada pocos minutos, para confirmar que el trabajoTracKer sigue vivo.
42) Mencione quรฉ demonios se ejecutan en un nodo maestro y en nodos esclavos.
- Los demonios que se ejecutan en el nodo maestro son "NameNode"
- Los demonios que se ejecutan en cada nodo esclavo son "Task". Trackerโ y โDatosโ
43) Explique cรณmo se puede depurar el cรณdigo Hadoop.
Los mรฉtodos populares para depurar cรณdigo Hadoop son:
- Mediante el uso de la interfaz web proporcionada por el marco Hadoop
- Usando contadores
44) Explique quรฉ son los nodos de almacenamiento y computaciรณn.
- El nodo de almacenamiento es la mรกquina o computadora donde reside su sistema de archivos para almacenar los datos de procesamiento.
- El nodo informรกtico es la computadora o mรกquina donde se ejecutarรก su lรณgica empresarial real.
45) Mencione ยฟpara quรฉ sirve Context Object?
El objeto de contexto permite al asignador interactuar con el resto de Hadoop.
sistema. Incluye datos de configuraciรณn para el trabajo, asรญ como interfaces que le permiten emitir resultados.
46) Mencione ยฟcuรกl es el siguiente paso despuรฉs de Mapper o MapTask?
El siguiente paso despuรฉs de Mapper o MapTask es ordenar la salida de Mapper y crear particiones para la salida.
47) Mencione cuรกl es el nรบmero de particionadores predeterminados en Hadoop.
En Hadoop, el particionador predeterminado es un particionador "Hash".
48) Explique cuรกl es el propรณsito de RecordReader en Hadoop.
En Hadoop, RecordReader carga los datos desde su fuente y los convierte en pares (clave, valor) adecuados para que el Mapper los lea.
49) Explique cรณmo se particionan los datos antes de enviarlos al reductor si no se define ningรบn particionador personalizado en Hadoop.
Si no se define ningรบn particionador personalizado en Hadoop, entonces un particionador predeterminado calcula un valor hash para la clave y asigna la particiรณn segรบn el resultado.
50) Explique quรฉ sucede cuando Hadoop generรณ 50 tareas para un trabajo y una de ellas fallรณ.
Reiniciarรก la tarea en otra tarea.Tracker si la tarea falla mรกs veces de las permitidas.
51) Mencione cuรกl es la mejor manera de copiar archivos entre clรบsteres HDFS.
La mejor manera de copiar archivos entre clรบsteres HDFS es mediante el uso de varios nodos y el comando distcp, de modo que se comparta la carga de trabajo.
52) Mencione cuรกl es la diferencia entre HDFS y NAS.
Los bloques de datos HDFS se distribuyen entre las unidades locales de todas las mรกquinas de un clรบster, mientras que los datos NAS se almacenan en hardware dedicado.
53) Mencione en quรฉ se diferencia Hadoop de otras herramientas de procesamiento de datos.
En Hadoop, puede aumentar o disminuir la cantidad de mapeadores sin preocuparse por el volumen de datos a procesar.
54) Mencione ยฟquรฉ trabajo hace la clase conf?
La clase de configuraciรณn de trabajos separa los distintos trabajos que se ejecutan en el mismo clรบster. Realiza la configuraciรณn a nivel de trabajo, como declarar un trabajo en un entorno real.
55) Mencione quรฉ son las API de Hadoop MapReduce.tracยฟt para una clase clave y valor?
Para una clase de clave y valor, hay dos API de Hadoop MapReduce.tract
- El valor debe definir la interfaz org.apache.hadoop.io.Writable
- La clave debe ser definir la interfaz org.apache.hadoop.io.WritableComparable
56) Mencione cuรกles son los tres modos en los que se puede ejecutar Hadoop.
Los tres modos en los que se puede ejecutar Hadoop son
- Modo pseudodistribuido
- Modo autรณnomo (local)
- Modo totalmente distribuido
57) Mencione ยฟquรฉ hace el formato de entrada de texto?
El formato de entrada de texto crearรก un objeto de lรญnea que es un nรบmero hexadecimal. El valor se considera como un texto de lรญnea completa, mientras que la clave se considera como un objeto de lรญnea. El asignador recibirรก el valor como parรกmetro de "texto", mientras que la clave serรก el parรกmetro de "escripciรณn larga".
58) Mencione cuรกntos InputSplits genera un marco Hadoop.
Hadoop harรก 5 divisiones
- 1 divisiรณn para archivos de 64K
- 2 divididos para archivos de 65 MB
- 2 divisiones para archivos de 127 MB
59) Mencione quรฉ es el cachรฉ distribuido en Hadoop.
La cachรฉ distribuida en Hadoop es una funciรณn proporcionada por el marco MapReduce. En el momento de la ejecuciรณn del trabajo, se utiliza para almacenar en cachรฉ el archivo. Framework copia los archivos necesarios en el nodo esclavo antes de la ejecuciรณn de cualquier tarea en ese nodo.
60) Explique cรณmo el Classpath de Hadoop juega un papel vital en la detenciรณnping ยฟO empezar con demonios de Hadoop?
Classpath constarรก de una lista de directorios que contienen archivos jar para detener o iniciar demonios.
Estas preguntas de la entrevista tambiรฉn te ayudarรกn en tu viva(orals)
