Oltre 60 domande e risposte per interviste a Data Engineer nel 2026
Domande di intervista per Data Engineer per le matricole
1) Spiegare l'ingegneria dei dati.
Ingegneria dei dati รจ un termine utilizzato nei big data. Si concentra sull'applicazione della raccolta e della ricerca dei dati. I dati generati da varie fonti sono solo dati grezzi. L'ingegneria dei dati aiuta a convertire questi dati grezzi in informazioni utili.
2) Cos'รจ la modellazione dei dati?
Modellazione dei dati รจ il metodo di documentazione di un progetto software complesso come diagramma, in modo che chiunque possa comprenderlo facilmente. ร una rappresentazione concettuale di oggetti dati associati tra vari oggetti dati e le regole.
3) Elencare vari tipi di schemi di progettazione nella modellazione dei dati
Esistono principalmente due tipi di schemi nella modellazione dei dati: 1) schema a stella e 2) schema a fiocco di neve.
4) Distinguere tra dati strutturati e non strutturati
Di seguito รจ riportata la differenza tra dati strutturati e non strutturati:
| Parametro | Dati strutturati | Dati non strutturati |
|---|---|---|
| Archiviazione | DBMS | Strutture di file non gestite |
| Standard | ADO.net, ODBC e SQL | STMP, XML, CSV e SMS |
| Strumento di integrazione | ELT (Estrai, Trasforma, Carica) | Inserimento manuale dei dati o elaborazione batch che include codici |
| scala | Il ridimensionamento dello schema รจ difficile | Il ridimensionamento รจ molto semplice. |
5) Spiegare tutti i componenti di un'applicazione Hadoop
Di seguito sono riportati i componenti dell'applicazione Hadoop:
- Hadoop comune: Si tratta di un insieme comune di utilitร e librerie utilizzate da Hadoop.
- HDFS: Questa applicazione Hadoop si riferisce al file system in cui sono archiviati i dati Hadoop. ร un file system distribuito con larghezza di banda elevata.
- Hadoop MapReduce: Si basa sull'algoritmo per la fornitura di elaborazione dati su larga scala.
- FILATO Hadoop: Viene utilizzato per la gestione delle risorse all'interno del cluster Hadoop. Puรฒ essere utilizzato anche per la pianificazione delle attivitร per gli utenti.
6) Cos'รจ NameNode?
ร il fulcro di HDFS. Memorizza i dati di HDFS e tiene traccia di vari file nei cluster. In questo caso i dati effettivi non vengono memorizzati. I dati vengono archiviati nei DataNode.
7) Definire lo streaming Hadoop
ร un'utilitร che consente la creazione della mappa e riduce i lavori e li invia ad un cluster specifico.
8) Qual รจ la forma completa di HDFS?
HDFS sta per Hadoop Distributed File System.
9) Definire il blocco e lo scanner del blocco in HDFS
I blocchi sono l'unitร piรน piccola di un file di dati. Hadoop divide automaticamente file enormi in piccoli pezzi.
Block Scanner verifica l'elenco dei blocchi presentati su un DataNode.
10) Quali sono i passaggi che si verificano quando Block Scanner rileva un blocco di dati danneggiato?
Di seguito sono riportati i passaggi che si verificano quando Block Scanner rileva un blocco dati danneggiato:
1) Prima di tutto, quando Block Scanner trova un blocco dati danneggiato, DataNode segnala a NameNode
2) NameNode avvia il processo di creazione di una nuova replica utilizzando una replica del blocco danneggiato.
3) Il conteggio delle repliche corrette tenta di corrispondere al fattore di replica. Se la corrispondenza trovata รจ danneggiata, il blocco dati non verrร eliminato.
11) Nomina due messaggi che NameNode riceve da DataNode?
Ci sono due messaggi che NameNode riceve da DataNode. Sono 1) Rapporto di blocco e 2) Battito cardiaco.
12) Elencare vari file di configurazione XML in Hadoop?
Esistono cinque file di configurazione XML in Hadoop:
- Sito Mapred
- Sito principale
- Sito HDFS
- Sito del filato
13) Quali sono le quattro V dei big data?
Le quattro V dei big data sono:
- Velocitร
- Variety
- Volume
- veracitร
14) Spiegare le caratteristiche di Hadoop
Le caratteristiche importanti di Hadoop sono:
- ร un framework open source disponibile gratuitamente.
- Hadoop รจ compatibile con numerosi tipi di hardware ed รจ facile accedere al nuovo hardware all'interno di un nodo specifico.
- Hadoop supporta l'elaborazione dei dati distribuita piรน rapidamente.
- Memorizza i dati nel cluster, che รจ indipendente dal resto delle operazioni.
- Hadoop consente di creare 3 repliche per ciascun blocco con nodi diversi.
15) Spiegare i principali metodi di Reducer
- setup(): viene utilizzato per configurare parametri come la dimensione dei dati di input e la cache distribuita.
- cleanup(): questo metodo viene utilizzato per pulire i file temporanei.
- reduce(): รจ un cuore del riduttore che viene chiamato una volta per tasto con il compito ridotto associato
16) Qual รจ l'abbreviazione di COSHH?
L'abbreviazione COSHH sta per Classification and Optimization based Schedule for Heterogeneous Hadoop systems.
17) Spiegare lo schema stellare
Schema a stella o Star Join Schema รจ il tipo piรน semplice di schema Data Warehouse. ร noto come schema a stella perchรฉ la sua struttura รจ come una stella. Nello schema a stella, il centro della stella puรฒ avere una tabella dei fatti e piรน tabelle delle dimensioni associate. Questo schema viene utilizzato per eseguire query su set di dati di grandi dimensioni.
18) Come implementare una soluzione Big Data?
Per implementare una soluzione Big Data, seguire i passaggi seguenti.
1) Integrare i dati utilizzando origini dati come RDBMS, SAP, MySQL, Salesforce
2) Archiviare i dati estratti nel database NoSQL o HDFS.
3) Distribuire una soluzione per big data utilizzando framework di elaborazione come Pig, Sparke MapReduce.
19) Spiegare FSCK
File System Check o FSCK รจ il comando utilizzato da HDFS. Il comando FSCK viene utilizzato per verificare incoerenze e problemi nel file.
20) Spiegare lo schema del fiocco di neve
A Schema del fiocco di neve รจ un'estensione di uno schema a stella e aggiunge dimensioni aggiuntive. ร chiamato fiocco di neve perchรฉ il suo diagramma assomiglia a un fiocco di neve. Le tabelle delle dimensioni sono normalizzate, ovvero suddividono i dati in tabelle aggiuntive.
21) Distinguere tra schema a stella e a fiocco di neve
| Stella | Schema del fiocco di neve |
| Le gerarchie delle dimensioni sono memorizzate nella tabella dimensionale. | Ogni gerarchia viene archiviata in tabelle separate. |
| Le probabilitร di ridondanza dei dati sono elevate | Le probabilitร di ridondanza dei dati sono basse. |
| Ha un design DB molto semplice | Ha un design DB complesso |
| Fornire un modo piรน veloce per l'elaborazione dei cubi | L'elaborazione del cubo รจ lenta a causa della giunzione complessa. |
22) Spiegare il file system distribuito Hadoop
Hadoop funziona con file system distribuiti scalabili come S3, HFTP FS, FS e HDFS. Il file system distribuito Hadoop รจ realizzato sul file system di Google. Questo file system รจ progettato in modo tale da poter essere facilmente eseguito su un cluster di grandi dimensioni del sistema informatico.
23) Spiegare le principali responsabilitร di un data engineer
Gli ingegneri dei dati hanno molte responsabilitร . Gestiscono il sistema sorgente dei dati. Gli ingegneri dei dati semplificano la struttura dei dati complessa e impediscono la duplicazione dei dati. Molte volte forniscono anche ELT e trasformazione dei dati.
24) Qual รจ la forma completa di YARN?
La forma completa di YARN รจ Yet Another Resource Negotiator.
25) Elenca le varie modalitร in Hadoop
Le modalitร in Hadoop sono 1) Modalitร standalone 2) Modalitร pseudo distribuita 3) Modalitร completamente distribuita.
26) Come garantire la sicurezza in Hadoop?
Per ottenere la sicurezza in Hadoop, procedere come segue:
1) Il primo passo รจ proteggere il canale di autenticazione del client rispetto al server. Fornire data e ora al cliente.
2) Nella seconda fase, il cliente utilizza la marca temporale ricevuta per richiedere a TGS un ticket di servizio.
3) Nell'ultimo passaggio, il client utilizza il ticket di servizio per l'autoautenticazione su un server specifico.
27) Cos'รจ il battito cardiaco in Hadoop?
In Hadoop, NameNode e DataNode comunicano tra loro. Heartbeat รจ il segnale inviato regolarmente da DataNode a NameNode per mostrare la sua presenza.
28) Distinguere tra NAS e DAS in Hadoop
| NAS | IL |
| La capacitร di archiviazione รจ 109 a 1012 in byte. | La capacitร di archiviazione รจ 109 in byte. |
| Il costo di gestione per GB รจ moderato. | Il costo di gestione per GB รจ elevato. |
| Trasmettere dati utilizzando Ethernet o TCP/IP. | Trasmettere dati utilizzando IDE/SCSI |
29) Elencare i campi o i linguaggi importanti utilizzati dall'ingegnere dei dati
Ecco alcuni campi o linguaggi utilizzati dal data engineer:
- Probabilitร e algebra lineare
- apprendimento automatico
- Analisi delle tendenze e regressione
- Database Hive QL e SQL
30) Cosa sono i Big Data?
Si tratta di una grande quantitร di dati strutturati e non strutturati, che non possono essere facilmente elaborati con i tradizionali metodi di archiviazione dei dati. Gli ingegneri dei dati utilizzano Hadoop per gestire i big data.
Domande di intervista per Data Engineer per esperti
31) Cos'รจ la programmazione FIFO?
ร un algoritmo di pianificazione dei lavori Hadoop. In questa pianificazione FIFO, un reporter seleziona i lavori da una coda di lavoro, iniziando dal lavoro piรน vecchio.
32) Menzionare i numeri di porta predefiniti su cui il task tracker, il NameNode e il job tracker vengono eseguiti in Hadoop
I numeri di porta predefiniti su cui vengono eseguiti task tracker, NameNode e job tracker in Hadoop sono i seguenti:
- Il tracker delle attivitร viene eseguito sulla porta 50060
- NameNode viene eseguito sulla porta 50070
- Job Tracker viene eseguito sulla porta 50030
33) Come disabilitare Block Scanner sul nodo dati HDFS
Per disabilitare Block Scanner sul nodo dati HDFS, imposta dfs.datanode.scan.period.hours su 0.
34) Come definire la distanza tra due nodi in Hadoop?
La distanza รจ uguale alla somma della distanza dai nodi piรน vicini. Il metodo getDistance() viene utilizzato per calcolare la distanza tra due nodi.
35) Perchรฉ utilizzare hardware di base in Hadoop?
L'hardware di base รจ facile da ottenere e conveniente. ร un sistema compatibile con Windows, MS-DOS o Linux.
36) Definire il fattore di replica in HDFS
Il fattore di replica รจ il numero totale di repliche di un file nel sistema.
37) Quali dati sono memorizzati in NameNode?
Namenode memorizza i metadati per HDFS come informazioni sui blocchi e informazioni sullo spazio dei nomi.
38) Cosa intendi per Rack Awareness?
Nel cluster Haddop, Namenode utilizza Datanode per migliorare il traffico di rete durante la lettura o la scrittura di qualsiasi file che si trova piรน vicino al rack vicino per la richiesta di lettura o scrittura. Namenode mantiene l'ID rack di ciascun DataNode per ottenere informazioni sul rack. Questo concetto รจ chiamato Rack Awareness in Hadoop.
39) Quali sono le funzioni del NameNode Secondario?
Di seguito sono riportate le funzioni di Secondary NameNode:
- FsImage che memorizza una copia del file EditLog e FsImage.
- Arresto anomalo del NameNode: se il NameNode si arresta in modo anomalo, รจ possibile utilizzare FsImage del NameNode secondario per ricreare il NameNode.
- Checkpoint: viene utilizzato dal NameNode secondario per confermare che i dati non sono danneggiati in HDFS.
- Aggiorna: aggiorna automaticamente il file EditLog e FsImage. Aiuta a mantenere aggiornato il file FsImage sul NameNode secondario.
40) Cosa succede quando NameNode รจ inattivo e l'utente invia un nuovo lavoro?
NameNode รจ il singolo punto di errore in Hadoop, quindi l'utente non puรฒ inviare un nuovo lavoro e non puรฒ essere eseguito. Se il NameNode รจ inattivo, il lavoro potrebbe non riuscire, poichรฉ l'utente deve attendere il riavvio di NameNode prima di eseguire qualsiasi lavoro.
41) Quali sono le fasi fondamentali del reducer in Hadoop?
Esistono tre fasi fondamentali di un riduttore in Hadoop:
1. Shuffle: qui Reducer copia l'output da Mapper.
2. Ordina: nell'ordinamento, Hadoop ordina l'input in Reducer utilizzando la stessa chiave.
3. Riduzione: in questa fase, i valori di output associati a una chiave vengono ridotti per consolidare i dati nell'output finale.
42) Perchรฉ Hadoop utilizza l'oggetto Context?
Il framework Hadoop usa l'oggetto Context con la classe Mapper per interagire con il sistema rimanente. L'oggetto Context ottiene i dettagli di configurazione del sistema e il job nel suo costruttore.
Usiamo l'oggetto Context per passare le informazioni nei metodi setup(), cleanup() e map(). Questo oggetto rende disponibili informazioni vitali durante le operazioni sulla mappa.
43) Definire il combinatore in Hadoop
ร un passaggio facoltativo tra Mappa e Riduci. Combiner prende l'output dalla funzione Map, crea coppie chiave-valore e invia a Hadoop Reducer. Il compito del combinatore รจ riassumere il risultato finale della mappa in record di riepilogo con una chiave identica.
44) Qual รจ il fattore di replica predefinito disponibile in HDFS Cosa indica?
Il fattore di replica predefinito disponibile in HDFS รจ tre. Il fattore di replica predefinito indica che ci saranno tre repliche di ciascun dato.
45) Cosa intendi con Localitร dei dati in Hadoop?
In un sistema Big Data, la dimensione dei dati รจ enorme ed รจ per questo che non ha senso spostare i dati attraverso la rete. Ora, Hadoop cerca di avvicinare il calcolo ai dati. In questo modo, i dati rimangono locali nella posizione memorizzata.
46) Definire il bilanciamento in HDFS
In HDFS, il bilanciatore รจ un sistema amministrativo utilizzato dal personale amministrativo per ribilanciare i dati tra i DataNode e spostare i blocchi dai nodi sovrautilizzati a quelli sottoutilizzati.
47) Spiegare la modalitร provvisoria in HDFS
ร una modalitร di sola lettura di NameNode in un cluster. Inizialmente, NameNode รจ in modalitร provvisoria. Impedisce la scrittura sul file system in modalitร provvisoria. In questo momento raccoglie dati e statistiche da tutti i DataNode.
48) Qual รจ l'importanza della cache distribuita in Apache Hadoop?
Hadoop dispone di un'utile funzionalitร di utilitร denominata Cache distribuita che migliora le prestazioni dei lavori memorizzando nella cache i file utilizzati dalle applicazioni. Un'applicazione puรฒ specificare un file per la cache utilizzando la configurazione JobConf.
Il framework Hadoop effettua la replica di questi file sui nodi su cui deve essere eseguita un'attivitร . Questa operazione viene eseguita prima dell'inizio dell'esecuzione dell'attivitร . La cache distribuita supporta la distribuzione di file di sola lettura, nonchรฉ di file zip e jar.
49) Cos'รจ Metastore in Hive?
Memorizza lo schema e la posizione della tabella Hive.
La tabella Hive definisce, mappature e metadati archiviati in Metastore. Questo puรฒ essere archiviato in RDBMS supportato da JPOX.
50) Cosa si intende per SerDe in Hive?
SerDe รจ un nome abbreviato per Serializzatore o Deserializzatore. In Hive, SerDe consente di leggere i dati dalla tabella e scrivere in un campo specifico in qualsiasi formato desiderato.
51) Elenca i componenti disponibili nel modello dati Hive
Il modello di dati Hive contiene i seguenti componenti:
- tavoli
- Partizioni
- Secchi
52) Spiegare l'uso di Hive nell'ecosistema Hadoop.
Hive fornisce un'interfaccia per gestire i dati archiviati nell'ecosistema Hadoop. Hive รจ utilizzato per la mappatura e il lavoro con le tabelle HBase. Le query di Hive vengono convertite in job MapReduce per nascondere la complessitร associata alla creazione e all'esecuzione di job MapReduce.
53) Elenca vari tipi/raccolte di dati complessi supportati da Hive
Hive supporta i seguenti tipi di dati complessi:
- Mappa
- struttura
- Italia
- Unione
54) Spiegare come viene utilizzato il file .hiverc in Hive?
In Hive, .hiverc รจ il file di inizializzazione. Questo file viene inizialmente caricato quando si avvia la Command Line Interface (CLI) per Hive. Possiamo impostare i valori iniziali dei parametri nel file .hiverc.
55) ร possibile creare piรน di una tabella in Hive per un singolo file di dati?
Sรฌ, possiamo creare piรน di uno schema di tabelle per un file di dati. Hive salva lo schema in Hive Metastore. Sulla base di questo schema, possiamo recuperare risultati diversi dagli stessi dati.
56) Spiegare le diverse implementazioni SerDe disponibili in Hive
Ci sono molte implementazioni SerDe disponibili in Hive. Puoi anche scrivere la tua implementazione SerDe personalizzata. Di seguito sono riportate alcune famose implementazioni SerDe:
- OpenCSVSerde
- RegexSerDe
- DelimitatoJSONSerDe
- ByteStreamTypedSerDe
57) Elenco delle funzioni di generazione della tabella disponibili in Hive
Di seguito รจ riportato un elenco delle funzioni di generazione delle tabelle:
- Esplodi (serie)
- JSON_tuple()
- Pila()
- Esplodi (mappa)
58) Cos'รจ una tabella inclinata in Hive?
Una tabella inclinata รจ una tabella che contiene valori di colonna piรน spesso. In Hive, quando specifichiamo una tabella come SKEWED durante la creazione, i valori distorti vengono scritti in file separati e i valori rimanenti vanno in un altro file.
59) Elenca gli oggetti creati dall'istruzione create in MySQL.
Oggetti creati dall'istruzione create in MySQL sono come segue:
- Banca Dati
- Indice
- Table
- Utente
- Procedura
- grilletto
- Event
- Visualizzare
- Funzione
60) Come vedere la struttura del database in MySQL?
Per vedere la struttura del database in MySQL, Puoi usare
Comando DESCRIVERE. La sintassi di questo comando รจ DESCRIBE Table name;.
Domande di intervista SQL per Data Engineer
61) Come cercare una stringa specifica in MySQL colonna della tabella?
Utilizzare l'operatore regex per cercare una stringa in MySQL colonna. Qui possiamo anche definire vari tipi di espressioni regolari e cercare utilizzando regex.
62) Spiegare come l'analisi dei dati e i big data possono aumentare i ricavi aziendali?
Di seguito sono riportati i modi in cui l'analisi dei dati e i big data possono aumentare i ricavi aziendali:
- Utilizzare i dati in modo efficiente per garantire la crescita del business.
- Aumentare il valore del cliente.
- Trasformazione analitica per migliorare le previsioni sui livelli di personale.
- Ridurre i costi di produzione delle organizzazioni.
Queste domande del colloquio ti aiuteranno anche nel tuo viva(orale)


