Oltre 60 domande e risposte per interviste a Data Engineer nel 2025
Domande di intervista per Data Engineer per le matricole
1) Spiegare l'ingegneria dei dati.
Ingegneria dei dati è un termine utilizzato nei big data. Si concentra sull'applicazione della raccolta e della ricerca dei dati. I dati generati da varie fonti sono solo dati grezzi. L'ingegneria dei dati aiuta a convertire questi dati grezzi in informazioni utili.
2) Cos'è la modellazione dei dati?
Modellazione dei dati è il metodo di documentazione di un progetto software complesso come diagramma, in modo che chiunque possa comprenderlo facilmente. È una rappresentazione concettuale di oggetti dati associati tra vari oggetti dati e le regole.
3) Elencare vari tipi di schemi di progettazione nella modellazione dei dati
Esistono principalmente due tipi di schemi nella modellazione dei dati: 1) schema a stella e 2) schema a fiocco di neve.
4) Distinguere tra dati strutturati e non strutturati
Di seguito è riportata la differenza tra dati strutturati e non strutturati:
Parametro | Dati strutturati | Dati non strutturati |
---|---|---|
Archiviazione | DBMS | Strutture di file non gestite |
Standard | ADO.net, ODBC e SQL | STMP, XML, CSV e SMS |
Strumento di integrazione | ELT (Estrai, Trasforma, Carica) | Inserimento manuale dei dati o elaborazione batch che include codici |
scala | Il ridimensionamento dello schema è difficile | Il ridimensionamento è molto semplice. |
5) Spiegare tutti i componenti di un'applicazione Hadoop
Di seguito sono riportati i componenti dell'applicazione Hadoop:
- Hadoop comune: Si tratta di un insieme comune di utilità e librerie utilizzate da Hadoop.
- HDFS: Questa applicazione Hadoop si riferisce al file system in cui sono archiviati i dati Hadoop. È un file system distribuito con larghezza di banda elevata.
- Hadoop MapReduce: Si basa sull'algoritmo per la fornitura di elaborazione dati su larga scala.
- FILATO Hadoop: Viene utilizzato per la gestione delle risorse all'interno del cluster Hadoop. Può essere utilizzato anche per la pianificazione delle attività per gli utenti.
6) Cos'è NameNode?
È il fulcro di HDFS. Memorizza i dati di HDFS e tiene traccia di vari file nei cluster. In questo caso i dati effettivi non vengono memorizzati. I dati vengono archiviati nei DataNode.
7) Definire lo streaming Hadoop
È un'utilità che consente la creazione della mappa e riduce i lavori e li invia ad un cluster specifico.
8) Qual è la forma completa di HDFS?
HDFS sta per Hadoop Distributed File System.
9) Definire il blocco e lo scanner del blocco in HDFS
I blocchi sono l'unità più piccola di un file di dati. Hadoop divide automaticamente file enormi in piccoli pezzi.
Block Scanner verifica l'elenco dei blocchi presentati su un DataNode.
10) Quali sono i passaggi che si verificano quando Block Scanner rileva un blocco di dati danneggiato?
Di seguito sono riportati i passaggi che si verificano quando Block Scanner rileva un blocco dati danneggiato:
1) Prima di tutto, quando Block Scanner trova un blocco dati danneggiato, DataNode segnala a NameNode
2) NameNode avvia il processo di creazione di una nuova replica utilizzando una replica del blocco danneggiato.
3) Il conteggio delle repliche corrette tenta di corrispondere al fattore di replica. Se la corrispondenza trovata è danneggiata, il blocco dati non verrà eliminato.
11) Nomina due messaggi che NameNode riceve da DataNode?
Ci sono due messaggi che NameNode riceve da DataNode. Sono 1) Rapporto di blocco e 2) Battito cardiaco.
12) Elencare vari file di configurazione XML in Hadoop?
Esistono cinque file di configurazione XML in Hadoop:
- Sito Mapred
- Sito principale
- Sito HDFS
- Sito del filato
13) Quali sono le quattro V dei big data?
Le quattro V dei big data sono:
- Velocità
- Variety
- Volume
- veracità
14) Spiegare le caratteristiche di Hadoop
Le caratteristiche importanti di Hadoop sono:
- È un framework open source disponibile gratuitamente.
- Hadoop è compatibile con numerosi tipi di hardware ed è facile accedere al nuovo hardware all'interno di un nodo specifico.
- Hadoop supporta l'elaborazione dei dati distribuita più rapidamente.
- Memorizza i dati nel cluster, che è indipendente dal resto delle operazioni.
- Hadoop consente di creare 3 repliche per ciascun blocco con nodi diversi.
15) Spiegare i principali metodi di Reducer
- setup(): viene utilizzato per configurare parametri come la dimensione dei dati di input e la cache distribuita.
- cleanup(): questo metodo viene utilizzato per pulire i file temporanei.
- reduce(): è un cuore del riduttore che viene chiamato una volta per tasto con il compito ridotto associato
16) Qual è l'abbreviazione di COSHH?
L'abbreviazione COSHH sta per Classification and Optimization based Schedule for Heterogeneous Hadoop systems.
17) Spiegare lo schema stellare
Schema a stella o Star Join Schema è il tipo più semplice di schema Data Warehouse. È noto come schema a stella perché la sua struttura è come una stella. Nello schema a stella, il centro della stella può avere una tabella dei fatti e più tabelle delle dimensioni associate. Questo schema viene utilizzato per eseguire query su set di dati di grandi dimensioni.
18) Come implementare una soluzione Big Data?
Per implementare una soluzione Big Data, seguire i passaggi seguenti.
1) Integrare i dati utilizzando origini dati come RDBMS, SAP, MySQL, Salesforce
2) Archiviare i dati estratti nel database NoSQL o HDFS.
3) Distribuire una soluzione per big data utilizzando framework di elaborazione come Pig, Sparke MapReduce.
19) Spiegare FSCK
File System Check o FSCK è il comando utilizzato da HDFS. Il comando FSCK viene utilizzato per verificare incoerenze e problemi nel file.
20) Spiegare lo schema del fiocco di neve
A Schema del fiocco di neve è un'estensione di uno schema a stella e aggiunge dimensioni aggiuntive. È chiamato fiocco di neve perché il suo diagramma assomiglia a un fiocco di neve. Le tabelle delle dimensioni sono normalizzate, ovvero suddividono i dati in tabelle aggiuntive.
21) Distinguere tra schema a stella e a fiocco di neve
Stella | Schema del fiocco di neve |
Le gerarchie delle dimensioni sono memorizzate nella tabella dimensionale. | Ogni gerarchia viene archiviata in tabelle separate. |
Le probabilità di ridondanza dei dati sono elevate | Le probabilità di ridondanza dei dati sono basse. |
Ha un design DB molto semplice | Ha un design DB complesso |
Fornire un modo più veloce per l'elaborazione dei cubi | L'elaborazione del cubo è lenta a causa della giunzione complessa. |
22) Spiegare il file system distribuito Hadoop
Hadoop funziona con file system distribuiti scalabili come S3, HFTP FS, FS e HDFS. Il file system distribuito Hadoop è realizzato sul file system di Google. Questo file system è progettato in modo tale da poter essere facilmente eseguito su un cluster di grandi dimensioni del sistema informatico.
23) Spiegare le principali responsabilità di un data engineer
Gli ingegneri dei dati hanno molte responsabilità. Gestiscono il sistema sorgente dei dati. Gli ingegneri dei dati semplificano la struttura dei dati complessa e impediscono la duplicazione dei dati. Molte volte forniscono anche ELT e trasformazione dei dati.
24) Qual è la forma completa di YARN?
La forma completa di YARN è Yet Another Resource Negotiator.
25) Elenca le varie modalità in Hadoop
Le modalità in Hadoop sono 1) Modalità standalone 2) Modalità pseudo distribuita 3) Modalità completamente distribuita.
26) Come garantire la sicurezza in Hadoop?
Per ottenere la sicurezza in Hadoop, procedere come segue:
1) Il primo passo è proteggere il canale di autenticazione del client rispetto al server. Fornire data e ora al cliente.
2) Nella seconda fase, il cliente utilizza la marca temporale ricevuta per richiedere a TGS un ticket di servizio.
3) Nell'ultimo passaggio, il client utilizza il ticket di servizio per l'autoautenticazione su un server specifico.
27) Cos'è il battito cardiaco in Hadoop?
In Hadoop, NameNode e DataNode comunicano tra loro. Heartbeat è il segnale inviato regolarmente da DataNode a NameNode per mostrare la sua presenza.
28) Distinguere tra NAS e DAS in Hadoop
NAS | IL |
La capacità di archiviazione è 109 a 1012 in byte. | La capacità di archiviazione è 109 in byte. |
Il costo di gestione per GB è moderato. | Il costo di gestione per GB è elevato. |
Trasmettere dati utilizzando Ethernet o TCP/IP. | Trasmettere dati utilizzando IDE/SCSI |
29) Elencare i campi o i linguaggi importanti utilizzati dall'ingegnere dei dati
Ecco alcuni campi o linguaggi utilizzati dal data engineer:
- Probabilità e algebra lineare
- apprendimento automatico
- Analisi delle tendenze e regressione
- Database Hive QL e SQL
30) Cosa sono i Big Data?
Si tratta di una grande quantità di dati strutturati e non strutturati, che non possono essere facilmente elaborati con i tradizionali metodi di archiviazione dei dati. Gli ingegneri dei dati utilizzano Hadoop per gestire i big data.
Domande di intervista per Data Engineer per esperti
31) Cos'è la programmazione FIFO?
È un algoritmo di pianificazione dei lavori Hadoop. In questa pianificazione FIFO, un reporter seleziona i lavori da una coda di lavoro, iniziando dal lavoro più vecchio.
32) Menzionare i numeri di porta predefiniti su cui il task tracker, il NameNode e il job tracker vengono eseguiti in Hadoop
I numeri di porta predefiniti su cui vengono eseguiti task tracker, NameNode e job tracker in Hadoop sono i seguenti:
- Il tracker delle attività viene eseguito sulla porta 50060
- NameNode viene eseguito sulla porta 50070
- Job Tracker viene eseguito sulla porta 50030
33) Come disabilitare Block Scanner sul nodo dati HDFS
Per disabilitare Block Scanner sul nodo dati HDFS, imposta dfs.datanode.scan.period.hours su 0.
34) Come definire la distanza tra due nodi in Hadoop?
La distanza è uguale alla somma della distanza dai nodi più vicini. Il metodo getDistance() viene utilizzato per calcolare la distanza tra due nodi.
35) Perché utilizzare hardware di base in Hadoop?
L'hardware di base è facile da ottenere e conveniente. È un sistema compatibile con Windows, MS-DOS o Linux.
36) Definire il fattore di replica in HDFS
Il fattore di replica è il numero totale di repliche di un file nel sistema.
37) Quali dati sono memorizzati in NameNode?
Namenode memorizza i metadati per HDFS come informazioni sui blocchi e informazioni sullo spazio dei nomi.
38) Cosa intendi per Rack Awareness?
Nel cluster Haddop, Namenode utilizza Datanode per migliorare il traffico di rete durante la lettura o la scrittura di qualsiasi file che si trova più vicino al rack vicino per la richiesta di lettura o scrittura. Namenode mantiene l'ID rack di ciascun DataNode per ottenere informazioni sul rack. Questo concetto è chiamato Rack Awareness in Hadoop.
39) Quali sono le funzioni del NameNode Secondario?
Di seguito sono riportate le funzioni di Secondary NameNode:
- FsImage che memorizza una copia del file EditLog e FsImage.
- Arresto anomalo del NameNode: se il NameNode si arresta in modo anomalo, è possibile utilizzare FsImage del NameNode secondario per ricreare il NameNode.
- Checkpoint: viene utilizzato dal NameNode secondario per confermare che i dati non sono danneggiati in HDFS.
- Aggiorna: aggiorna automaticamente il file EditLog e FsImage. Aiuta a mantenere aggiornato il file FsImage sul NameNode secondario.
40) Cosa succede quando NameNode è inattivo e l'utente invia un nuovo lavoro?
NameNode è il singolo punto di errore in Hadoop, quindi l'utente non può inviare un nuovo lavoro e non può essere eseguito. Se il NameNode è inattivo, il lavoro potrebbe non riuscire, poiché l'utente deve attendere il riavvio di NameNode prima di eseguire qualsiasi lavoro.
41) Quali sono le fasi fondamentali del reducer in Hadoop?
Esistono tre fasi fondamentali di un riduttore in Hadoop:
1. Shuffle: qui Reducer copia l'output da Mapper.
2. Ordina: nell'ordinamento, Hadoop ordina l'input in Reducer utilizzando la stessa chiave.
3. Riduzione: in questa fase, i valori di output associati a una chiave vengono ridotti per consolidare i dati nell'output finale.
42) Perché Hadoop utilizza l'oggetto Context?
Il framework Hadoop usa l'oggetto Context con la classe Mapper per interagire con il sistema rimanente. L'oggetto Context ottiene i dettagli di configurazione del sistema e il job nel suo costruttore.
Usiamo l'oggetto Context per passare le informazioni nei metodi setup(), cleanup() e map(). Questo oggetto rende disponibili informazioni vitali durante le operazioni sulla mappa.
43) Definire il combinatore in Hadoop
È un passaggio facoltativo tra Mappa e Riduci. Combiner prende l'output dalla funzione Map, crea coppie chiave-valore e invia a Hadoop Reducer. Il compito del combinatore è riassumere il risultato finale della mappa in record di riepilogo con una chiave identica.
44) Qual è il fattore di replica predefinito disponibile in HDFS Cosa indica?
Il fattore di replica predefinito disponibile in HDFS è tre. Il fattore di replica predefinito indica che ci saranno tre repliche di ciascun dato.
45) Cosa intendi con Località dei dati in Hadoop?
In un sistema Big Data, la dimensione dei dati è enorme ed è per questo che non ha senso spostare i dati attraverso la rete. Ora, Hadoop cerca di avvicinare il calcolo ai dati. In questo modo, i dati rimangono locali nella posizione memorizzata.
46) Definire il bilanciamento in HDFS
In HDFS, il bilanciatore è un sistema amministrativo utilizzato dal personale amministrativo per ribilanciare i dati tra i DataNode e spostare i blocchi dai nodi sovrautilizzati a quelli sottoutilizzati.
47) Spiegare la modalità provvisoria in HDFS
È una modalità di sola lettura di NameNode in un cluster. Inizialmente, NameNode è in modalità provvisoria. Impedisce la scrittura sul file system in modalità provvisoria. In questo momento raccoglie dati e statistiche da tutti i DataNode.
48) Qual è l'importanza della cache distribuita in Apache Hadoop?
Hadoop dispone di un'utile funzionalità di utilità denominata Cache distribuita che migliora le prestazioni dei lavori memorizzando nella cache i file utilizzati dalle applicazioni. Un'applicazione può specificare un file per la cache utilizzando la configurazione JobConf.
Il framework Hadoop effettua la replica di questi file sui nodi su cui deve essere eseguita un'attività. Questa operazione viene eseguita prima dell'inizio dell'esecuzione dell'attività. La cache distribuita supporta la distribuzione di file di sola lettura, nonché di file zip e jar.
49) Cos'è Metastore in Hive?
Memorizza lo schema e la posizione della tabella Hive.
La tabella Hive definisce, mappature e metadati archiviati in Metastore. Questo può essere archiviato in RDBMS supportato da JPOX.
50) Cosa si intende per SerDe in Hive?
SerDe è un nome abbreviato per Serializzatore o Deserializzatore. In Hive, SerDe consente di leggere i dati dalla tabella e scrivere in un campo specifico in qualsiasi formato desiderato.
51) Elenca i componenti disponibili nel modello dati Hive
Il modello di dati Hive contiene i seguenti componenti:
- tavoli
- Partizioni
- Secchi
52) Spiegare l'uso di Hive nell'ecosistema Hadoop.
Hive fornisce un'interfaccia per gestire i dati archiviati nell'ecosistema Hadoop. Hive è utilizzato per la mappatura e il lavoro con le tabelle HBase. Le query di Hive vengono convertite in job MapReduce per nascondere la complessità associata alla creazione e all'esecuzione di job MapReduce.
53) Elenca vari tipi/raccolte di dati complessi supportati da Hive
Hive supporta i seguenti tipi di dati complessi:
- Mappa
- struttura
- Italia
- Unione
54) Spiegare come viene utilizzato il file .hiverc in Hive?
In Hive, .hiverc è il file di inizializzazione. Questo file viene inizialmente caricato quando si avvia la Command Line Interface (CLI) per Hive. Possiamo impostare i valori iniziali dei parametri nel file .hiverc.
55) È possibile creare più di una tabella in Hive per un singolo file di dati?
Sì, possiamo creare più di uno schema di tabelle per un file di dati. Hive salva lo schema in Hive Metastore. Sulla base di questo schema, possiamo recuperare risultati diversi dagli stessi dati.
56) Spiegare le diverse implementazioni SerDe disponibili in Hive
Ci sono molte implementazioni SerDe disponibili in Hive. Puoi anche scrivere la tua implementazione SerDe personalizzata. Di seguito sono riportate alcune famose implementazioni SerDe:
- OpenCSVSerde
- RegexSerDe
- DelimitatoJSONSerDe
- ByteStreamTypedSerDe
57) Elenco delle funzioni di generazione della tabella disponibili in Hive
Di seguito è riportato un elenco delle funzioni di generazione delle tabelle:
- Esplodi (serie)
- JSON_tuple()
- Pila()
- Esplodi (mappa)
58) Cos'è una tabella inclinata in Hive?
Una tabella inclinata è una tabella che contiene valori di colonna più spesso. In Hive, quando specifichiamo una tabella come SKEWED durante la creazione, i valori distorti vengono scritti in file separati e i valori rimanenti vanno in un altro file.
59) Elenca gli oggetti creati dall'istruzione create in MySQL.
Oggetti creati dall'istruzione create in MySQL sono come segue:
- Banca Dati
- Indice
- Table
- Utente
- Procedura
- grilletto
- Evento
- Visualizza
- Funzione
60) Come vedere la struttura del database in MySQL?
Per vedere la struttura del database in MySQL, Puoi usare
Comando DESCRIVERE. La sintassi di questo comando è DESCRIBE Table name;
.
Domande di intervista SQL per Data Engineer
61) Come cercare una stringa specifica in MySQL colonna della tabella?
Utilizzare l'operatore regex per cercare una stringa in MySQL colonna. Qui possiamo anche definire vari tipi di espressioni regolari e cercare utilizzando regex.
62) Spiegare come l'analisi dei dati e i big data possono aumentare i ricavi aziendali?
Di seguito sono riportati i modi in cui l'analisi dei dati e i big data possono aumentare i ricavi aziendali:
- Utilizzare i dati in modo efficiente per garantire la crescita del business.
- Aumentare il valore del cliente.
- Trasformazione analitica per migliorare le previsioni sui livelli di personale.
- Ridurre i costi di produzione delle organizzazioni.
Queste domande del colloquio ti aiuteranno anche nel tuo viva(orale)