Le 30 principali domande dell'intervista HBase (2025)

Ecco le domande e le risposte al colloquio su Apache HBase per i candidati più freschi ed esperti che vogliono ottenere il lavoro dei loro sogni.

 

Domande e risposte all'intervista HBase per le matricole

1) Spiegare cos'è HBase?

HBase è un sistema di gestione di database orientato alle colonne che funziona su HDFS (Hadoop Distribute File System). HBase non è un archivio dati relazionale e non supporta il linguaggio di query strutturato come SQL.

In HBase, un nodo master regola il cluster e i server regionali per archiviare parti delle tabelle e gestire il lavoro sui dati.

👉 Download gratuito del PDF: domande e risposte all'intervista HBase


2) Spiegare perché utilizzare HBase?

  • Sistema di stoccaggio ad alta capacità
  • Design distribuito per ospitare tavole di grandi dimensioni
  • Negozi orientati alle colonne
  • Scalabile orizzontalmente
  • Alte prestazioni e disponibilità
  • L'obiettivo di base di HBase è di milioni di colonne, migliaia di versioni e miliardi di righe
  • A differenza di HDFS (Hadoop Distribute File System), supporta operazioni CRUD casuali in tempo reale

3) Menzionare quali sono i componenti chiave di HBase?

L'architettura HBase è composta principalmente dai seguenti componenti

  • Guardiano dello zoo: Fa il lavoro di coordinamento tra il client e HBase Maser
  • Maestro HBase: HBase Master monitora il Region Server
  • RegioneServer: RegionServer monitora la regione
  • Regione: Contiene in memoria l'archivio dati (MemStore) e Hfile.
  • Tabelle del catalogo: Le tabelle del catalogo sono costituite da ROOT e META
Base H Archidiagramma della struttura
Base H Archidiagramma della struttura

4) Spiegare in cosa consiste HBase?

  • Base H è costituito da una serie di tabelle
  • E ogni tabella contiene righe e colonne come il database tradizionale
  • Ogni tabella deve contenere un elemento definito come chiave primaria
  • La colonna HBase denota un attributo di un oggetto

5) Indica quanti comandi operativi in ​​HBase?

Ci sono principalmente cinque tipi di Operazionale comandi in HBase:

  • Ottieni
  • Mettere
  • Elimina
  • Scannerizzazione
  • Incremento
Domande per l'intervista HBase
Domande per l'intervista HBase

6) Spiega cosa sono WAL e Hlog in HBase?

WAL (Write Ahead Log) è simile a MySQL Registro BIN; registra tutte le modifiche apportate ai dati. È un file di sequenza standard di Hadoop e memorizza HLogkey. Queste chiavi sono costituite da un numero sequenziale e da dati effettivi e vengono utilizzate per riprodurre i dati non ancora persistenti dopo un arresto anomalo del server. Quindi, in caso di guasto del server, WAL funziona come un'ancora di salvezza e recupera i dati persi.


7) Quando dovresti usare HBase?

  • La dimensione dei dati è enorme: Quando hai tonnellate e milioni di record da gestire
  • Riprogettazione completa: Quando sposti RDBMS su HBase, lo consideri come una riprogettazione completa e non solo come una modifica delle porte
  • SQL-Less comandi: Hai diverse funzionalità come le transazioni; inner join, colonne tipizzate, ecc.
  • Investimento in infrastrutture: È necessario disporre di un cluster sufficiente affinché HBase sia davvero utile

8) In HBase cosa sono le famiglie di colonne?

Le famiglie di colonne costituiscono l'unità di base dell'archiviazione fisica in HBase a cui vengono applicate funzionalità come le compressioni.


9) Spiega qual è la chiave di riga?

La chiave di riga è definita dall'applicazione. Poiché la chiave combinata è preceduta dal rowkey, consente all'applicazione di definire l'ordinamento desiderato. Consente inoltre il raggruppamento logico delle celle e garantisce che tutte le celle con la stessa chiave di riga siano posizionate sullo stesso server.


10) Spiegare l'eliminazione in HBase? Menzionare quali sono i tre tipi di indicatori di lapide in HBase?

Quando si elimina la cella in HBase, i dati non vengono effettivamente eliminati ma viene impostato un indicatore di rimozione definitiva, rendendo invisibili le celle eliminate. Gli HBase eliminati vengono effettivamente rimossi durante le compattazioni.

Esistono tre tipi di indicatori di lapide:

  • Indicatore di eliminazione della versione: per l'eliminazione, contrassegna una singola versione di una colonna
  • Indicatore di eliminazione della colonna: per l'eliminazione, contrassegna tutte le versioni di una colonna
  • Indicatore di eliminazione della famiglia: per l'eliminazione, contrassegna tutte le colonne per una famiglia di colonne

11) Spiega come fa HBase effettivamente a eliminare una riga?

In HBase, tutto ciò che scrivi verrà archiviato dalla RAM al disco, queste scritture su disco sono immutabili salvo compattazione. Durante il processo di eliminazione in HBase, il processo di compattazione principale elimina il marcatore mentre le compattazioni minori no. Nelle eliminazioni normali, il risultato è un indicatore di rimozione definitiva: i dati di eliminazione che rappresentano vengono rimossi durante la compattazione.

Inoltre, se elimini dati e ne aggiungi altri, ma con un timestamp precedente a quello della rimozione definitiva, ulteriormente Ottiene potrebbe essere mascherato dal marcatore di eliminazione/rimozione definitiva e quindi non riceverai il valore inserito fino a dopo la compattazione principale.


12) Spiega cosa succede se modifichi la dimensione del blocco di una famiglia di colonne su un database già occupato?

Quando modifichi la dimensione del blocco della famiglia di colonne, i nuovi dati occupano la nuova dimensione del blocco mentre i vecchi dati rimangono all'interno della vecchia dimensione del blocco. Durante la compattazione dei dati, i vecchi dati assumeranno la nuova dimensione del blocco. I nuovi file man mano che vengono scaricati, avranno una nuova dimensione di blocco mentre i dati esistenti continueranno a essere letti correttamente. Tutti i dati dovrebbero essere trasformati nella nuova dimensione del blocco, dopo la successiva compattazione importante.


13) Menzionare la differenza tra HBase e database relazionale?

Ecco alcune importanti differenze tra Apache HBase e Database relazionale:

Base H Database relazionale
  • È senza schema
  • È un archivio dati orientato alle colonne
  • Viene utilizzato per archiviare dati denormalizzati
  • Contiene tabelle scarsamente popolate
  • Il partizionamento automatico viene eseguito in HBase
  • È un database basato su schema
  • È un archivio dati orientato alle righe
  • Viene utilizzato per memorizzare dati normalizzati
  • Contiene tabelle sottili
  • Non esiste tale disposizione o supporto integrato per il partizionamento

14) Cos'è la classe HBaseFsck?

In HBase è disponibile un nome strumento richiamato, implementato dalla classe HBaseFsck. Offre diverse opzioni della riga di comando che ne influenzano il comportamento.


Domande e risposte all'intervista HBase per esperti

15) Quali sono le principali strutture chiave di HBase?

La chiave di riga e la chiave di colonna sono le due strutture chiave più importanti utilizzate in HBase


16) Discuti su come utilizzare i filtri in Apache HBase

Filtri nella shell HBase. È stato introdotto in Apache HBase 0.92 che ti aiuta a condurre il filtraggio lato server per accedere a HBase su Guscio HBase o parsimonia.


17) HBase supporta la struttura della sintassi come SQL sì o no?

No Sfortunatamente, SQL il supporto per HBase non è attualmente disponibile. Tuttavia, utilizzando Apache Phoenix, possiamo recuperare i dati da HBase tramite query SQL.


18) Qual è il significato di compattazione in HBase?

In caso di pesanti scritture in entrata, è impossibile ottenere prestazioni ottimali avendo un file per archivio. HBase ti aiuta a combinare tutti questi HFile per ridurre il numero di seed del disco per ogni lettura. Questo processo è noto come compattazione in HBase.


19) Come implementerai i join in HBase?

HBase, non supporta direttamente i join ma utilizza MapReduce le query di join dei lavori possono essere implementate recuperando i dati con l'aiuto di diverse tabelle HBase.


20) Spiegare JMX riguardo all'HBSE

Java Management Extensions o JMX è uno stato di esportazione di Java applicazioni è lo standard per loro.


21) A cosa serve MasterServer?

Il server master ti aiuta anche ad assegnare una regione al server della regione. Ti aiuta anche a gestire il bilanciamento del carico che utilizziamo su MasterServer.


22) Definire il termine parsimonia

Apache Thrift è scritto in C++. Fornisce compilatori di schemi per vari linguaggi di programmazione come C++, Perl, PHP, Python, Ruby e altro ancora.


23) Perché utilizzare HColumnDescripto classe?

I dettagli relativi alla famiglia di colonne come le impostazioni di compressione e il numero di versioni vengono archiviati in HColumnDescripto.


24) Cos'è una cella in HBase?

Una cella in HBase è l'unità più piccola di un HBase tavolo. Ti aiuta a contenere un dato sotto forma di tupla{riga, colonna, versione}


25) Cos'è un filtro Bloom?

HBase supporta Bloom Filter ti aiuta a migliorare il throughput complessivo del cluster. Un filtro Bloom HBase è un meccanismo efficiente in termini di spazio per verificare se un HFile include determinate celle riga o riga-col.


26) Parlami dei tipi di HBase Operazioni?

Ris. Due tipi di HBase Operazioni sono:

  • Leggi Operaproduzione
  • Scrivi Operaproduzione

27) A cosa serve HBase HMaster?

Le principali responsabilità di un master sono:

  1. Coordinamento dei server regionali
  2. Funzioni di amministrazione

28) Quale tecnica puoi utilizzare in HBase per accedere direttamente a HFile senza l'aiuto di HBase?

Per accedere direttamente a HFile senza utilizzare HBase, utilizziamo il metodo HFile.main().


29) Il server regionale sarà posizionato su tutti i DataNode?

Sì, i Region Server vengono eseguiti sugli stessi server dei DataNode


30) Assegna un nome al filtro che accetta la dimensione della pagina come parametro in HBase

Un filtro denominato PageFilter accetta la dimensione della pagina come parametro.

Questo documento è stato composto con gli strumenti di conversione HTML istantanea.

Queste domande del colloquio ti aiuteranno anche nel tuo viva(orale)