60+ sollicitatievragen en antwoorden voor data-ingenieurs in 2024

Hier zijn de interviewvragen en antwoorden op het gebied van Data Engineering voor zowel nieuwere als ervaren data-ingenieurkandidaten om hun droombaan te krijgen.

 

Sollicitatievragen voor Data Engineer voor eerstejaarsstudenten

1) Leg data-engineering uit.

Data-engineering is een term die wordt gebruikt in big data. Het richt zich op de toepassing van dataverzameling en onderzoek. De gegevens die uit verschillende bronnen worden gegenereerd, zijn slechts ruwe gegevens. Data engineering helpt deze ruwe data om te zetten in bruikbare informatie.


2) Wat is datamodellering?

Datamodellering is de methode voor het documenteren van complex softwareontwerp als een diagram, zodat iedereen het gemakkelijk kan begrijpen. Het is een conceptuele weergave van data-objecten die verband houden tussen verschillende data-objecten en de regels.

Gegevensmodellering


3) Noem verschillende soorten ontwerpschema's in gegevensmodellering

Er zijn hoofdzakelijk twee soorten schema's bij datamodellering: 1) Sterschema en 2) Sneeuwvlokschema.


4) Maak onderscheid tussen gestructureerde en ongestructureerde data

Following is een verschil tussen gestructureerde en ongestructureerde gegevens:

Parameter Gestructureerde gegevens Ongestructureerde gegevens
Opbergen dbms Onbeheerde bestandsstructuren
Standaard ADO.net, ODBC en SQL STMP, XML, CSV en SMS
Integratiehulpmiddel ELT (Extraheren, Transformeren, Laden) Handmatige gegevensinvoer of batchverwerking inclusief codes
scaling Het schalen van schema's is moeilijk Schalen is heel eenvoudig.

5) Leg alle componenten van een Hadoop-applicatie uit

Following de componenten van de Hadoop-applicatie:

Hadoop EcoSsysteem en componenten

  • Hadoop algemeen: Het is een algemene set hulpprogramma's en bibliotheken die door Hadoop worden gebruikt.
  • HDFS: Deze Hadoop-applicatie heeft betrekking op het bestandssysteem waarin de Hadoop-gegevens zijn opgeslagen. Het is een gedistribueerd bestandssysteem met een hoge bandbreedte.
  • Hadoop-kaartVerminderen: Het is gebaseerd op het algoritme voor het aanbieden van grootschalige gegevensverwerking.
  • Hadoop-garen: Het wordt gebruikt voor resourcebeheer binnen het Hadoop-cluster. Het kan ook worden gebruikt voor taakplanning voor gebruikers.

6) Wat is NameNode?

Het is het middelpunt van HDFS. Het slaat gegevens van HDFS op en volgt verschillende bestanden in de clusters. Hier worden de feitelijke gegevens niet opgeslagen. De gegevens worden opgeslagen in DataNodes.


7) Definieer Hadoop-streaming

Het is een hulpprogramma waarmee u een kaart kunt maken en banen kunt verminderen en deze kunt indienen bij een specifiek cluster.


8) Wat is de volledige vorm van HDFS?

HDFS staat voor Hadoop Distributed File System.


9) Definieer Blok en Blokscanner in HDFS

Blokken zijn de kleinste eenheid van een gegevensbestand. Hadoop splitst grote bestanden automatisch in kleine stukjes.

Block Scanner verifieert de lijst met blokken die op een DataNode worden gepresenteerd.


10) Wat zijn de stappen die plaatsvinden wanneer Block Scanner een beschadigd datablok detecteert?

Following zijn de stappen die plaatsvinden wanneer Block Scanner een beschadigd datablok vindt:

1) Allereerst, wanneer Block Scanner een beschadigd datablok vindt, rapporteert DataNode aan NameNode

2) NameNode start het proces van het maken van een nieuwe replica met behulp van een replica van het beschadigde blok.

3) Het aantal replicaties van de juiste replica's probeert overeen te komen met de replicatiefactor. Als de match gevonden wordt, wordt het beschadigde datablok niet verwijderd.


11) Noem twee berichten die NameNode ontvangt van DataNode?

Er zijn twee berichten die NameNode ontvangt van DataNode. Dit zijn 1) Blokrapport en 2) Hartslag.


12) Maak een lijst van verschillende XML-configuratiebestanden in Hadoop?

Er zijn vijf XML-configuratiebestanden in Hadoop:

  • Mapred-site
  • Kern-site
  • HDFS-site
  • Garen-site

13) Wat zijn de vier V’s van big data?

Vier V’s van big data zijn:

  • Snelheid
  • Verscheidenheid
  • Volume
  • Betrouwbaarheid

14) Leg de kenmerken van Hadoop uit

Belangrijke kenmerken van Hadoop zijn:

  • Het is een open-sourceframework dat freeware beschikbaar is.
  • Hadoop is compatibel met de vele soorten hardware en gemakkelijk toegang tot nieuwe hardware binnen een specifiek knooppunt.
  • Hadoop ondersteunt een sneller gedistribueerde verwerking van gegevens.
  • Het slaat de gegevens op in het cluster, dat onafhankelijk is van de rest van de bewerkingen.
  • Met Hadoop kunt u voor elk blok met verschillende knooppunten 3 replica's maken.

15) Leg de belangrijkste methoden van Reducer uit

  • setup (): Het wordt gebruikt voor het configureren van parameters zoals de grootte van invoergegevens en gedistribueerde cache.
  • cleanup(): Deze methode wordt gebruikt om tijdelijke bestanden op te schonen.
  • reduce(): Het is een hart van de reducer die één keer per sleutel wordt aangeroepen met de bijbehorende verminderde taak

16) Wat is de afkorting van COSHH?

De afkorting van COSHH is Classification and Optimization Based Schedule for Heterogeneoons Hadoop-systemen.


17) Leg het sterrenschema uit

Sterrenschema of Star Join Schema is het eenvoudigste type Data Warehouse-schema. Het staat bekend als een sterrenschema omdat de structuur op een ster lijkt. In het Ster-schema kan het midden van de ster één feitentabel en meerdere bijbehorende dimensietabellen hebben. Dit schema wordt gebruikt voor het opvragen van grote gegevenssets.


18) Hoe implementeer je een big data-oplossing?

Volg het vervolgwing stappen om een ​​big data-oplossing te implementeren.

1) Integreer gegevens met behulp van gegevensbronnen zoals RDBMS, SAP, MySQL, Salesforce
2) Bewaar gegevensgeëxtraheerde gegevens in een NoSQL-database of HDFS.
3) Implementeer een big data-oplossing met behulp van verwerkingsframeworks zoals Pig, Sparken MapReduce.


19) Leg FSCK uit

Bestandssysteemcontrole of FSCK is een opdracht die door HDFS wordt gebruikt. De FSCK-opdracht wordt gebruikt om inconsistenties en problemen in het bestand te controleren.


20) Leg het Sneeuwvlokschema uit

A Sneeuwvlokschema is een uitbreiding van een sterrenschema en voegt extra dimensies toe. Het wordt sneeuwvlok genoemd omdat het diagram op een sneeuwvlok lijkt. De dimensietabellen zijn genormaliseerd, waardoor gegevens in extra tabellen worden opgesplitst.


21) Onderscheid maken tussen ster- en sneeuwvlokschema

Ster SnowFlake-schema
Afmetingen hierarchies worden opgeslagen in een dimensionale tabel. Elke hiërarchie wordt opgeslagen in afzonderlijke tabellen.
De kans op gegevensredundantie is groot De kans op gegevensredundantie is klein.
Het heeft een heel eenvoudig DB-ontwerp Het heeft een complex DB-ontwerp
Zorg voor een snellere manier voor kubusverwerking De verwerking van kubussen is traag vanwege de complex meedoen.

22) Leg het gedistribueerde Hadoop-bestandssysteem uit

Hadoop werkt met schaalbare gedistribueerde bestandssystemen zoals S3, HFTP FS, FS en HDFS. Hadoop Distributed File System is gemaakt op het Google File System. Dit bestandssysteem is zo ontworpen dat het gemakkelijk op een groot cluster van het computersysteem kan worden uitgevoerd.


23) Leg de belangrijkste verantwoordelijkheden van een data-ingenieur uit

Data-ingenieurs hebben veel verantwoordelijkheden. Zij beheren het bronsysteem van gegevens. Data-ingenieurs vereenvoudigen complex gegevensstructuur en voorkomt u dat gegevens opnieuw worden gedupliceerd. Vaak bieden ze ook ELT en datatransformatie.


24) Wat is de volledige vorm van YARN?

De volledige vorm van YARN is Yet Another Resource Negotiator.


25) Noem verschillende modi in Hadoop

Modi in Hadoop zijn 1) Standalone-modus 2) Pseudo-gedistribueerde modus 3) Volledig gedistribueerde modus.


26) Hoe bereik je veiligheid in Hadoop?

Voer het volgende uitwing stappen om veiligheid in Hadoop te bereiken:

1) De eerste stap is het beveiligen van het authenticatiekanaal van de client naar de server. Geef een tijdstempel aan de klant.
2) In de tweede stap gebruikt de klant de ontvangen tijdstempel om TGS om een ​​serviceticket aan te vragen.
3) In de laatste stap gebruikt de client een serviceticket voor zelfauthenticatie bij een specifieke server.


27) Wat is hartslag in Hadoop?

In Hadoop communiceren NameNode en DataNode met elkaar. Heartbeat is het signaal dat DataNode regelmatig naar NameNode stuurt om zijn aanwezigheid aan te tonen.


28) Onderscheid maken tussen NAS en DAS in Hadoop

NAS DAS
De opslagcapaciteit bedraagt ​​109 naar 1012 in bytes. De opslagcapaciteit bedraagt ​​109 in bytes.
De beheerkosten per GB zijn gematigd. De beheerkosten per GB zijn hoog.
Verzend gegevens via Ethernet of TCP/IP. Verzend gegevens met behulp van IDE/SCSI

29) Maak een lijst van belangrijke velden of talen die door de data-engineer worden gebruikt

Hier zijn een paar velden of talen die door data engineer worden gebruikt:

  • Waarschijnlijkheid en lineaire algebra
  • machine learning
  • Trendanalyse en regressie
  • Hive QL- en SQL-databases

30) Wat zijn bigdata?

Het is een grote hoeveelheid gestructureerde en ongestructureerde data, die niet eenvoudig kan worden verwerkt met traditionele methoden voor gegevensopslag. Data-ingenieurs gebruiken Hadoop om big data te beheren.


Sollicitatievragen voor Data Engineer voor ervaren

31) Wat is FIFO-planning?

Het is een Hadoop-algoritme voor taakplanning. Bij deze FIFO-planning selecteert een verslaggever opdrachten uit een werkvoorraad, waarbij de oudste opdracht bovenaan staat.


32) Vermeld standaard poortnummers waarop task tracker, NameNode en job tracker draaien in Hadoop

Standaard poortnummers waarop task tracker, NameNode en job tracker draaien in Hadoop zijn als volgt:

  • Task tracker draait op poort 50060
  • NameNode draait op poort 50070
  • Job Tracker draait op poort 50030

33) Blokscanner uitschakelen op HDFS Data Node

Om Block Scanner op HDFS Data Node uit te schakelen, stelt u dfs.datanode.scan.period.hours in op 0.


34) Hoe definieer ik de afstand tussen twee knooppunten in Hadoop?

De afstand is gelijk aan de som van de afstand tot de dichtstbijzijnde knooppunten. De methode getDistance() wordt gebruikt om de afstand tussen twee knooppunten te berekenen.


35) Waarom commodity-hardware gebruiken in Hadoop?

Basishardware is gemakkelijk te verkrijgen en betaalbaar. Het is een systeem dat compatibel is met Windows, MS-DOS of Linux.


36) Definieer de replicatiefactor in HDFS

Replicatiefactor is het totale aantal replica's van een bestand in het systeem.


37) Welke gegevens worden in NameNode opgeslagen?

Namenode slaat de metagegevens voor de HDFS op, zoals blokinformatie en naamruimte-informatie.


38) Wat bedoel je met Rackbewustzijn?

In het Haddop-cluster gebruikt Namenode de Datanode om het netwerkverkeer te verbeteren tijdens het lezen of schrijven van elk bestand dat zich dichter bij het nabijgelegen rack bevindt, naar een lees- of schrijfverzoek. Namenode onderhoudt de rack-ID van elke DataNode om rackinformatie te verkrijgen. Dit concept wordt Rack Awareness genoemd in Hadoop.


39) Wat zijn de functies van Secondary NameNode?

Following zijn de functies van Secondary NameNode:

  • FsImage waarin een kopie van het EditLog- en FsImage-bestand wordt opgeslagen.
  • NameNode crash: Als de NameNode crasht, kan de FsImage van de secundaire NameNode worden gebruikt om de NameNode opnieuw te maken.
  • Controlepunt: Het wordt gebruikt door Secondary NameNode om te bevestigen dat gegevens niet beschadigd zijn in HDFS.
  • Update: Het werkt automatisch het EditLog- en FsImage-bestand bij. Het helpt om het FsImage-bestand op Secondary NameNode bijgewerkt te houden.

40) Wat gebeurt er als NameNode offline is en de gebruiker een nieuwe taak indient?

NameNode is het enige storingspunt in Hadoop, zodat de gebruiker geen nieuwe taak kan indienen en niet kan uitvoeren. Als de NameNode niet beschikbaar is, kan de taak mislukken, omdat deze gebruiker moet wachten tot NameNode opnieuw is opgestart voordat hij een taak uitvoert.


41) Wat zijn de basisfasen van reducer in Hadoop?

Er zijn drie basisfasen van een verloopstuk in Hadoop:

1. Shuffle: Hier kopieert Reducer de uitvoer van Mapper.

2. Sorteren: Bij sorteren sorteert Hadoop de invoer naar Reducer met dezelfde sleutel.

3. Reduceren: In deze fase worden de uitvoerwaarden die aan een sleutel zijn gekoppeld, gereduceerd om de gegevens in de uiteindelijke uitvoer te consolideren.


42) Waarom Hadoop het Context-object gebruikt?

Het Hadoop-framework gebruikt het Context-object met de Mapper-klasse om te communiceren met het resterende systeem. Contextobject haalt de systeemconfiguratie de optails en baan in de constructor.

We gebruiken het Context-object om de informatie door te geven in de methoden setup(), cleanup() en map(). Dit object maakt essentiële informatie beschikbaar tijdens de kaartbewerkingen.


43) Definieer Combiner in Hadoop

Het is een optionele stap tussen Map en Reduce. Combiner neemt de uitvoer van de Map-functie, creëert sleutelwaardeparen en verzendt deze naar Hadoop Reducer. De taak van Combiner is om het eindresultaat van Map samen te vatten in samenvattende records met een identieke sleutel.


44) Wat is de standaardreplicatiefactor die beschikbaar is in HDFS Wat geeft dit aan?

De standaardreplicatiefactor die beschikbaar is in HDFS is drie. De standaardreplicatiefactor geeft aan dat er drie replica's van elke gegevens zullen zijn.


45) Wat bedoel je met datalokaliteit in Hadoop?

In een Big Data-systeem is de omvang van de data enorm, en daarom heeft het geen zin om data over het netwerk te verplaatsen. Nu probeert Hadoop berekeningen dichter bij data te brengen. Op deze manier blijven de gegevens lokaal op de opgeslagen locatie.


46) Definieer Balancer in HDFS

In HDFS is de balancer een beheerder die door beheerders wordt gebruikt om gegevens over DataNodes opnieuw in evenwicht te brengen en blokken te verplaatsen van overbenutte naar onderbenutte knooppunten.


47) Leg de veilige modus in HDFS uit

Het is een alleen-lezenmodus van NameNode in een cluster. Aanvankelijk bevindt NameNode zich in de veilige modus. Het voorkomt schrijven naar het bestandssysteem in de veilige modus. Op dit moment verzamelt het gegevens en statistieken van alle DataNodes.


48) Wat is het belang van gedistribueerde cache in Apache Hadoop?

Hadoop heeft een handige hulpprogramma-functie, genaamd Distributed Cache, die de prestaties van taken verbetert door de bestanden die door applicaties worden gebruikt in de cache op te slaan. Een toepassing kan een bestand voor de cache opgeven met behulp van de JobConf-configuratie.

Het Hadoop-framework maakt een replica van deze bestanden naar de knooppunten waarop een taak moet worden uitgevoerd. Dit gebeurt voordat de uitvoering van de taak begint. Distributed Cache ondersteunt de distributie van alleen-lezen bestanden, evenals zip- en jars-bestanden.


49) Wat is Metastore in Hive?

Het slaat zowel het schema als de Hive-tabellocatie op.

Hive-tabeldefinities, toewijzingen en metagegevens die zijn opgeslagen in Metastore. Dit kan worden opgeslagen in RDBMS dat wordt ondersteund door JPOX.


50) Wat bedoelen we met SerDe in Hive?

SerDe is een korte naam voor Serializer of Deserializer. In Hive maakt SerDe het mogelijk om gegevens uit een tabel te lezen en naar een specifiek veld te schrijven in elk gewenst formaat.


51) Lijst met componenten die beschikbaar zijn in het Hive-gegevensmodel

Er zijn de volgendewing componenten in het Hive-gegevensmodel:

  • Tafels
  • Wanden
  • Emmers

52) Leg het gebruik van Hive in het Hadoop-ecosysteem uit.

Hive biedt een interface voor het beheren van gegevens die zijn opgeslagen in het Hadoop-ecosysteem. Hive wordt gebruikt voor het in kaart brengen en werken met HBase-tabellen. Hive-query's worden omgezet in MapReduce-taken om de com te verbergenplexiteit die verband houdt met het maken en uitvoeren van MapReduce-taken.


53) Noem verschillende complex gegevenstypen/-verzameling worden ondersteund door Hive

Hive ondersteunt de volgende stapwing complex gegevenstypen:

  • Wereldmap
  • struct
  • reeks
  • Unie

54) Leg uit hoe het .hiverc-bestand in Hive wordt gebruikt?

In Hive is .hiverc het initialisatiebestand. Dit bestand wordt in eerste instantie geladen wanneer we de Command Line Interface (CLI) voor Hive starten. We kunnen de initiële waarden van parameters instellen in het .hiverc-bestand.


55) Is het mogelijk om meer dan één tabel in Hive te maken voor één gegevensbestand?

Ja, we kunnen meer dan één tabelschema's maken voor een gegevensbestand. Hive slaat schema op in Hive Metastore. Op basis van dit schema kunnen we ongelijksoortige resultaten uit dezelfde gegevens ophalen.


56) Leg verschillende SerDe-implementaties uit die beschikbaar zijn in Hive

Er zijn veel SerDe-implementaties beschikbaar in Hive. U kunt ook uw eigen SerDe-implementatie op maat schrijven. Volgwing zijn enkele bekende SerDe-implementaties:

  • OpenCSVSerde
  • RegexSerDe
  • DelimitedJSONSerDe
  • ByteStreamTypedSerDe

57) Lijst met tabelgenererende functies die beschikbaar zijn in Hive

Following is een lijst met tabelgenererende functies:

  • Exploderen (matrix)
  • JSON_tuple()
  • Stapel()
  • Exploderen(kaart)

58) Wat is een scheve tabel in Hive?

Een scheve tabel is een tabel die vaker kolomwaarden bevat. Wanneer we in Hive tijdens het maken een tabel als SKEWED opgeven, worden scheve waarden in afzonderlijke bestanden geschreven en gaan de resterende waarden naar een ander bestand.


59) Maak een lijst van objecten die zijn gemaakt met de create-instructie in MySQL.

Objecten gemaakt door de create-instructie in MySQL zijn als volgt:

  • Database
  • Index
  • tafel
  • Gebruiker
  • Procedure
  • Trigger
  • Event
  • Bekijk
  • Functie

60) Hoe kan ik de databasestructuur in MySQL zien?

Om de databasestructuur in te zien MySQL, Kunt u gebruik maken

BESCHRIJVEN commando. De syntaxis van deze opdracht is DESCRIBE Table name;.


SQL-interviewvragen voor data-ingenieur

61) Hoe zoek ik naar een specifieke string in de MySQL-tabelkolom?

Gebruik de regex-operator om naar een tekenreeks in de MySQL-kolom te zoeken. Hier kunnen we ook verschillende soorten reguliere expressies definiëren en zoeken naar het gebruik van regex.


62) Leg uit hoe data-analyse en big data de bedrijfsinkomsten kunnen verhogen?

Following zijn de manieren waarop data-analyse en big data de bedrijfsomzet kunnen verhogen:

  • Gebruik gegevens efficiënt om bedrijfsgroei te garanderen.
  • Verhoog de klantwaarde.
  • Analytisch worden om de prognoses voor de personeelsbezetting te verbeteren.
  • Het verlagen van de productiekosten van de organisaties.

Deze interviewvragen zullen ook helpen bij je viva (oralen)