60+ sollicitatievragen en antwoorden voor data-ingenieurs in 2024
Sollicitatievragen voor Data Engineer voor eerstejaarsstudenten
1) Leg data-engineering uit.
Data-engineering is een term die wordt gebruikt in big data. Het richt zich op de toepassing van dataverzameling en onderzoek. De gegevens die uit verschillende bronnen worden gegenereerd, zijn slechts ruwe gegevens. Data engineering helpt deze ruwe data om te zetten in bruikbare informatie.
2) Wat is datamodellering?
Datamodellering is de methode om complexe softwareontwerpen te documenteren als een diagram, zodat iedereen ze gemakkelijk kan begrijpen. Het is een conceptuele representatie van data-objecten die zijn gekoppeld tussen verschillende data-objecten en de regels.
3) Noem verschillende soorten ontwerpschema's in gegevensmodellering
Er zijn hoofdzakelijk twee soorten schema's bij datamodellering: 1) Sterschema en 2) Sneeuwvlokschema.
4) Maak onderscheid tussen gestructureerde en ongestructureerde data
Hieronder volgt een verschil tussen gestructureerde en ongestructureerde data:
Parameter | Gestructureerde gegevens | Ongestructureerde gegevens |
---|---|---|
Opbergen | dbms | Onbeheerde bestandsstructuren |
Standaard | ADO.net, ODBC en SQL | STMP, XML, CSV en SMS |
Integratiehulpmiddel | ELT (Extraheren, Transformeren, Laden) | Handmatige gegevensinvoer of batchverwerking inclusief codes |
scaling | Het schalen van schema's is moeilijk | Schalen is heel eenvoudig. |
5) Leg alle componenten van een Hadoop-applicatie uit
Hieronder volgen de componenten van de Hadoop-applicatie:
- Hadoop algemeen: Het is een algemene set hulpprogramma's en bibliotheken die door Hadoop worden gebruikt.
- HDFS: Deze Hadoop-applicatie heeft betrekking op het bestandssysteem waarin de Hadoop-gegevens zijn opgeslagen. Het is een gedistribueerd bestandssysteem met een hoge bandbreedte.
- Hadoop-kaartVerminderen: Het is gebaseerd op het algoritme voor het aanbieden van grootschalige gegevensverwerking.
- Hadoop-garen: Het wordt gebruikt voor resource management binnen het Hadoop cluster. Het kan ook worden gebruikt voor taakplanning voor gebruikers.
6) Wat is NameNode?
Het is het middelpunt van HDFS. Het slaat data van HDFS op en volgt verschillende bestanden over de clusters. Hier worden de werkelijke data niet opgeslagen. De data wordt opgeslagen in DataNodes.
7) Definieer Hadoop-streaming
Het is een hulpprogramma waarmee u een kaart kunt maken, taken kunt reduceren en deze aan een specifiek cluster kunt toewijzen.
8) Wat is de volledige vorm van HDFS?
HDFS staat voor Hadoop Distributed File System.
9) Definieer Blok en Blokscanner in HDFS
Blokken zijn de kleinste eenheid van een gegevensbestand. Hadoop splitst grote bestanden automatisch in kleine stukjes.
Block Scanner verifieert de lijst met blokken die op een DataNode worden gepresenteerd.
10) Wat zijn de stappen die plaatsvinden wanneer Block Scanner een beschadigd datablok detecteert?
Hieronder staan de stappen die worden uitgevoerd wanneer Block Scanner een beschadigd datablok vindt:
1) Allereerst, wanneer Block Scanner een beschadigd datablok vindt, rapporteert DataNode aan NameNode
2) NameNode start het proces van het maken van een nieuwe replica met behulp van een replica van het beschadigde blok.
3) Het aantal replicaties van de juiste replica's probeert overeen te komen met de replicatiefactor. Als de match gevonden wordt, wordt het beschadigde datablok niet verwijderd.
11) Noem twee berichten die NameNode ontvangt van DataNode?
Er zijn twee berichten die NameNode ontvangt van DataNode. Dit zijn 1) Blokrapport en 2) Hartslag.
12) Maak een lijst van verschillende XML-configuratiebestanden in Hadoop?
Er zijn vijf XML-configuratiebestanden in Hadoop:
- Mapred-site
- Kern-site
- HDFS-site
- Garen-site
13) Wat zijn de vier V’s van big data?
Vier V’s van big data zijn:
- Snelheid
- Verscheidenheid
- Volume
- Betrouwbaarheid
14) Leg de kenmerken van Hadoop uit
Belangrijke kenmerken van Hadoop zijn:
- Het is een open-sourceframework dat freeware beschikbaar is.
- Hadoop is compatibel met de vele soorten hardware en gemakkelijk toegang tot nieuwe hardware binnen een specifiek knooppunt.
- Hadoop ondersteunt een sneller gedistribueerde verwerking van gegevens.
- De gegevens worden opgeslagen in het cluster, dat onafhankelijk is van de rest van de bewerkingen.
- Met Hadoop kunt u voor elk blok met verschillende knooppunten 3 replica's maken.
15) Leg de belangrijkste methoden van Reducer uit
- setup (): Het wordt gebruikt voor het configureren van parameters zoals de grootte van invoergegevens en gedistribueerde cache.
- cleanup(): Deze methode wordt gebruikt om tijdelijke bestanden op te schonen.
- reduce(): Het is een hart van de reducer die één keer per sleutel wordt aangeroepen met de bijbehorende verminderde taak
16) Wat is de afkorting van COSHH?
De afkorting van COSHH staat voor Classification and Optimization based Schedule for Heterogeneous Hadoop systems.
17) Leg het sterrenschema uit
Sterrenschema of Star Join Schema is het eenvoudigste type Data Warehouse-schema. Het staat bekend als een sterrenschema omdat de structuur op een ster lijkt. In het Ster-schema kan het midden van de ster één feitentabel en meerdere bijbehorende dimensietabellen hebben. Dit schema wordt gebruikt voor het opvragen van grote gegevenssets.
18) Hoe implementeer je een big data-oplossing?
Volg de volgende stappen om een big data-oplossing te implementeren.
1) Integreer gegevens met behulp van gegevensbronnen zoals RDBMS, SAP, MySQL, Salesforce
2) Bewaar gegevensgeëxtraheerde gegevens in een NoSQL-database of HDFS.
3) Implementeer een big data-oplossing met behulp van verwerkingsframeworks zoals Pig, Sparken MapReduce.
19) Leg FSCK uit
Bestandssysteemcontrole of FSCK is een opdracht die door HDFS wordt gebruikt. De FSCK-opdracht wordt gebruikt om inconsistenties en problemen in het bestand te controleren.
20) Leg het Sneeuwvlokschema uit
A Sneeuwvlokschema is een uitbreiding van een sterrenschema en voegt extra dimensies toe. Het wordt sneeuwvlok genoemd omdat het diagram op een sneeuwvlok lijkt. De dimensietabellen zijn genormaliseerd, waardoor gegevens in extra tabellen worden opgesplitst.
21) Onderscheid maken tussen ster- en sneeuwvlokschema
Ster | SnowFlake-schema |
Dimensiehiërarchieën worden opgeslagen in een dimensietabel. | Elke hiërarchie wordt opgeslagen in afzonderlijke tabellen. |
De kans op gegevensredundantie is groot | De kans op gegevensredundantie is klein. |
Het heeft een heel eenvoudig DB-ontwerp | Het heeft een complex DB-ontwerp |
Zorg voor een snellere manier voor kubusverwerking | De verwerking van kubussen verloopt traag vanwege de complexe join. |
22) Leg het gedistribueerde Hadoop-bestandssysteem uit
Hadoop werkt met schaalbare gedistribueerde bestandssystemen zoals S3, HFTP FS, FS en HDFS. Hadoop Distributed File System is gemaakt op het Google File System. Dit bestandssysteem is zo ontworpen dat het eenvoudig op een groot cluster van het computersysteem kan worden uitgevoerd.
23) Leg de belangrijkste verantwoordelijkheden van een data-ingenieur uit
Data engineers hebben veel verantwoordelijkheden. Ze beheren het bronsysteem van data. Data engineers vereenvoudigen complexe datastructuren en voorkomen de reduplicatie van data. Vaak bieden ze ook ELT en datatransformatie.
24) Wat is de volledige vorm van YARN?
De volledige vorm van YARN is Yet Another Resource Negotiator.
25) Noem verschillende modi in Hadoop
Modi in Hadoop zijn 1) Standalone-modus 2) Pseudo-gedistribueerde modus 3) Volledig gedistribueerde modus.
26) Hoe bereik je veiligheid in Hadoop?
Voer de volgende stappen uit om beveiliging in Hadoop te bereiken:
1) De eerste stap is het beveiligen van het authenticatiekanaal van de client naar de server. Geef een tijdstempel aan de klant.
2) In de tweede stap gebruikt de klant de ontvangen tijdstempel om TGS om een serviceticket aan te vragen.
3) In de laatste stap gebruikt de client een serviceticket voor zelfauthenticatie bij een specifieke server.
27) Wat is hartslag in Hadoop?
In Hadoop communiceren NameNode en DataNode met elkaar. Heartbeat is het signaal dat DataNode regelmatig naar NameNode stuurt om zijn aanwezigheid aan te tonen.
28) Onderscheid maken tussen NAS en DAS in Hadoop
NAS | DAS |
De opslagcapaciteit bedraagt 109 naar 1012 in bytes. | De opslagcapaciteit bedraagt 109 in bytes. |
De beheerkosten per GB zijn gematigd. | De beheerkosten per GB zijn hoog. |
Verzend gegevens via Ethernet of TCP/IP. | Verzend gegevens met behulp van IDE/SCSI |
29) Maak een lijst van belangrijke velden of talen die door de data-engineer worden gebruikt
Hier zijn een paar velden of talen die door data engineer worden gebruikt:
- Waarschijnlijkheid en lineaire algebra
- machine learning
- Trendanalyse en regressie
- Hive QL- en SQL-databases
30) Wat zijn bigdata?
Het is een grote hoeveelheid gestructureerde en ongestructureerde data, die niet eenvoudig kan worden verwerkt met traditionele methoden voor gegevensopslag. Data-ingenieurs gebruiken Hadoop om big data te beheren.
Sollicitatievragen voor Data Engineer voor ervaren
31) Wat is FIFO-planning?
Het is een Hadoop-algoritme voor taakplanning. Bij deze FIFO-planning selecteert een verslaggever opdrachten uit een werkvoorraad, waarbij de oudste opdracht bovenaan staat.
32) Vermeld de standaardpoortnummers waarop de taaktracker, NameNode en jobtracker in Hadoop worden uitgevoerd
De standaardpoortnummers waarop taaktracker, NameNode en jobtracker in Hadoop worden uitgevoerd, zijn als volgt:
- Task tracker draait op poort 50060
- NameNode draait op poort 50070
- Job Tracker draait op poort 50030
33) Blokscanner uitschakelen op HDFS Data Node
Om Block Scanner op HDFS Data Node uit te schakelen, stelt u dfs.datanode.scan.period.hours in op 0.
34) Hoe definieer ik de afstand tussen twee knooppunten in Hadoop?
De afstand is gelijk aan de som van de afstand tot de dichtstbijzijnde knooppunten. De methode getDistance() wordt gebruikt om de afstand tussen twee knooppunten te berekenen.
35) Waarom commodity-hardware gebruiken in Hadoop?
Basishardware is gemakkelijk te verkrijgen en betaalbaar. Het is een systeem dat compatibel is met Windows, MS-DOS of Linux.
36) Definieer de replicatiefactor in HDFS
Replicatiefactor is het totale aantal replica's van een bestand in het systeem.
37) Welke gegevens worden in NameNode opgeslagen?
Namenode slaat de metagegevens voor de HDFS op, zoals blokinformatie en naamruimte-informatie.
38) Wat bedoel je met Rackbewustzijn?
In het Haddop-cluster gebruikt Namenode de Datanode om het netwerkverkeer te verbeteren tijdens het lezen of schrijven van een bestand dat zich dichter bij het nabijgelegen rack bevindt om een Read- of Write-verzoek in te dienen. Namenode onderhoudt de rack-id van elke DataNode om rack-informatie te verkrijgen. Dit concept wordt Rack Awareness genoemd in Hadoop.
39) Wat zijn de functies van Secondary NameNode?
Hieronder staan de functies van Secondary NameNode:
- FsImage waarin een kopie van het EditLog- en FsImage-bestand wordt opgeslagen.
- NameNode crash: Als de NameNode crasht, kan de FsImage van de secundaire NameNode worden gebruikt om de NameNode opnieuw te maken.
- Controlepunt: Het wordt gebruikt door Secondary NameNode om te bevestigen dat gegevens niet beschadigd zijn in HDFS.
- Update: Het werkt automatisch het EditLog- en FsImage-bestand bij. Het helpt om het FsImage-bestand op Secondary NameNode bijgewerkt te houden.
40) Wat gebeurt er als NameNode offline is en de gebruiker een nieuwe taak indient?
NameNode is het enige storingspunt in Hadoop, zodat de gebruiker geen nieuwe taak kan indienen en niet kan uitvoeren. Als de NameNode niet beschikbaar is, kan de taak mislukken, omdat deze gebruiker moet wachten tot NameNode opnieuw is opgestart voordat hij een taak uitvoert.
41) Wat zijn de basisfasen van reducer in Hadoop?
Er zijn drie basisfasen van een verloopstuk in Hadoop:
1. Shuffle: Hier kopieert Reducer de uitvoer van Mapper.
2. Sorteren: Bij sorteren sorteert Hadoop de invoer naar Reducer met dezelfde sleutel.
3. Reduceren: In deze fase worden de uitvoerwaarden die aan een sleutel zijn gekoppeld, gereduceerd om de gegevens in de uiteindelijke uitvoer te consolideren.
42) Waarom Hadoop het Context-object gebruikt?
Hadoop-framework gebruikt Context-object met de Mapper-klasse om te communiceren met het resterende systeem. Context-object haalt de systeemconfiguratiedetails en -taak op in zijn constructor.
We gebruiken Context object om de informatie door te geven in setup(), cleanup() en map() methoden. Dit object maakt vitale informatie beschikbaar tijdens de mapbewerkingen.
43) Definieer Combiner in Hadoop
Het is een optionele stap tussen Map en Reduce. Combiner neemt de output van de Map-functie, maakt sleutelwaardeparen en verzendt deze naar Hadoop Reducer. De taak van Combiner is om het uiteindelijke resultaat van Map samen te vatten in samenvattingsrecords met een identieke sleutel.
44) Wat is de standaardreplicatiefactor die beschikbaar is in HDFS Wat geeft dit aan?
De standaardreplicatiefactor die beschikbaar is in HDFS is drie. De standaardreplicatiefactor geeft aan dat er drie replica's van elke gegevens zullen zijn.
45) Wat bedoel je met datalokaliteit in Hadoop?
In een Big Data-systeem is de omvang van de data enorm, en daarom heeft het geen zin om data over het netwerk te verplaatsen. Nu probeert Hadoop berekeningen dichter bij data te brengen. Op deze manier blijven de gegevens lokaal op de opgeslagen locatie.
46) Definieer Balancer in HDFS
In HDFS is de balancer een beheerder die door beheerders wordt gebruikt om gegevens over DataNodes opnieuw in evenwicht te brengen en blokken te verplaatsen van overbenutte naar onderbenutte knooppunten.
47) Leg de veilige modus in HDFS uit
Het is een read-only mode van NameNode in een cluster. In eerste instantie staat NameNode in Safemode. Het voorkomt schrijven naar het bestandssysteem in Safemode. Op dit moment verzamelt het data en statistieken van alle DataNodes.
48) Wat is het belang van gedistribueerde cache in Apache Hadoop?
Hadoop heeft een handige hulpprogramma-functie, genaamd Distributed Cache, die de prestaties van taken verbetert door de bestanden die door applicaties worden gebruikt in de cache op te slaan. Een toepassing kan een bestand voor de cache opgeven met behulp van de JobConf-configuratie.
Het Hadoop-framework maakt een replica van deze bestanden naar de knooppunten waarop een taak moet worden uitgevoerd. Dit gebeurt voordat de uitvoering van de taak begint. Distributed Cache ondersteunt de distributie van alleen-lezen bestanden, evenals zip- en jars-bestanden.
49) Wat is Metastore in Hive?
Het slaat zowel het schema als de Hive-tabellocatie op.
Hive-tabeldefinities, toewijzingen en metagegevens die zijn opgeslagen in Metastore. Dit kan worden opgeslagen in RDBMS dat wordt ondersteund door JPOX.
50) Wat bedoelen we met SerDe in Hive?
SerDe is een korte naam voor Serializer of Deserializer. In Hive maakt SerDe het mogelijk om gegevens uit een tabel te lezen en naar een specifiek veld te schrijven in elk gewenst formaat.
51) Lijst met componenten die beschikbaar zijn in het Hive-gegevensmodel
Het Hive-datamodel bestaat uit de volgende componenten:
- Tafels
- Wanden
- Emmers
52) Leg het gebruik van Hive in het Hadoop-ecosysteem uit.
Hive biedt een interface om data te beheren die is opgeslagen in het Hadoop-ecosysteem. Hive wordt gebruikt voor het in kaart brengen en werken met HBase-tabellen. Hive-query's worden omgezet in MapReduce-jobs om de complexiteit te verbergen die gepaard gaat met het maken en uitvoeren van MapReduce-jobs.
53) Lijst met verschillende complexe gegevenstypen/verzamelingen die door Hive worden ondersteund
Hive ondersteunt de volgende complexe gegevenstypen:
- Wereldmap
- struct
- reeks
- Unie
54) Leg uit hoe het .hiverc-bestand in Hive wordt gebruikt?
In Hive is .hiverc het initialisatiebestand. Dit bestand wordt in eerste instantie geladen wanneer we de Command Line Interface (CLI) voor Hive starten. We kunnen de initiële waarden van parameters instellen in het .hiverc-bestand.
55) Is het mogelijk om meer dan één tabel in Hive te maken voor één gegevensbestand?
Ja, we kunnen meer dan één tabelschema's maken voor een gegevensbestand. Hive slaat schema op in Hive Metastore. Op basis van dit schema kunnen we ongelijksoortige resultaten uit dezelfde gegevens ophalen.
56) Leg verschillende SerDe-implementaties uit die beschikbaar zijn in Hive
Er zijn veel SerDe-implementaties beschikbaar in Hive. U kunt ook uw eigen aangepaste SerDe-implementatie schrijven. Hieronder volgen enkele bekende SerDe-implementaties:
- OpenCSVSerde
- RegexSerDe
- DelimitedJSONSerDe
- ByteStreamTypedSerDe
57) Lijst met tabelgenererende functies die beschikbaar zijn in Hive
Hieronder vindt u een lijst met tabelgenererende functies:
- Exploderen (matrix)
- JSON_tuple()
- Stapel()
- Exploderen(kaart)
58) Wat is een scheve tabel in Hive?
Een scheve tabel is een tabel die vaker kolomwaarden bevat. Wanneer we in Hive tijdens het maken een tabel als SKEWED opgeven, worden scheve waarden in afzonderlijke bestanden geschreven en gaan de resterende waarden naar een ander bestand.
59) Maak een lijst van objecten die zijn gemaakt met de create-instructie in MySQL.
Objecten gemaakt door create-instructie in MySQL zijn als volgt:
- Database
- Index
- tafel
- Gebruiker
- Procedure
- Trigger
- Gebeurtenis
- Bekijk
- Functie
60) Hoe u de databasestructuur kunt zien MySQL?
Om de databasestructuur in te zien MySQL, Kunt u gebruik maken
BESCHRIJVEN commando. De syntaxis van deze opdracht is DESCRIBE Table name;
.
SQL-interviewvragen voor data-ingenieur
61) Zoeken naar een specifieke string in MySQL tabelkolom?
Gebruik een regex-operator om naar een tekenreeks te zoeken in MySQL kolom. Hier kunnen we ook verschillende soorten reguliere expressies definiëren en zoeken naar het gebruik van regex.
62) Leg uit hoe data-analyse en big data de bedrijfsinkomsten kunnen verhogen?
Hieronder staan de manieren waarop data-analyse en big data de omzet van een bedrijf kunnen verhogen:
- Gebruik gegevens efficiënt om bedrijfsgroei te garanderen.
- Verhoog de klantwaarde.
- Analytisch worden om de prognoses voor de personeelsbezetting te verbeteren.
- Het verlagen van de productiekosten van de organisaties.
Deze interviewvragen zullen ook helpen bij je viva (oralen)