Yli 60 tietoinsinöörin haastattelukysymyksiä ja vastauksia vuonna 2025

Tässä on Data Engineeringin haastattelukysymyksiä ja vastauksia tuoreemmille ja kokeneemmille tietoinsinööriehdokkaille unelmatyönsä saamiseksi.

 

Tietosuojainsinöörin haastattelukysymyksiä fuksilaisille

1) Selitä tietotekniikka.

Tietotekniikka on termi, jota käytetään big datassa. Se keskittyy tiedonkeruun ja tutkimuksen soveltamiseen. Eri lähteistä tuotetut tiedot ovat vain raakadataa. Tietotekniikka auttaa muuttamaan nämä raakatiedot hyödylliseksi tiedoksi.


2) Mitä on datamallinnus?

Tietojen mallinnus on menetelmä dokumentoida monimutkainen ohjelmistosuunnittelu kaaviona, jotta kuka tahansa voi helposti ymmärtää. Se on käsitteellinen esitys tietoobjekteista, jotka liittyvät eri tietoobjekteihin ja sääntöihin.

Tietomallinnus


3) Listaa erilaisia ​​suunnitteluskeemoja tietomallinnukseen

Tietomallinnuksessa on pääasiassa kahdenlaisia ​​skeemoja: 1) tähtiskeema ja 2) lumihiutaleskeema.


4) Erota strukturoitu ja strukturoimaton data

Seuraavassa on ero strukturoidun ja strukturoimattoman tiedon välillä:

Parametri Jäsennelty tieto Rakentamattomat tiedot
varastointi DBMS Hallitsemattomat tiedostorakenteet
Standard ADO.net, ODBC ja SQL STMP, XML, CSV ja SMS
Integrointityökalu ELT (Extract, Transform, Load) Manuaalinen tiedonsyöttö tai eräkäsittely, joka sisältää koodeja
skaalaus Kaavion skaalaus on vaikeaa Skaalaus on erittäin helppoa.

5) Selitä kaikki Hadoop-sovelluksen osat

Seuraavat ovat Hadoop-sovelluksen komponentit:

Hadoop EcoSystem ja komponentit

  • Hadoop Yleinen: Se on yleinen joukko apuohjelmia ja kirjastoja, joita Hadoop käyttää.
  • HDFS: Tämä Hadoop-sovellus liittyy tiedostojärjestelmään, johon Hadoop-tiedot on tallennettu. Se on hajautettu tiedostojärjestelmä, jolla on suuri kaistanleveys.
  • Hadoop MapReduce: Se perustuu laajamittaisen tietojenkäsittelyn tarjoamiseen tarkoitetun algoritmin mukaan.
  • Hadoop-LANKA: Sitä käytetään resurssien hallintaan Hadoop-klusterin sisällä. Sitä voidaan käyttää myös käyttäjien tehtävien ajoittamiseen.

6) Mikä on NameNode?

Se on HDFS:n keskipiste. Se tallentaa HDFS-tietoja ja seuraa erilaisia ​​tiedostoja klustereiden välillä. Täällä todellisia tietoja ei tallenneta. Tiedot tallennetaan DataNodesiin.


7) Määritä Hadoop-suoratoisto

Se on apuohjelma, joka mahdollistaa kartan luomisen ja vähentää työpaikkoja ja lähettää ne tiettyyn klusteriin.


8) Mikä on HDFS:n täysi muoto?

HDFS tulee sanoista Hadoop Distributed File System.


9) Määritä Block and Block Scanner HDFS:ssä

Lohkot ovat datatiedoston pienin yksikkö. Hadoop jakaa automaattisesti suuret tiedostot pieniksi paloiksi.

Block Scanner tarkistaa DataNodessa esitettyjen lohkojen luettelon.


10) Mitä vaiheita tapahtuu, kun Block Scanner havaitsee vioittuneen tietolohkon?

Seuraavat vaiheet tapahtuvat, kun Block Scanner löytää vioittuneen tietolohkon:

1) Ensinnäkin, kun Block Scanner löytää vioittuneen tietolohkon, DataNode raportoi NameNodelle

2) NameNode aloittaa uuden replikan luomisprosessin käyttämällä vioittuneen lohkon kopiota.

3) Oikeiden replikoiden replikointimäärä yrittää sovittaa yhteen toisinnuskertoimen kanssa. Jos osuma löytyy vioittunutta, tietolohkoa ei poisteta.


11) Nimeä kaksi viestiä, jotka NameNode saa DataNodelta?

NameNode saa kaksi viestiä DataNodelta. Ne ovat 1) Block-raportti ja 2) Heartbeat.


12) Luettele Hadoopissa erilaisia ​​XML-määritystiedostoja?

Hadoopissa on viisi XML-määritystiedostoa:

  • Mapred-sivusto
  • Ydinsivusto
  • HDFS-sivusto
  • Lanka-sivusto

13) Mitkä ovat big datan neljä V:tä?

Big datan neljä V:tä ovat:

  • Nopeus
  • lajike
  • tilavuus
  • totuudenmukaisuus

14) Selitä Hadoopin ominaisuudet

Hadoopin tärkeitä ominaisuuksia ovat:

  • Se on avoimen lähdekoodin kehys, joka on saatavilla ilmaiseksi.
  • Hadoop on yhteensopiva monen tyyppisten laitteistojen kanssa, ja se on helppo käyttää tietyssä solmussa.
  • Hadoop tukee nopeampaa tietojen käsittelyä.
  • Se tallentaa tiedot klusteriin, joka on riippumaton muista toiminnoista.
  • Hadoop mahdollistaa kolmen kopion luomisen jokaiselle lohkolle eri solmuilla.

15) Selitä Reducerin päämenetelmät

  • setup (): Sitä käytetään parametrien, kuten syöttötietojen koon ja hajautetun välimuistin, määrittämiseen.
  • cleanup(): Tätä menetelmää käytetään väliaikaisten tiedostojen puhdistamiseen.
  • vähentää(): Se on supistimen sydän, jota kutsutaan kerran per näppäin ja siihen liittyvä supistettu tehtävä

16) Mikä on lyhenne sanoista COSHH?

COSHH:n lyhenne on luokitus- ja optimointipohjainen aikataulu heterogeenisille Hadoop-järjestelmille.


17) Selitä tähtikaavio

Tähtiohjelma tai Star Join Schema on yksinkertaisin tietovarastoskeema. Se tunnetaan tähtiskeemana, koska sen rakenne on kuin tähti. Tähtiskeemassa tähden keskellä voi olla yksi tietotaulukko ja useita siihen liittyviä dimensiotaulukkoja. Tätä skeemaa käytetään suurten tietojoukkojen kyselyyn.


18) Kuinka ottaa käyttöön big data -ratkaisu?

Noudata seuraavia vaiheita ottaaksesi käyttöön big data -ratkaisu.

1) Integroi tiedot käyttämällä tietolähteitä, kuten RDBMS, SAP, MySQL, Salesforce
2) Tallenna poimitut tiedot joko NoSQL-tietokantaan tai HDFS:ään.
3) Ota käyttöön big data -ratkaisu käyttämällä käsittelykehyksiä, kuten Pig, Sparkja MapReduce.


19) Selitä FSCK

Tiedostojärjestelmän tarkistus tai FSCK on HDFS:n käyttämä komento. FSCK-komentoa käytetään tarkistamaan tiedoston epäjohdonmukaisuudet ja ongelmat.


20) Selitä lumihiutalekaavio

A Lumihiutaleohjelma on Star Scheman laajennus, ja se lisää mittasuhteita. Sitä kutsutaan lumihiutaleeksi, koska sen kaavio näyttää lumihiutaleelta. Dimensiotaulukot on normalisoitu, mikä jakaa tiedot lisätaulukoiksi.


21) Erota tähti- ja lumihiutalekaavio

Tähti Lumihiutalekaavio
Dimensiohierarkiat tallennetaan mittataulukkoon. Jokainen hierarkia on tallennettu erillisiin taulukoihin.
Tietojen redundanssin mahdollisuus on korkea Tietojen redundanssin mahdollisuus on pieni.
Siinä on hyvin yksinkertainen DB-muotoilu Siinä on monimutkainen DB-suunnittelu
Tarjoa nopeampi tapa kuutioiden käsittelyyn Kuution käsittely on hidasta monimutkaisen liitoksen vuoksi.

22) Selitä Hadoopin hajautettu tiedostojärjestelmä

Hadoop toimii skaalattavien hajautettujen tiedostojärjestelmien kanssa, kuten S3, HFTP FS, FS ja HDFS. Hadoop Distributed File System on tehty Google-tiedostojärjestelmässä. Tämä tiedostojärjestelmä on suunniteltu siten, että se toimii helposti suuressa tietokonejärjestelmän klusterissa.


23) Selitä tietosuunnittelijan päätehtävät

Tietosuunnittelijoilla on monia velvollisuuksia. He hallitsevat tiedon lähdejärjestelmää. Tietosuunnittelijat yksinkertaistavat monimutkaista tietorakennetta ja estävät tietojen monistamisen. Usein ne tarjoavat myös ELT- ja datamuunnoksen.


24) Mikä on LANGAN täysi muoto?

YARN:n täysi muoto on Yet Another Resource Negotiator.


25) Luettele Hadoopissa erilaisia ​​​​tiloja

Hadoopin tilat ovat 1) Itsenäinen tila 2) Pseudohajautettu tila 3) Täysin hajautettu tila.


26) Kuinka saavuttaa tietoturva Hadoopissa?

Suorita seuraavat vaiheet turvallisuuden saavuttamiseksi Hadoopissa:

1) Ensimmäinen askel on suojata asiakkaan todennuskanava palvelimelle. Toimita aikaleimattu asiakkaalle.
2) Toisessa vaiheessa asiakas käyttää vastaanotettua aikaleimaa pyytääkseen TGS:ltä palvelulippua.
3) Viimeisessä vaiheessa asiakas käyttää palvelulippua itseautentikaatioon tietylle palvelimelle.


27) Mikä on Heartbeat Hadoopissa?

Hadoopissa NameNode ja DataNode kommunikoivat keskenään. Syke on signaali, jonka DataNode lähettää NameNodelle säännöllisesti osoittaakseen sen läsnäolon.


28) Erottele NAS ja DAS Hadoopissa

NAS DAS
Varastointikapasiteetti on 109 ja 1012 tavussa. Varastointikapasiteetti on 109 tavussa.
Ylläpitokustannukset gigatavua kohden ovat kohtuulliset. Hallintakustannukset gigatavua kohden ovat korkeat.
Siirrä tietoja Ethernetin tai TCP/IP:n kautta. Siirrä tiedot IDE/SCSI:n avulla

29) Listaa tietosuunnittelijan käyttämät tärkeät kentät tai kielet

Tässä on muutamia tietotekniikan käyttämiä kenttiä tai kieliä:

  • Todennäköisyys sekä lineaarinen algebra
  • Koneen oppiminen
  • Trendianalyysi ja regressio
  • Hive QL- ja SQL-tietokannat

30) Mitä on Big Data?

Se on suuri määrä jäsenneltyä ja jäsentämätöntä dataa, jota ei voida helposti käsitellä perinteisillä tiedontallennusmenetelmillä. Tietosuunnittelijat käyttävät Hadoopia suurdatan hallintaan.


Tietosuunnittelijan haastattelukysymyksiä kokeneille

31) Mikä on FIFO-aikataulutus?

Se on Hadoop Job -aikataulutusalgoritmi. Tässä FIFO-aikataulutuksessa toimittaja valitsee työt työjonosta vanhin työ ensin.


32) Mainitse oletusporttinumerot, joissa tehtäväseuranta, NameNode ja työnseuranta suoritetaan Hadoopissa

Oletusporttinumerot, joissa tehtäväseuranta, NameNode ja työnseuranta suoritetaan Hadoopissa, ovat seuraavat:

  • Tehtäväseuranta toimii 50060-portilla
  • NameNode toimii 50070-portissa
  • Job Tracker toimii 50030-portissa

33) Block Scannerin poistaminen käytöstä HDFS-tietosolmussa

Voit poistaa Block Scannerin käytöstä HDFS-tietosolmussa asettamalla dfs.datanode.scan.period.hours arvoon 0.


34) Kuinka määritellä kahden solmun välinen etäisyys Hadoopissa?

Etäisyys on yhtä suuri kuin lähimpien solmujen etäisyyden summa. Menetelmää getDistance() käytetään laskemaan kahden solmun välinen etäisyys.


35) Miksi käyttää hyödykelaitteistoa Hadoopissa?

Hyödykelaitteisto on helppo hankkia ja edullinen. Se on järjestelmä, joka on yhteensopiva Windows, MS-DOS tai Linux.


36) Määritä replikointitekijä HDFS:ssä

Replikointitekijä on järjestelmässä olevien tiedoston replikoiden kokonaismäärä.


37) Mitä tietoja NameNodeen on tallennettu?

Namenode tallentaa HDFS:n metatiedot, kuten lohkotiedot ja nimitilatiedot.


38) Mitä tarkoitat telinetietoisuudella?

Haddop-klusterissa Namenode käyttää Datanodea parantaakseen verkkoliikennettä lukiessaan tai kirjoittaessaan mitä tahansa tiedostoa, joka on lähempänä lähellä olevaa telinettä luku- tai kirjoituspyyntöön. Namenode ylläpitää kunkin DataNoden telinetunnusta telinetietojen saamiseksi. Tätä konseptia kutsutaan Hadoopissa Rack Awarenessiksi.


39) Mitkä ovat toissijaisen NameNoden toiminnot?

Seuraavat ovat toissijaisen NameNoden toiminnot:

  • FsImage, joka tallentaa kopion EditLog- ja FsImage-tiedostosta.
  • NameNode kaatuu: Jos NameNode kaatuu, toissijaisen NameNoden FsImage-kuvaa voidaan käyttää NameNoden luomiseen uudelleen.
  • Tarkistuspiste: Toissijainen NameNode käyttää sitä varmistaakseen, että HDFS:n tiedot eivät ole vioittuneet.
  • Päivitys: Se päivittää automaattisesti EditLog- ja FsImage-tiedoston. Se auttaa pitämään FsImage-tiedoston toissijaisessa NameNodessa päivitettynä.

40) Mitä tapahtuu, kun NameNode ei toimi ja käyttäjä lähettää uuden työn?

NameNode on ainoa vikapiste Hadoopissa, joten käyttäjä ei voi lähettää uutta työtä, jota ei voida suorittaa. Jos NameNode ei toimi, työ saattaa epäonnistua, koska tämän käyttäjän on odotettava NameNoden uudelleenkäynnistystä ennen työn suorittamista.


41) Mitkä ovat Hadoopin reduktorin perusvaiheet?

Hadoopissa reduktorissa on kolme perusvaihetta:

1. Shuffle: Tässä Reducer kopioi tulosteen Mapperista.

2. Lajittele: Lajittelussa Hadoop lajittelee syötteen Reduceriin käyttämällä samaa avainta.

3. Pienennä: Tässä vaiheessa avaimeen liittyviä lähtöarvoja pienennetään tietojen yhdistämiseksi lopulliseen tuotteeseen.


42) Miksi Hadoop käyttää kontekstiobjektia?

Hadoop-kehys käyttää Context-objektia Mapper-luokan kanssa vuorovaikutuksessa jäljellä olevan järjestelmän kanssa. Kontekstiobjekti saa järjestelmän kokoonpanotiedot ja työn rakentajassaan.

Käytämme Context-objektia tietojen välittämiseen setup(), cleanup()- ja map()-menetelmissä. Tämä kohde antaa tärkeitä tietoja saataville karttatoimintojen aikana.


43) Määritä Combiner Hadoopissa

Se on valinnainen vaihe Map- ja Reduce-välillä. Combiner ottaa tulosteen Map-funktiosta, luo avainarvopareja ja lähettää Hadoop Reducerille. Combinerin tehtävänä on tiivistää lopputulos Mapista yhteenvetotietueiksi identtisellä avaimella.


44) Mikä on HDFS:ssä käytettävissä oleva oletusreplikointitekijä Mitä se tarkoittaa?

HDFS:n oletusreplikointikerroin on kolme. Oletusreplikointikerroin osoittaa, että jokaisesta tiedosta tulee kolme kopiota.


45) Mitä tarkoitat datapaikalla Hadoopissa?

Big Data -järjestelmässä datan koko on valtava, ja siksi dataa ei ole järkevää siirtää verkon yli. Nyt Hadoop yrittää siirtää laskentaa lähemmäs dataa. Tällä tavalla tiedot pysyvät tallennetun sijainnin paikallisina.


46) Määritä balanssi HDFS:ssä

HDFS:ssä tasapainotin on järjestelmänvalvojan käyttämä järjestelmänvalvojan käyttämä tietojen tasapainottaminen DataNodesin välillä ja siirtää lohkoja ylikäytetyistä solmuista vajaakäyttöisiin.


47) Selitä vikasietotila HDFS:ssä

Se on NameNoden vain luku -tila klusterissa. Aluksi NameNode on vikasietotilassa. Se estää kirjoittamisen tiedostojärjestelmään vikasietotilassa. Tällä hetkellä se kerää tietoja ja tilastoja kaikista DataNodeista.


48) Mikä on hajautetun välimuistin merkitys Apache Hadoopissa?

Hadoopilla on hyödyllinen apuominaisuus, niin kutsuttu Distributed Cache, joka parantaa töiden suorituskykyä tallentamalla välimuistiin sovellusten käyttämät tiedostot. Sovellus voi määrittää tiedoston välimuistille JobConf-määrityksiä käyttämällä.

Hadoop-kehys tekee näistä tiedostoista replikan solmuihin, jotka tehtävä on suoritettava. Tämä tehdään ennen tehtävän suorittamisen alkamista. Hajautettu välimuisti tukee vain luku -tiedostojen sekä zip- ja jars-tiedostojen jakelua.


49) Mikä on Metastore in Hive?

Se tallentaa skeeman sekä Hive-taulukon sijainnin.

Hive-taulukko määrittää, kartoitukset ja metatiedot, jotka tallennetaan Metastoreen. Tämä voidaan tallentaa JPOX:n tukemaan RDBMS:ään.


50) Mitä SerDe tarkoittaa Hivessa?

SerDe on lyhyt nimi sanoista Serializer tai Deserializer. Hivessä SerDe mahdollistaa tietojen lukemisen taulukosta ja kirjoittamisen tiettyyn kenttään missä tahansa muodossa.


51) Listaa Hive-tietomallissa saatavilla olevat komponentit

Hive-tietomallissa on seuraavat komponentit:

  • taulukot
  • väliseinät
  • kauhat

52) Selitä Hiven käyttö Hadoop-ekosysteemissä.

Hive tarjoaa käyttöliittymän Hadoop-ekosysteemiin tallennettujen tietojen hallintaan. Hivea käytetään HBase-taulukoiden kartoittamiseen ja työskentelyyn. Hive-kyselyt muunnetaan MapReduce-töiksi, jotta voidaan piilottaa MapReduce-töiden luomiseen ja suorittamiseen liittyvä monimutkaisuus.


53) Listaa erilaisia ​​monimutkaisia ​​tietotyyppejä/kokoelmia, joita Hive tukee

Hive tukee seuraavia monimutkaisia ​​tietotyyppejä:

  • kartta
  • struct
  • Ryhmä
  • Liitto

54) Selitä, kuinka Hiven .hiverc-tiedostoa käytetään?

Hivessä .hiverc on alustustiedosto. Tämä tiedosto ladataan alun perin, kun käynnistetään Command Line Interface (CLI) Hivelle. Voimme asettaa parametrien alkuarvot .hiverc-tiedostoon.


55) Onko mahdollista luoda useampi kuin yksi taulukko Hiveen yhdelle datatiedostolle?

Kyllä, voimme luoda useita taulukkoskeemoja datatiedostolle. Hive tallentaa skeeman Hive Metastoreen. Tämän skeeman perusteella voimme hakea erilaisia ​​tuloksia samoista tiedoista.


56) Selitä Hiven eri SerDe-toteutukset

Hivessä on saatavilla monia SerDe-toteutuksia. Voit myös kirjoittaa oman mukautetun SerDe-toteutuksen. Seuraavassa on joitain kuuluisia SerDe-toteutuksia:

  • OpenCSVSerde
  • RegexSerDe
  • ErotettuJSONSerDe
  • ByteStreamTypedSerDe

57) Listaa Hiven käytettävissä olevat taulukon luontitoiminnot

Seuraavassa on luettelo taulukon luontifunktioista:

  • Räjähtää (joukko)
  • JSON_tuple()
  • Pino()
  • Räjähtää (kartta)

58) Mikä on vino pöytä Hivessa?

Vino taulukko on taulukko, joka sisältää useammin sarakearvoja. Kun Hivessä määritämme taulukon VOITUKSEEN luonnin aikana, vinoarvot kirjoitetaan erillisiin tiedostoihin ja loput arvot siirtyvät toiseen tiedostoon.


59) Listaa Create-käskyllä ​​luodut objektit MySQL.

Create-lausekkeella luodut objektit MySQL ovat seuraavat:

  • tietokanta
  • indeksi
  • Pöytä
  • käyttäjä
  • menettely
  • Laukaista
  • tapahtuma
  • Näytä
  • Toiminto

60) Kuinka nähdä tietokantarakenne MySQL?

Jotta näet tietokannan rakenteen MySQL, Voit käyttää

DESCRIBE-komento. Tämän komennon syntaksi on DESCRIBE Table name;.


SQL-haastattelukysymyksiä tietosuunnittelijalle

61) Kuinka etsiä tiettyä merkkijonoa MySQL taulukon sarake?

Käytä regex-operaattoria hakeaksesi merkkijonoa MySQL sarakkeessa. Täällä voimme myös määritellä erilaisia ​​säännöllisiä lausekkeita ja etsiä säännöllisen lausekkeen avulla.


62) Selitä, kuinka data-analytiikka ja big data voivat lisätä yrityksen tuloja?

Seuraavat ovat tapoja, joilla data-analytiikka ja big data voivat lisätä yrityksen tuloja:

  • Käytä tietoja tehokkaasti varmistaaksesi liiketoiminnan kasvun.
  • Kasvata asiakkaan arvoa.
  • Analyyttinen toiminta henkilöstömääräennusteiden parantamiseksi.
  • Järjestön tuotantokustannusten leikkaaminen.

Nämä haastattelukysymykset auttavat myös vivassasi (suullinen)

Päivittäinen Guru99-uutiskirje

Aloita päiväsi uusimmilla ja tärkeimmillä tekoälyuutisilla, jotka toimitetaan juuri nyt.