Ponad 60 pytań i odpowiedzi podczas rozmów kwalifikacyjnych z inżynierem danych w 2025 r

Oto pytania i odpowiedzi do rozmów kwalifikacyjnych z zakresu inżynierii danych dla świeżych i doświadczonych kandydatów na inżynierów danych, którzy chcą zdobyć wymarzoną pracę.

 

Pytania do rozmowy kwalifikacyjnej z inżynierem danych dla nowicjuszy

1) Wyjaśnij inżynierię danych.

Inżynieria danych to termin używany w dużych zbiorach danych. Koncentruje się na zastosowaniu gromadzenia danych i badań. Dane generowane z różnych źródeł są danymi surowymi. Inżynieria danych pomaga przekształcić te surowe dane w przydatne informacje.


2) Co to jest modelowanie danych?

Modelowanie danych jest metodą dokumentowania złożonego projektu oprogramowania jako diagramu, aby każdy mógł go łatwo zrozumieć. Jest to koncepcyjna reprezentacja obiektów danych, które są powiązane między różnymi obiektami danych i regułami.

Modelowanie danych


3) Wymień różne typy schematów projektowych w modelowaniu danych

W modelowaniu danych istnieją głównie dwa typy schematów: 1) schemat gwiazdy i 2) schemat płatka śniegu.


4) Rozróżnij dane ustrukturyzowane i nieustrukturyzowane

Poniżej przedstawiono różnicę między danymi ustrukturyzowanymi i nieustrukturyzowanymi:

Parametr Dane strukturalne Dane nieustrukturyzowane
Magazynowanie DBMS Niezarządzane struktury plików
Standardowa ADO.net, ODBC i SQL STMP, XML, CSV i SMS
Narzędzie integracyjne ELT (wyodrębnij, przekształć, załaduj) Ręczne wprowadzanie danych lub przetwarzanie wsadowe obejmujące kody
skalowaniem Skalowanie schematu jest trudne Skalowanie jest bardzo proste.

5) Wyjaśnij wszystkie komponenty aplikacji Hadoop

Poniżej znajdują się pliki komponenty aplikacji Hadoop:

Ekosystem i komponenty Hadoop

  • Wspólne usługi Hadoopa: Jest to powszechny zestaw narzędzi i bibliotek wykorzystywanych przez Hadoop.
  • HDFS: Ta aplikacja Hadoop dotyczy systemu plików, w którym przechowywane są dane Hadoop. Jest to rozproszony system plików o dużej przepustowości.
  • Mapa HadoopRedukuj: Opiera się na algorytmie zapewniającym przetwarzanie danych na dużą skalę.
  • Przędza Hadoop: Służy do zarządzania zasobami w klastrze Hadoop. Może być również używany do planowania zadań dla użytkowników.

6) Co to jest NameNode?

Jest to centralny element HDFS. Przechowuje dane HDFS i śledzi różne pliki w klastrach. Tutaj rzeczywiste dane nie są przechowywane. Dane są przechowywane w DataNodes.


7) Zdefiniuj przesyłanie strumieniowe Hadoop

Narzędzie umożliwiające tworzenie mapy oraz redukcję zadań i przesyłanie ich do określonego klastra.


8) Jaka jest pełna forma HDFS?

HDFS oznacza rozproszony system plików Hadoop.


9) Zdefiniuj blok i skaner bloków w HDFS

Bloki to najmniejsza jednostka pliku danych. Hadoop automatycznie dzieli duże pliki na małe części.

Block Scanner weryfikuje listę bloków prezentowanych w DataNode.


10) Jakie kroki należy wykonać, gdy skaner bloków wykryje uszkodzony blok danych?

Poniżej przedstawiono kroki, jakie należy podjąć, gdy Block Scanner znajdzie uszkodzony blok danych:

1) Po pierwsze, gdy skaner bloków znajdzie uszkodzony blok danych, DataNode zgłosi się do NameNode

2) NameNode rozpoczyna proces tworzenia nowej repliki przy użyciu repliki uszkodzonego bloku.

3) Liczba replikacji prawidłowych replik próbuje dopasować się do współczynnika replikacji. Jeśli znaleziono dopasowanie, uszkodzony blok danych nie zostanie usunięty.


11) Wymień dwie wiadomości, które NameNode otrzymuje od DataNode?

Istnieją dwie wiadomości, które NameNode otrzymuje od DataNode. Są to 1) Raport blokowy i 2) Bicie serca.


12) Wylistować różne pliki konfiguracyjne XML w Hadoop?

W Hadoop istnieje pięć plików konfiguracyjnych XML:

  • Mapowana witryna
  • Strona główna
  • Witryna HDFS
  • Strona przędzy

13) Jakie są cztery V dużych zbiorów danych?

Cztery V big data to:

  • Szybkość
  • Odmiana
  • objętość
  • Prawdziwość

14) Wyjaśnij funkcje Hadoopa

Ważne funkcje Hadoopa to:

  • Jest to platforma typu open source, która jest dostępna bezpłatnie.
  • Hadoop jest kompatybilny z wieloma typami sprzętu i zapewnia łatwy dostęp do nowego sprzętu w określonym węźle.
  • Hadoop obsługuje szybsze rozproszone przetwarzanie danych.
  • Przechowuje dane w klastrze, który jest niezależny od pozostałych operacji.
  • Hadoop umożliwia utworzenie 3 replik dla każdego bloku z różnymi węzłami.

15) Wyjaśnij główne metody Reduktora

  • setup (): służy do konfigurowania parametrów, takich jak rozmiar danych wejściowych i rozproszona pamięć podręczna.
  • cleanup(): Ta metoda służy do czyszczenia plików tymczasowych.
  • redukcja(): Jest to serce reduktora, które jest wywoływane raz na klawisz z powiązanym zredukowanym zadaniem

16) Jaki jest skrót COSHH?

Skrót COSHH oznacza Classification and Optimization based Schedule for Heterogeneous Hadoop Systems.


17) Wyjaśnij schemat gwiazdy

Schemat gwiazdy lub Star Join Schema to najprostszy typ schematu hurtowni danych. Nazywa się go schematem gwiazdy, ponieważ jego struktura przypomina gwiazdę. W schemacie gwiazdy środek gwiazdy może mieć jedną tabelę faktów i wiele powiązanych tabel wymiarów. Ten schemat służy do wykonywania zapytań o duże zbiory danych.


18) Jak wdrożyć rozwiązanie big data?

Aby wdrożyć rozwiązanie big data, wykonaj następujące czynności.

1) Integruj dane przy użyciu źródeł danych takich jak RDBMS, SAP, MySQL, Salesforce
2) Przechowuj wyodrębnione dane w bazie danych NoSQL lub HDFS.
3) Wdróż rozwiązanie Big Data przy użyciu platform przetwarzania takich jak Pig, Sparki MapReduce.


19) Wyjaśnij FSCK

Sprawdzanie systemu plików lub FSCK to polecenie używane przez system HDFS. Polecenie FSCK służy do sprawdzania niespójności i problemów w pliku.


20) Wyjaśnij schemat płatka śniegu

A Schemat płatka śniegu jest rozszerzeniem Schematu Gwiazdy i dodaje dodatkowe wymiary. Nazywa się go płatkiem śniegu, ponieważ jego diagram wygląda jak płatek śniegu. Tabele wymiarów są znormalizowane, co dzieli dane na dodatkowe tabele.


21) Rozróżnij schemat gwiazdy i płatka śniegu

Gwiazda Schemat płatka śniegu
Hierarchie wymiarów są przechowywane w tabeli wymiarów. Każda hierarchia jest przechowywana w oddzielnych tabelach.
Szanse na nadmiarowość danych są wysokie Szanse na nadmiarowość danych są niskie.
Ma bardzo prostą konstrukcję DB Posiada złożoną konstrukcję bazy danych
Zapewnij szybszy sposób przetwarzania kostek Przetwarzanie kostki jest powolne ze względu na złożoną strukturę połączeń.

22) Wyjaśnij rozproszony system plików Hadoop

Hadoop współpracuje ze skalowalnymi rozproszonymi systemami plików, takimi jak S3, HFTP FS, FS i HDFS. Hadoop Distributed File System jest tworzony w systemie plików Google. Ten system plików jest zaprojektowany w taki sposób, że może być łatwo uruchomiony w dużym klastrze systemu komputerowego.


23) Wyjaśnij główne obowiązki inżyniera danych

Inżynierowie danych mają wiele obowiązków. Zarządzają systemem źródłowym danych. Inżynierowie danych upraszczają złożoną strukturę danych i zapobiegają reduplikacji danych. Często zapewniają również ELT i transformację danych.


24) Jaka jest pełna forma PRZĘDZY?

Pełna forma YARN to kolejny negocjator zasobów.


25) Wypisz różne tryby w Hadoop

Tryby w Hadoop to 1) tryb autonomiczny 2) tryb pseudorozproszony 3) tryb w pełni rozproszony.


26) Jak zapewnić bezpieczeństwo w Hadoop?

Aby zapewnić bezpieczeństwo w Hadoop, wykonaj następujące kroki:

1) Pierwszym krokiem jest zabezpieczenie kanału uwierzytelniania klienta na serwerze. Podaj klientowi znacznik czasu.
2) W drugim kroku klient wykorzystuje otrzymany znacznik czasu w celu zażądania od TGS biletu serwisowego.
3) W ostatnim kroku klient korzysta z biletu serwisowego w celu samouwierzytelnienia na konkretnym serwerze.


27) Co to jest puls w Hadoop?

W Hadoop NameNode i DataNode komunikują się ze sobą. Heartbeat to sygnał wysyłany regularnie przez DataNode do NameNode w celu zasygnalizowania swojej obecności.


28) Rozróżnij pomiędzy NAS i DAS w Hadoop

NAS DAS
Pojemność pamięci wynosi 109 do 1012 w bajcie. Pojemność pamięci wynosi 109 w bajcie.
Koszt zarządzania na GB jest umiarkowany. Koszt zarządzania na GB jest wysoki.
Przesyłaj dane za pomocą Ethernetu lub TCP/IP. Przesyłaj dane za pomocą IDE/SCSI

29) Wymień ważne pola lub języki używane przez inżyniera danych

Oto kilka pól lub języków używanych przez inżyniera danych:

  • Prawdopodobieństwo i algebra liniowa
  • Nauczanie maszynowe
  • Analiza trendów i regresja
  • Bazy danych Hive QL i SQL

30) Czym są duże dane?

Jest to duża ilość danych ustrukturyzowanych i nieustrukturyzowanych, których nie da się łatwo przetworzyć tradycyjnymi metodami przechowywania danych. Inżynierowie danych używają Hadoop do zarządzania dużymi zbiorami danych.


Pytania do rozmowy kwalifikacyjnej z inżynierem danych dla doświadczonych

31) Co to jest harmonogram FIFO?

Jest to algorytm planowania zadań Hadoop. W tym harmonogramie FIFO osoba raportująca wybiera zadania z kolejki roboczej, najpierw najstarsze zadanie.


32) Podaj domyślne numery portów, na których działa moduł śledzenia zadań, NameNode i moduł śledzenia zadań w systemie Hadoop

Domyślne numery portów, na których działa moduł śledzenia zadań, NameNode i moduł śledzenia zadań w systemie Hadoop, są następujące:

  • Narzędzie do śledzenia zadań działa na porcie 50060
  • NameNode działa na porcie 50070
  • Job Tracker działa na porcie 50030

33) Jak wyłączyć skaner bloków w węźle danych HDFS

Aby wyłączyć skaner bloków w węźle danych HDFS, ustaw parametr dfs.datanode.scan.period.hours na 0.


34) Jak zdefiniować odległość pomiędzy dwoma węzłami w Hadoop?

Odległość jest równa sumie odległości do najbliższych węzłów. Do obliczenia odległości pomiędzy dwoma węzłami używana jest metoda getDistance().


35) Po co używać standardowego sprzętu w Hadoop?

Sprzęt towarowy jest łatwy do zdobycia i niedrogi. Jest to system kompatybilny z Windows, MS-DOS lub Linux.


36) Zdefiniuj współczynnik replikacji w HDFS

Współczynnik replikacji to całkowita liczba replik pliku w systemie.


37) Jakie dane są przechowywane w NameNode?

Namenode przechowuje metadane dla systemu HDFS, takie jak informacje o blokach i informacje o przestrzeni nazw.


38) Co masz na myśli mówiąc „Świadomość stojaka”?

W klastrze Haddop, Namenode używa Datanode do poprawy ruchu sieciowego podczas odczytu lub zapisu dowolnego pliku, który jest bliżej pobliskiego racka, aby zażądać Read lub Write. Namenode utrzymuje identyfikator racka każdego DataNode, aby uzyskać informacje o racku. Ta koncepcja jest nazywana Rack Awareness w Hadoop.


39) Jakie są funkcje Secondary NameNode?

Poniżej przedstawiono funkcje Secondary NameNode:

  • FsImage, który przechowuje kopię pliku EditLog i FsImage.
  • Awaria NameNode: Jeśli NameNode ulegnie awarii, wówczas do odtworzenia NameNode można użyć FsImage dodatkowego węzła NameNode.
  • Punkt kontrolny: Jest używany przez Secondary NameNode w celu potwierdzenia, że ​​dane w systemie HDFS nie są uszkodzone.
  • Aktualizacja: Automatycznie aktualizuje pliki EditLog i FsImage. Pomaga aktualizować plik FsImage w dodatkowym węźle nazw.

40) Co się stanie, gdy NameNode nie będzie działać, a użytkownik prześle nowe zadanie?

NameNode to pojedynczy punkt awarii w Hadoop, więc użytkownik nie może przesłać nowego zadania, którego nie może wykonać. Jeśli NameNode nie działa, zadanie może zakończyć się niepowodzeniem, ponieważ użytkownik musi poczekać na ponowne uruchomienie NameNode przed uruchomieniem jakiegokolwiek zadania.


41) Jakie są podstawowe fazy reduktora w Hadoop?

Istnieją trzy podstawowe fazy reduktora w Hadoop:

1. Losuj: Tutaj Reduktor kopiuje dane wyjściowe z Mappera.

2. Sortowanie: Podczas sortowania Hadoop sortuje dane wejściowe do narzędzia Reduktor przy użyciu tego samego klucza.

3. Zmniejsz: W tej fazie wartości wyjściowe powiązane z kluczem są redukowane w celu skonsolidowania danych w ostateczny wynik.


42) Dlaczego Hadoop używa obiektu Context?

Struktura Hadoop używa obiektu Context z klasą Mapper w celu interakcji z pozostałym systemem. Obiekt Context pobiera szczegóły konfiguracji systemu i zadanie w swoim konstruktorze.

Używamy obiektu Context, aby przekazać informacje w metodach setup(), cleanup() i map(). Ten obiekt udostępnia istotne informacje podczas operacji map.


43) Zdefiniuj Combiner w Hadoop

Jest to opcjonalny krok pomiędzy Map i Reduce. Combiner pobiera dane wyjściowe z funkcji Map, tworzy pary klucz-wartość i przesyła do Hadoop Reducer. Zadanie Combinera polega na podsumowaniu końcowego wyniku z Map do rekordów podsumowania z identycznym kluczem.


44) Jaki jest domyślny współczynnik replikacji dostępny w HDFS. Co on oznacza?

Domyślny współczynnik replikacji dostępny w systemie HDFS wynosi trzy. Domyślny współczynnik replikacji wskazuje, że będą trzy repliki każdych danych.


45) Co masz na myśli mówiąc o lokalizacji danych w Hadoop?

W systemie Big Data rozmiar danych jest ogromny i dlatego przenoszenie danych przez sieć nie ma sensu. Teraz Hadoop próbuje przenieść obliczenia bliżej danych. W ten sposób dane pozostają lokalne w stosunku do przechowywanej lokalizacji.


46) Zdefiniuj Balancer w HDFS

W systemie HDFS moduł równoważący jest narzędziem administracyjnym używanym przez personel administracyjny do ponownego równoważenia danych w węzłach DataNodes i przenoszenia bloków z węzłów nadmiernie wykorzystywanych do niedostatecznie wykorzystywanych.


47) Wyjaśnij tryb awaryjny w HDFS

Jest to tryb tylko do odczytu NameNode w klastrze. Początkowo NameNode jest w trybie Safemode. Zapobiega on zapisywaniu do systemu plików w trybie Safemode. W tym czasie zbiera dane i statystyki ze wszystkich DataNode.


48) Jakie jest znaczenie rozproszonej pamięci podręcznej w Apache Hadoop?

Hadoop posiada użyteczną funkcję narzędzia tzw. Distributed Cache, która poprawia wydajność zadań poprzez buforowanie plików wykorzystywanych przez aplikacje. Aplikacja może określić plik pamięci podręcznej przy użyciu konfiguracji JobConf.

Framework Hadoop tworzy replikę tych plików w węzłach, w których należy wykonać zadanie. Odbywa się to przed rozpoczęciem realizacji zadania. Rozproszona pamięć podręczna obsługuje dystrybucję plików tylko do odczytu, a także plików zip i jars.


49) Czym jest Metastore w Hive?

Przechowuje schemat oraz lokalizację tabeli Hive.

Tabela Hive definiuje, mapowania i metadane przechowywane w Metastore. Można to przechowywać w RDBMS obsługiwanym przez JPOX.


50) Co oznacza SerDe w Hive?

SerDe to krótka nazwa serializatora lub deserializatora. W Hive SerDe umożliwia odczytywanie danych z tabeli i zapisywanie w określonym polu w dowolnym formacie.


51) Lista komponentów dostępnych w modelu danych Hive

Model danych Hive składa się z następujących komponentów:

  • Stoły
  • przegrody
  • Wiadra

52) Wyjaśnij zastosowanie Hive w ekosystemie Hadoop.

Hive zapewnia interfejs do zarządzania danymi przechowywanymi w ekosystemie Hadoop. Hive jest używany do mapowania i pracy z tabelami HBase. Zapytania Hive są konwertowane na zadania MapReduce w celu ukrycia złożoności związanej z tworzeniem i uruchamianiem zadań MapReduce.


53) Wymień różne złożone typy danych/kolekcje obsługiwane przez Hive

Hive obsługuje następujące złożone typy danych:

  • Mapa
  • Struktura
  • Szyk
  • Unia

54) Wyjaśnij, w jaki sposób używany jest plik .hiverc w Hive?

W Hive plik .hiverc jest plikiem inicjującym. Ten plik jest początkowo ładowany po uruchomieniu interfejsu wiersza poleceń (CLI) dla Hive. Możemy ustawić początkowe wartości parametrów w pliku .hiverc.


55) Czy można utworzyć więcej niż jedną tabelę w Hive dla jednego pliku danych?

Tak, możemy utworzyć więcej niż jeden schemat tabeli dla pliku danych. Hive zapisuje schemat w Hive Metastore. W oparciu o ten schemat możemy uzyskać różne wyniki z tych samych danych.


56) Wyjaśnij różne implementacje SerDe dostępne w Hive

W Hive dostępnych jest wiele implementacji SerDe. Możesz również napisać własną niestandardową implementację SerDe. Poniżej przedstawiono kilka znanych implementacji SerDe:

  • OtwórzCSVSerde
  • RegexSerDe
  • RozdzielanyJSONSerDe
  • ByteStreamTypedSerDe

57) Funkcje generowania tabeli list dostępne w Hive

Poniżej znajduje się lista funkcji generujących tabele:

  • Rozbij (tablicę)
  • JSON_tuple()
  • Stos()
  • Eksplodować (mapa)

58) Co to jest przekrzywiona tabela w Hive?

Tabela skośna to tabela, która częściej zawiera wartości kolumn. Jeśli w Hive podczas tworzenia określimy tabelę jako SKEWED, przekrzywione wartości są zapisywane w oddzielnych plikach, a pozostałe wartości trafiają do innego pliku.


59) Wypisz obiekty utworzone za pomocą instrukcji create w MySQL.

Obiekty utworzone przez instrukcję create w MySQL są następujące:

  • Baza danych
  • wskaźnik
  • Stół
  • Użytkownik
  • Procedura
  • Cyngiel
  • wydarzenie
  • Zobacz
  • Funkcjonować

60) Jak zobaczyć strukturę bazy danych w MySQL?

Aby zobaczyć strukturę bazy danych w MySQL, Można użyć

OPISZ, polecenie. Składnia tego polecenia to DESCRIBE Table name;.


Pytania do rozmowy kwalifikacyjnej SQL dla inżyniera danych

61) Jak wyszukać konkretny ciąg znaków w MySQL kolumna tabeli?

Użyj operatora regex, aby wyszukać ciąg w MySQL kolumna. Tutaj możemy również zdefiniować różne typy wyrażeń regularnych i wyszukiwać za pomocą wyrażenia regularnego.


62) Wyjaśnij, w jaki sposób analiza danych i duże zbiory danych mogą zwiększyć przychody firmy?

Oto sposoby, w jakie analiza danych i duże zbiory danych mogą zwiększyć przychody firmy:

  • Efektywnie wykorzystuj dane, aby zapewnić rozwój biznesu.
  • Zwiększ wartość klienta.
  • Przekształcenie analityczne w celu poprawy prognoz poziomu zatrudnienia.
  • Obniżenie kosztów produkcji organizacji.

Te pytania podczas rozmowy kwalifikacyjnej pomogą również w Twoim życiu (ustach)