60 najpopularniejszych pytań i odpowiedzi podczas rozmów kwalifikacyjnych dotyczących Hadoop (2025 r.)

Oto pytania i odpowiedzi dotyczące rozmów kwalifikacyjnych Hadoop MapReduce dla świeżych i doświadczonych kandydatów, którzy chcą zdobyć wymarzoną pracę.

Hadoop MapZmniejsz liczbę pytań podczas rozmowy kwalifikacyjnej

1) Co to jest redukcja mapy Hadoop?

Do przetwarzania dużych zestawów danych równolegle w klastrze Hadoop używany jest framework Hadoop MapReduce. Analiza danych wykorzystuje dwuetapowy proces mapowania i redukcji.


2) Jak działa Hadoop MapReduce?

W MapReduce podczas fazy mapowania zlicza słowa w każdym dokumencie, natomiast w fazie zmniejszania agreguje dane według dokumentu obejmującego cały zbiór. Na etapie mapy dane wejściowe są dzielone na części w celu analizy według zadań map działających równolegle w środowisku Hadoop.

👉 Bezpłatne pobieranie plików PDF: pytania i odpowiedzi dotyczące rozmów kwalifikacyjnych Hadoop i MapReduce


3) Wyjaśnij, na czym polega tasowanie w MapReduce?

Proces, w którym system wykonuje sortowanie i przesyła wyniki mapy do reduktora jako dane wejściowe, nazywany jest tasowaniem


4) Wyjaśnij, czym jest rozproszona pamięć podręczna w MapReduce Framework?

Rozproszona pamięć podręczna to ważna funkcja udostępniana przez framework MapReduce. Gdy chcesz udostępnić niektóre pliki we wszystkich węzłach w Hadoop Cluster, używana jest rozproszona pamięć podręczna. Pliki mogą być wykonywalnymi plikami jar lub prostymi plikami właściwości.

Hadoop MapZmniejsz liczbę pytań podczas rozmowy kwalifikacyjnej
Hadoop MapZmniejsz liczbę pytań podczas rozmowy kwalifikacyjnej

5) Wyjaśnij, czym jest NameNode w Hadoop?

NameNode w Hadoop to węzeł, w którym Hadoop przechowuje wszystkie informacje o lokalizacji plików HDFS (rozproszony system plików Hadoop)Innymi słowy, NameNode jest centralnym elementem systemu plików HDFS. Przechowuje on rejestr wszystkich plików w systemie plików i śledzi dane plików w klastrze lub wielu maszynach.


6) Wyjaśnij, czym jest JobTracker w Hadoop? Jakie działania wykonuje Hadoop?

In Hadoop do przesyłania i śledzenia zadań MapReduce używany jest JobTracker. Narzędzie do śledzenia zadań działa w oparciu o własny proces JVM

Job Tracker wykonuje następujące czynności w Hadoop

  • Aplikacja kliencka przesyła zadania do modułu śledzenia zadań
  • JobTracker komunikuje się z trybem nazwy, aby określić lokalizację danych
  • W pobliżu danych lub przy dostępnych slotach JobTracker lokalizuje węzły TaskTracker
  • Na wybranych węzłach TaskTracker przesyła pracę
  • Gdy zadanie się nie powiedzie, narzędzie do śledzenia zadań powiadamia i decyduje, co w takiej sytuacji zrobić.
  • Węzły TaskTracker są monitorowane przez JobTracker

7) Wyjaśnij, czym jest puls w systemie HDFS?

Puls odnosi się do sygnału używanego pomiędzy węzłem danych a węzłem nazwy oraz pomiędzy modułem śledzenia zadań a modułem śledzenia zadań. Jeśli węzeł nazwy lub moduł śledzenia zadań nie odpowiada na sygnał, uznaje się, że wystąpiły pewne problemy z węzłem danych lub zadaniem abstrakt


8) Wyjaśnij, czym są sumatory i kiedy należy ich używać w zadaniu MapReduce?

Aby zwiększyć efektywność Program MapReduce, Używane są łączniki. Ilość danych można zmniejszyć za pomocą łączników, które muszą zostać przesłane do reduktorów. Jeśli wykonywana operacja jest przemienna i asocjacyjna, możesz użyć swojego kodu reduktora jako łącznika. Wykonanie łącznika nie jest gwarantowane w Hadoop


9) Co się stanie, jeśli węzeł danych ulegnie awarii?

Gdy węzeł danych ulegnie awarii

  • Jobtracker i namenode wykrywają awarię
  • W węźle, w którym wystąpiła awaria, wszystkie zadania są ponownie zaplanowane
  • Namenode replikuje dane użytkownika do innego węzła

10) Wyjaśnij, czym jest egzekucja spekulacyjna?

W Hadoop podczas wykonywania spekulatywnego uruchamiana jest pewna liczba zduplikowanych zadań. Na innym węźle podrzędnym można wykonać wiele kopii tej samej mapy lub zadania redukcji, korzystając z wykonania spekulatywnego. Krótko mówiąc, jeśli wykonanie zadania na konkretnym dysku zajmuje dużo czasu, Hadoop utworzy zduplikowane zadanie na innym dysku. Dysk, który wykona zadanie jako pierwszy, zostaje zatrzymany, a dyski, które nie wykonają zadania jako pierwsze, zostaną zniszczone.


11) Wyjaśnij jakie są podstawowe parametry Mappera?

Podstawowymi parametrami Mappera są

  • LongWritable i Text
  • Tekst i IntWritable

12) Wyjaśnij, jaka jest funkcja partycjonowania MapReduce?

Funkcją partycjonatora MapReduce jest upewnienie się, że cała wartość pojedynczego klucza trafia do tego samego reduktora, co ostatecznie pomaga w równomiernym rozłożeniu wyniku mapy na reduktory


13) Wyjaśnij, jaka jest różnica między podziałem wejścia a blokiem HDFS?

Logiczny podział danych nazywany jest podziałem, natomiast fizyczny podział danych nazywany jest blokiem HDFS


14) Wyjaśnij, co dzieje się w formacie tekstowym?

W formacie wprowadzania tekstu każda linia w pliku tekstowym jest rekordem. Wartość to zawartość linii, a Key to przesunięcie bajtu linii. Na przykład klucz: longWritable, wartość: tekst


15) Wspomnij, jakie są główne parametry konfiguracyjne, które użytkownik musi określić, aby uruchomić zadanie MapReduce?

Użytkownik frameworka MapReduce musi określić

  • Lokalizacje wejściowe zadania w rozproszonym systemie plików
  • Lokalizacja wyjściowa zadania w rozproszonym systemie plików
  • Format wejściowy
  • Format wyjściowy
  • Klasa zawierająca funkcję map
  • Klasa zawierająca funkcję redukcji
  • Plik JAR zawierający klasy mapera, reduktora i sterownika

16) Wyjaśnij, czym jest WebDAV w Hadoop?

Aby obsługiwać edycję i aktualizację plików, WebDAV jest zestawem rozszerzeń protokołu HTTP. W większości systemów operacyjnych udziały WebDAV mogą być montowane jako systemy plików, więc możliwy jest dostęp do HDFS jako standardowego systemu plików poprzez udostępnienie HDFS przez WebDAV.


17) Wyjaśnij, czym jest Sqoop w Hadoop?

Aby przenieść dane pomiędzy Zarządzanie relacyjnymi bazami danych (RDBMS) i Hadoop HDFS używane jest narzędzie znane jako Sqoop. Za pomocą Sqoop dane można przesyłać z RDMS np MySQL or Oracle do HDFS, a także eksport danych z pliku HDFS do RDBMS


18) Wyjaśnij, w jaki sposób JobTracker planuje zadanie?

Task tracker wysyła komunikaty heartbeat do Jobtrackera zazwyczaj co kilka minut, aby upewnić się, że JobTracker jest aktywny i działa. Komunikat informuje również JobTracker o liczbie dostępnych slotów, dzięki czemu JobTracker może być na bieżąco z tym, gdzie można delegować pracę klastra


19) Wyjaśnij, co to jest format wejściowy pliku sekwencji?

Sequencefileinputformat służy do odczytywania plików po kolei. Jest to specyficzny format skompresowanego pliku binarnego zoptymalizowany do przekazywania danych pomiędzy danymi wyjściowymi jednego zadania MapReduce a danymi wejściowymi innego zadania MapReduce.


20) Wyjaśnij, do czego służy klasa conf.setMapper?

Conf.setMapperclass ustawia klasę programu odwzorowującego i wszystkie elementy związane z zadaniem mapy, takie jak odczytywanie danych i generowanie pary klucz-wartość z modułu odwzorowującego

21) Wyjaśnij, czym jest Hadoop?

Jest to oprogramowanie typu open source do przechowywania danych i uruchamiania aplikacji na klastrach sprzętu powszechnego użytku. Zapewnia ogromną moc przetwarzania i masową pamięć masową dla każdego typu danych.


22) Wspomnij, jaka jest różnica między RDBMS a Hadoopem?

RDBMS Hadoop
RDBMS to system zarządzania relacyjnymi bazami danych Hadoop to płaska struktura oparta na węzłach
Służył do przetwarzania OLTP, podczas gdy Hadoop Obecnie jest wykorzystywany do celów analitycznych i przetwarzania BIG DATA
W systemie RDBMS klaster bazy danych korzysta z tych samych plików danych przechowywanych w pamięci współdzielonej W Hadoop dane magazynowe mogą być przechowywane niezależnie w każdym węźle przetwarzającym.
Dane należy wstępnie przetworzyć przed ich zapisaniem nie musisz wstępnie przetwarzać danych przed ich zapisaniem

23) Wspomnieć o podstawowych komponentach Hadoop?

Podstawowe komponenty Hadoop obejmują m.in.

  • HDFS
  • MapaReduce

24) Co to jest NameNode w Hadoop?

NameNode w Hadoop to miejsce, w którym Hadoop przechowuje wszystkie informacje o lokalizacji plików w systemie HDFS. Jest to węzeł główny, na którym działa moduł śledzenia zadań i składa się z metadanych.


25) Wspomnij, z jakich komponentów danych korzysta Hadoop?

Składniki danych używane przez Hadoop to


26) Wspomnij, jakiego komponentu do przechowywania danych używa Hadoop?

Komponentem przechowywania danych używanym przez Hadoop jest HBase.


27) Wspomnij, jakie są najpopularniejsze formaty wejściowe zdefiniowane w Hadoop?

Najpopularniejszymi formatami wejściowymi zdefiniowanymi w Hadoop są:

  • Format wejściowy tekstu
  • Format wejściowy wartości klucza
  • Format wejściowy pliku sekwencji

28) Co w Hadoop oznacza „InputSplit”?

Dzieli pliki wejściowe na części i przypisuje każdy podział do narzędzia mapującego w celu przetworzenia.


29) W przypadku zadania Hadoop, jak napisać niestandardowy partycjoner?

Piszesz niestandardowy partycjoner dla zadania Hadoop, podążasz następującą ścieżką

  • Utwórz nową klasę, która rozszerza klasę Partitioner
  • Zastąp metodę getPartition
  • W opakowaniu, w którym uruchamiany jest plik MapReduce
  • Dodaj niestandardowy partycjoner do zadania, używając metody ustawionej Partitioner Class lub – dodaj niestandardowy partycjoner do zadania jako plik konfiguracyjny

30) Czy w przypadku zadania w Hadoop można zmienić liczbę tworzonych maperów?

Nie, nie można zmienić liczby tworzonych maperów. Liczba osób odwzorowujących jest określona przez liczbę podziałów wejściowych.


31) Wyjaśnij, czym jest plik sekwencji w Hadoop?

Do przechowywania par klucz/wartość binarna używany jest plik sekwencji. W przeciwieństwie do zwykłego skompresowanego pliku, plik sekwencyjny obsługuje dzielenie nawet wtedy, gdy dane wewnątrz pliku są skompresowane.


32) Kiedy Namenode nie działa, co dzieje się z modułem śledzenia zadań?

Namenode jest pojedynczym punktem awarii w systemie HDFS, więc gdy Namenode przestanie działać, klaster uruchomi się.


33) Wyjaśnij, jak odbywa się indeksowanie w systemie HDFS?

Hadoop ma unikalny sposób indeksowania. Po zapisaniu danych zgodnie z rozmiarem bloku system HDFS będzie nadal przechowywać ostatnią część danych, która określa, gdzie będzie znajdować się następna część danych.


34) Wyjaśnij, czy możliwe jest wyszukiwanie plików przy użyciu symboli wieloznacznych?

Tak, możliwe jest wyszukiwanie plików przy użyciu symboli wieloznacznych.


35) Wymień trzy pliki konfiguracyjne Hadoopa?

Trzy pliki konfiguracyjne to

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Wyjaśnij, w jaki sposób możesz sprawdzić, czy Namenode działa obok polecenia jps?

Oprócz użycia polecenia jps, aby sprawdzić, czy Namenode działa, możesz także użyć

Stan pliku /etc/init.d/hadoop-0.20-namenode.


37) Wyjaśnij, czym jest „mapa” i czym jest „reduktor” w Hadoop?

W Hadoop mapa jest fazą rozwiązywania zapytań HDFS. Mapa odczytuje dane z lokalizacji wejściowej i generuje parę klucz-wartość zgodnie z typem danych wejściowych.

W Hadoop reduktor zbiera dane wyjściowe generowane przez narzędzie mapujące, przetwarza je i tworzy własny końcowy wynik.


38) Który plik w Hadoop kontroluje raportowanie w Hadoop?

W Hadoop plik hadoop-metrics.properties kontroluje raportowanie.


39) Aby korzystać z Hadoop, wymień wymagania sieciowe?

Aby korzystać z Hadoop, lista wymagań sieciowych jest następująca:

  • Połączenie SSH bez hasła
  • Secure Shell (SSH) do uruchamiania procesów serwera

40) Wspomnij, czym jest świadomość stojaka?

Świadomość stojaka to sposób, w jaki węzeł nazw określa sposób umieszczania bloków w oparciu o definicje stojaka.


41) Wyjaśnij, czym jest narzędzie do śledzenia zadań w Hadoop?

Task Tracker w Hadoop to demon węzła podrzędnego w klastrze, który akceptuje zadania z JobTrackera. Wysyła również komunikaty heartbeat do JobTrackera co kilka minut, aby potwierdzić, że JobTracker nadal działa.


42) Wspomnij, jakie demony działają w węźle głównym i węzłach podrzędnych?

  • Demony uruchamiane w węźle głównym to „NameNode”
  • Demony uruchamiane na każdym węźle Slave to „Task Tracker” i „Data”

43) Wyjaśnij, w jaki sposób można debugować kod Hadoop?

Popularne metody debugowania kodu Hadoop to:

  • Korzystając z interfejsu WWW udostępnianego przez framework Hadoop
  • Za pomocą liczników

44) Wyjaśnij, czym są węzły magazynujące i obliczeniowe?

  • Węzeł magazynowania to maszyna lub komputer, w którym znajduje się system plików, w którym przechowywane są przetwarzane dane
  • Węzeł obliczeniowy to komputer lub maszyna, na której będzie wykonywana rzeczywista logika biznesowa.

45) Wspomnij, jakie jest zastosowanie obiektu kontekstowego?

Obiekt kontekstowy umożliwia osobie mapującej interakcję z resztą platformy Hadoop

system. Zawiera dane konfiguracyjne zadania, a także interfejsy umożliwiające mu emisję danych wyjściowych.


46) Wspomnij, jaki jest następny krok po Mapperze lub MapTasku?

Następnym krokiem po Mapperze lub MapTasku jest posortowanie danych wyjściowych Mappera i utworzenie partycji dla wyników.


47) Wspomnij, jaki jest numer domyślnego partycjonatora w Hadoop?

W Hadoop domyślnym partycjonerem jest partycjoner „Hash”.


48) Wyjaśnij, do czego służy RecordReader w Hadoop?

W Hadoop RecordReader ładuje dane ze źródła i konwertuje je na pary (klucz, wartość) odpowiednie do odczytu przez Mappera.


49) Wyjaśnij, w jaki sposób dane są partycjonowane przed wysłaniem do reduktora, jeśli w Hadoop nie zdefiniowano niestandardowego modułu partycjonowania?

Jeśli w Hadoop nie zdefiniowano żadnego niestandardowego partycjonatora, domyślny partycjoner oblicza wartość skrótu dla klucza i przypisuje partycję na podstawie wyniku.


50) Wyjaśnij, co się stanie, gdy Hadoop utworzy 50 zadań dla zadania, a jedno z nich zakończy się niepowodzeniem?

Uruchomi ponownie zadanie ponownie na innym TaskTrackerze, jeśli zadanie zakończy się niepowodzeniem w stopniu większym niż zdefiniowany limit.


51) Podaj najlepszy sposób kopiowania plików pomiędzy klastrami HDFS.

Najlepszym sposobem kopiowania plików między klastrami HDFS jest użycie wielu węzłów i polecenia distcp, dzięki czemu obciążenie jest dzielone.


52) Wspomnij, jaka jest różnica między HDFS a NAS?

Bloki danych HDFS są rozproszone na dyskach lokalnych wszystkich maszyn w klastrze, natomiast dane NAS są przechowywane na dedykowanym sprzęcie.


53) Wspomnij, czym Hadoop różni się od innych narzędzi do przetwarzania danych?

W Hadoop możesz zwiększać lub zmniejszać liczbę maperów, nie martwiąc się o ilość danych do przetworzenia.


54) Wspomnij, jakie zadanie wykonuje klasa conf?

Klasa Job conf oddziela różne zadania uruchamiane w tym samym klastrze. Wykonuje ustawienia na poziomie zadania, takie jak deklarowanie zadania w rzeczywistym środowisku.


55) Wspomnij, czym jest umowa interfejsów API Hadoop MapReduce dla klasy klucza i wartości?

W przypadku klasy klucza i wartości istnieją dwa kontrakty interfejsów API Hadoop MapReduce

  • Wartość musi definiować interfejs org.apache.hadoop.io.Writable
  • Kluczem musi być zdefiniowanie interfejsu org.apache.hadoop.io.WritableComparable

56) Wspomnij, w jakich trzech trybach można uruchomić Hadoop?

Trzy tryby, w których można uruchomić Hadoop, to

  • Tryb pseudorozproszony
  • Tryb autonomiczny (lokalny).
  • Tryb w pełni rozproszony

57) Wspomnij, do czego służy format wprowadzania tekstu?

Format wprowadzania tekstu utworzy obiekt liniowy będący liczbą szesnastkową. Wartość jest traktowana jako tekst w całej linii, podczas gdy klucz jest traktowany jako obiekt liniowy. Osoba odwzorowująca otrzyma wartość jako parametr „text”, a klucz jako parametr „longwriteable”.


58) Wspomnij, ile SplitSplitów jest tworzonych przez środowisko Hadoop?

Hadoop dokona 5 podziałów

  • 1 podział dla plików 64K
  • Podzielony na 2 pliki o rozmiarze 65 MB
  • 2 podziały dla plików 127 MB

59) Wspomnij, czym jest rozproszona pamięć podręczna w Hadoop?

Rozproszona pamięć podręczna w Hadoop to funkcja udostępniana przez framework MapReduce. W momencie wykonania zadania służy do buforowania pliku. Struktura kopiuje niezbędne pliki do węzła podrzędnego przed wykonaniem dowolnego zadania w tym węźle.


60) Wyjaśnij, w jaki sposób ścieżka klas Hadoop odgrywa istotną rolę w zatrzymywaniu lub uruchamianiu demonów Hadoop?

Ścieżka klasy będzie składać się z listy katalogów zawierających pliki jar służące do zatrzymywania lub uruchamiania demonów.

Te pytania podczas rozmowy kwalifikacyjnej pomogą również w Twoim życiu (ustach)