60 Pertanyaan dan Jawaban Wawancara Hadoop Teratas (2025)
Berikut adalah pertanyaan dan jawaban wawancara Hadoop MapReduce untuk kandidat baru dan berpengalaman untuk mendapatkan pekerjaan impian mereka.
Pertanyaan Wawancara Hadoop MapReduce
1) Apa yang dimaksud dengan Pengurangan Peta Hadoop?
Untuk memproses kumpulan data besar secara paralel di seluruh kluster Hadoop, digunakan kerangka kerja Hadoop MapReduce. Analisis data menggunakan proses map and reduce dua langkah.
2) Bagaimana cara kerja Hadoop MapReduce?
Di MapReduce, selama fase peta, ia menghitung kata-kata di setiap dokumen, sedangkan pada fase pengurangan, ia mengumpulkan data sesuai dokumen yang mencakup seluruh koleksi. Selama fase peta, data masukan dibagi menjadi beberapa bagian untuk dianalisis dengan tugas peta yang berjalan secara paralel di seluruh kerangka Hadoop.
Unduh PDF Gratis: Pertanyaan & Jawaban Wawancara Hadoop & MapReduce
3) Jelaskan apa yang dimaksud dengan pengacakan di MapReduce?
Proses dimana sistem melakukan pengurutan dan mentransfer keluaran peta ke peredam sebagai masukan dikenal sebagai shuffle
4) Jelaskan apa yang dimaksud dengan Cache yang didistribusikan di MapReduce Framework?
Cache Terdistribusi adalah fitur penting yang disediakan oleh kerangka MapReduce. Saat Anda ingin berbagi beberapa file ke semua node di Hadoop Cluster, Cache Terdistribusi digunakan. File tersebut dapat berupa file jar yang dapat dieksekusi atau file properti sederhana.
5) Jelaskan apa itu NameNode di Hadoop?
NameNode di Hadoop adalah node, tempat Hadoop menyimpan semua informasi lokasi file HDFS (Sistem File Terdistribusi Hadoop)Dengan kata lain, NameNode adalah inti dari sistem berkas HDFS. Ia menyimpan catatan semua berkas dalam sistem berkas dan melacak data berkas di seluruh kluster atau beberapa mesin.
6) Jelaskan apa itu JobTracker di Hadoop? Apa tindakan yang diikuti oleh Hadoop?
In Hadoop untuk mengirimkan dan melacak pekerjaan MapReduce, JobTracker digunakan. Pelacak pekerjaan dijalankan pada proses JVM-nya sendiri
Job Tracker melakukan tindakan berikut di Hadoop
- Aplikasi klien mengirimkan pekerjaan ke pelacak pekerjaan
- JobTracker berkomunikasi ke mode Nama untuk menentukan lokasi data
- Di dekat data atau dengan slot yang tersedia, JobTracker menemukan node TaskTracker
- Pada Node TaskTracker yang dipilih, ia mengirimkan pekerjaan
- Ketika suatu tugas gagal, Pelacak pekerjaan memberi tahu dan memutuskan apa yang harus dilakukan.
- Node TaskTracker dipantau oleh JobTracker
7) Jelaskan apa itu detak jantung di HDFS?
Detak jantung mengacu pada sinyal yang digunakan antara node data dan node Nama, dan antara pelacak tugas dan pelacak pekerjaan, jika node Nama atau pelacak pekerjaan tidak merespons sinyal tersebut, maka dianggap ada beberapa masalah dengan node data atau tugas pelacak
8) Jelaskan apa itu penggabung dan kapan Anda harus menggunakan penggabung dalam Pekerjaan MapReduce?
Untuk meningkatkan efisiensi Program Pengurangan Peta, Penggabung digunakan. Jumlah data dapat dikurangi dengan bantuan penggabung yang perlu ditransfer ke pereduksi. Jika operasi yang dilakukan bersifat komutatif dan asosiatif, Anda dapat menggunakan kode peredam sebagai penggabung. Eksekusi penggabung tidak dijamin di Hadoop
9) Apa yang terjadi jika node data gagal?
Ketika node data gagal
- Jobtracker dan namenode mendeteksi kegagalan
- Pada node yang gagal, semua tugas dijadwalkan ulang
- Namenode mereplikasi data pengguna ke node lain
10) Jelaskan apa itu Eksekusi Spekulatif?
Di Hadoop selama Eksekusi Spekulatif, sejumlah tugas duplikat diluncurkan. Pada node budak yang berbeda, beberapa salinan dari tugas peta atau pengurangan yang sama dapat dieksekusi menggunakan Eksekusi Spekulatif. Dengan kata sederhana, jika drive tertentu membutuhkan waktu lama untuk menyelesaikan suatu tugas, Hadoop akan membuat tugas duplikat di disk lain. Disk yang menyelesaikan tugasnya terlebih dahulu akan dipertahankan dan disk yang tidak menyelesaikan tugasnya terlebih dahulu akan dimatikan.
11) Jelaskan apa saja parameter dasar Mapper?
Parameter dasar Mapper adalah
- Dapat Ditulis Panjang dan Teks
- Teks dan IntWritable
12) Jelaskan apa fungsi partisi MapReduce?
Fungsi pemartisi MapReduce adalah untuk memastikan bahwa semua nilai dari satu kunci masuk ke peredam yang sama, yang pada akhirnya membantu pemerataan keluaran peta melalui reduksi
13) Jelaskan apa perbedaan antara Input Split dan Blok HDFS?
Pembagian data secara logis dikenal sebagai Split sedangkan pembagian data secara fisik dikenal sebagai Blok HDFS
14) Jelaskan apa yang terjadi dalam format teks?
Dalam format input teks, setiap baris dalam file teks adalah sebuah record. Nilai adalah isi baris sedangkan Kunci adalah byte offset baris. Misalnya, Kunci: panjangWritable, Nilai: teks
15) Sebutkan parameter konfigurasi utama apa yang perlu ditentukan pengguna untuk menjalankan Pekerjaan MapReduce?
Pengguna kerangka MapReduce perlu menentukan
- Lokasi masukan pekerjaan dalam sistem file terdistribusi
- Lokasi keluaran pekerjaan dalam sistem file terdistribusi
- Masukkan format
- Format output
- Kelas yang berisi fungsi peta
- Kelas yang berisi fungsi pengurangan
- File JAR yang berisi kelas mapper, peredam dan driver
16) Jelaskan apa itu WebDAV di Hadoop?
Untuk mendukung penyuntingan dan pembaruan berkas, WebDAV merupakan serangkaian ekstensi untuk HTTP. Pada sebagian besar sistem operasi, berbagi WebDAV dapat dipasang sebagai sistem berkas, sehingga memungkinkan untuk mengakses HDFS sebagai sistem berkas standar dengan mengekspos HDFS melalui WebDAV.
17) Jelaskan apa itu Sqoop di Hadoop?
Untuk mentransfer data antar Manajemen basis data relasional (RDBMS) dan Hadoop HDFS alat yang digunakan dikenal sebagai Sqoop. Menggunakan Sqoop data dapat ditransfer dari RDMS seperti MySQL or Oracle ke HDFS serta mengekspor data dari file HDFS ke RDBMS
18) Jelaskan bagaimana JobTracker menjadwalkan tugas?
Pelacak tugas mengirimkan pesan detak jantung ke Jobtracker biasanya setiap beberapa menit untuk memastikan bahwa JobTracker aktif dan berfungsi. Pesan tersebut juga menginformasikan JobTracker tentang jumlah slot yang tersedia, sehingga JobTracker dapat terus mengetahui di mana pekerjaan klaster dapat didelegasikan.
19) Jelaskan apa itu format input Sequencefile?
Format input file urutan digunakan untuk membaca file secara berurutan. Ini adalah format file biner terkompresi khusus yang dioptimalkan untuk meneruskan data antara output dari satu pekerjaan MapReduce ke input dari beberapa pekerjaan MapReduce lainnya.
20) Jelaskan apa yang dilakukan Kelas conf.setMapper?
Conf.setMapperclass menyetel kelas mapper dan semua hal yang terkait dengan pekerjaan peta seperti membaca data dan menghasilkan pasangan nilai kunci dari mapper
21) Jelaskan apa itu Hadoop?
Ini adalah kerangka kerja perangkat lunak sumber terbuka untuk menyimpan data dan menjalankan aplikasi pada kelompok perangkat keras komoditas. Kerangka kerja ini menyediakan daya pemrosesan yang sangat besar dan penyimpanan yang sangat besar untuk semua jenis data.
22) Sebutkan apa perbedaan antara RDBMS dan Hadoop?
RDBMS | Hadoop |
---|---|
RDBMS adalah sistem manajemen basis data relasional | Hadoop adalah struktur datar berbasis node |
Ini digunakan untuk pemrosesan OLTP sedangkan Hadoop | Saat ini digunakan untuk analisis dan pemrosesan DATA BESAR |
Dalam RDBMS, cluster database menggunakan file data yang sama yang disimpan dalam penyimpanan bersama | Di Hadoop, data penyimpanan dapat disimpan secara independen di setiap node pemrosesan. |
Anda perlu memproses data terlebih dahulu sebelum menyimpannya | Anda tidak perlu memproses data terlebih dahulu sebelum menyimpannya |
23) Sebutkan komponen inti Hadoop?
Komponen inti Hadoop meliputi,
- HDFS
- PetaKurangi
24) Apa itu NameNode di Hadoop?
NameNode di Hadoop adalah tempat Hadoop menyimpan semua informasi lokasi file di HDFS. Ini adalah simpul utama tempat pelacak pekerjaan dijalankan dan terdiri dari metadata.
25) Sebutkan komponen data apa saja yang digunakan Hadoop?
Komponen data yang digunakan Hadoop adalah
26) Sebutkan komponen penyimpanan data apa yang digunakan Hadoop?
Komponen penyimpanan data yang digunakan Hadoop adalah HBase.
27) Sebutkan format masukan apa yang paling umum ditentukan di Hadoop?
Format input paling umum yang ditentukan di Hadoop adalah;
- Format Masukan Teks
- Format InputNilai Kunci
- Format InputFile Urutan
28) Di Hadoop apa itu InputSplit?
Ini membagi file masukan menjadi beberapa bagian dan menugaskan setiap bagian ke pembuat peta untuk diproses.
29) Untuk pekerjaan Hadoop, bagaimana Anda menulis partisi khusus?
Anda menulis partisi khusus untuk pekerjaan Hadoop, Anda mengikuti jalur berikut
- Buat kelas baru yang memperluas Kelas Partisi
- Ganti metode getPartition
- Di pembungkus yang menjalankan MapReduce
- Tambahkan pemartisi khusus ke pekerjaan dengan menggunakan metode set Kelas Partisi atau – tambahkan pemartisi khusus ke pekerjaan sebagai file konfigurasi
30) Untuk pekerjaan di Hadoop, apakah mungkin mengubah jumlah pembuat peta yang akan dibuat?
Tidak, jumlah pembuat peta yang akan dibuat tidak dapat diubah. Jumlah pembuat peta ditentukan oleh jumlah pemisahan input.
31) Jelaskan apa yang dimaksud dengan file urutan di Hadoop?
Untuk menyimpan pasangan kunci/nilai biner, file urutan digunakan. Tidak seperti file terkompresi biasa, file urutan mendukung pemisahan bahkan ketika data di dalam file dikompresi.
32) Saat Namenode mati, apa yang terjadi pada pelacak pekerjaan?
Namenode merupakan titik kegagalan tunggal dalam HDFS, jadi jika Namenode mati, klaster Anda akan aktif.
33) Jelaskan bagaimana pengindeksan di HDFS dilakukan?
Hadoop memiliki cara pengindeksan yang unik. Setelah data disimpan sesuai ukuran blok, HDFS akan terus menyimpan bagian terakhir dari data yang menunjukkan di mana bagian data selanjutnya akan berada.
34) Jelaskan apakah mungkin mencari file menggunakan wildcard?
Ya, pencarian file dapat dilakukan menggunakan wildcard.
35) Sebutkan tiga file konfigurasi Hadoop?
Ketiga file konfigurasi tersebut adalah
- inti-situs.xml
- situs-mapred.xml
- hdfs-situs.xml
36) Jelaskan bagaimana cara memeriksa apakah Namenode berfungsi selain menggunakan perintah jps?
Selain menggunakan perintah jps, untuk mengecek apakah Namenode berfungsi Anda juga bisa menggunakan
/etc/init.d/hadoop-0.20-status namanode.
37) Jelaskan apa itu “peta” dan apa itu “peredam” di Hadoop?
Di Hadoop, peta adalah fase dalam penyelesaian kueri HDFS. Peta membaca data dari lokasi masukan, dan mengeluarkan pasangan nilai kunci sesuai dengan jenis masukan.
Di Hadoop, peredam mengumpulkan keluaran yang dihasilkan oleh pembuat peta, memprosesnya, dan membuat keluaran akhirnya sendiri.
38) Di Hadoop, file manakah yang mengontrol pelaporan di Hadoop?
Di Hadoop, file hadoop-metrics.properties mengontrol pelaporan.
39) Untuk menggunakan Hadoop, daftarkan persyaratan jaringan?
Untuk menggunakan Hadoop, daftar persyaratan jaringan adalah:
- Koneksi SSH tanpa kata sandi
- Secure Shell (SSH) untuk meluncurkan proses server
40) Sebutkan apa yang dimaksud dengan kesadaran rak?
Kesadaran rak adalah cara namenode menentukan cara menempatkan blok berdasarkan definisi rak.
41) Jelaskan apa itu Pelacak Tugas di Hadoop?
Task Tracker di Hadoop adalah daemon slave node dalam cluster yang menerima tugas dari JobTracker. Ia juga mengirimkan pesan detak jantung ke JobTracker, setiap beberapa menit, untuk mengonfirmasi bahwa JobTracker masih aktif.
42) Sebutkan daemon apa yang dijalankan pada node master dan node slave?
- Daemon yang dijalankan pada node Master adalah “NameNode”
- Daemon yang dijalankan pada setiap node Slave adalah “Pelacak Tugas” dan “Data”
43) Jelaskan bagaimana Anda bisa men-debug kode Hadoop?
Metode populer untuk men-debug kode Hadoop adalah:
- Dengan menggunakan antarmuka web yang disediakan oleh kerangka Hadoop
- Dengan menggunakan Penghitung
44) Jelaskan apa itu node penyimpanan dan komputasi?
- Node penyimpanan adalah mesin atau komputer tempat sistem file Anda berada untuk menyimpan data pemrosesan
- Node komputasi adalah komputer atau mesin tempat logika bisnis Anda yang sebenarnya akan dieksekusi.
45) Sebutkan apa gunanya Objek Konteks?
Objek Konteks memungkinkan pembuat peta berinteraksi dengan Hadoop lainnya
sistem. Ini mencakup data konfigurasi untuk pekerjaan tersebut, serta antarmuka yang memungkinkannya mengeluarkan output.
46) Sebutkan langkah selanjutnya setelah Mapper atau MapTask?
Langkah selanjutnya setelah Mapper atau MapTask adalah keluaran dari Mapper diurutkan, dan partisi akan dibuat untuk keluarannya.
47) Sebutkan berapa jumlah partisi default di Hadoop?
Di Hadoop, pemartisi default adalah Partisi “Hash”.
48) Jelaskan apa tujuan RecordReader di Hadoop?
Di Hadoop, RecordReader memuat data dari sumbernya dan mengubahnya menjadi pasangan (kunci, nilai) yang cocok untuk dibaca oleh Mapper.
49) Jelaskan bagaimana data dipartisi sebelum dikirim ke peredam jika tidak ada pemartisi khusus yang ditentukan di Hadoop?
Jika tidak ada pemartisi khusus yang ditentukan di Hadoop, maka pemartisi default akan menghitung nilai hash untuk kunci tersebut dan menetapkan partisi berdasarkan hasilnya.
50) Jelaskan apa yang terjadi jika Hadoop memunculkan 50 tugas untuk suatu pekerjaan dan salah satu tugas tersebut gagal?
Ini akan memulai ulang tugas lagi di beberapa TaskTracker lain jika tugas gagal melebihi batas yang ditentukan.
51) Sebutkan cara terbaik untuk menyalin file antar cluster HDFS?
Cara terbaik untuk menyalin berkas antar klaster HDFS adalah dengan menggunakan beberapa node dan perintah distcp, sehingga beban kerja terbagi.
52) Sebutkan apa perbedaan antara HDFS dan NAS?
Blok data HDFS didistribusikan ke seluruh drive lokal di semua mesin dalam satu kluster, sementara data NAS disimpan pada perangkat keras khusus.
53) Sebutkan perbedaan Hadoop dengan alat pemrosesan data lainnya?
Di Hadoop, Anda dapat menambah atau mengurangi jumlah pembuat peta tanpa mengkhawatirkan volume data yang akan diproses.
54) Sebutkan pekerjaan apa yang dilakukan kelas konferensi?
Kelas konfigurasi pekerjaan memisahkan pekerjaan yang berbeda yang berjalan pada kluster yang sama. Kelas ini melakukan pengaturan tingkat pekerjaan seperti mendeklarasikan pekerjaan di lingkungan nyata.
55) Sebutkan apa kontrak API Hadoop MapReduce untuk kelas kunci dan nilai?
Untuk kelas kunci dan nilai, ada dua kontrak API Hadoop MapReduce
- Nilainya harus mendefinisikan antarmuka org.apache.hadoop.io.Writable
- Kuncinya harus mendefinisikan antarmuka org.apache.hadoop.io.WritableComparable
56) Sebutkan tiga mode apa yang dapat dijalankan Hadoop?
Tiga mode di mana Hadoop dapat dijalankan adalah
- Mode terdistribusi semu
- Mode mandiri (lokal).
- Mode terdistribusi penuh
57) Sebutkan apa fungsi format input teks?
Format input teks akan membuat objek garis berupa angka heksadesimal. Nilainya dianggap sebagai teks baris utuh sedangkan kuncinya dianggap sebagai objek garis. Pemeta akan menerima nilai sebagai parameter 'teks' sedangkan kunci sebagai parameter 'dapat ditulis panjang'.
58) Sebutkan berapa banyak InputSplits yang dibuat oleh Hadoop Framework?
Hadoop akan membuat 5 pemisahan
- 1 dibagi untuk 64 ribu file
- 2 dibagi untuk file 65MB
- 2 split untuk file 127MB
59) Sebutkan apa yang dimaksud dengan cache yang didistribusikan di Hadoop?
Cache terdistribusi di Hadoop adalah fasilitas yang disediakan oleh framework MapReduce. Pada saat pelaksanaan pekerjaan, ini digunakan untuk menyimpan file dalam cache. Framework menyalin file yang diperlukan ke node budak sebelum pelaksanaan tugas apa pun di node tersebut.
60) Jelaskan bagaimana Hadoop Classpath memainkan peran penting dalam menghentikan atau memulai daemon Hadoop?
Classpath akan terdiri dari daftar direktori yang berisi file jar untuk menghentikan atau memulai daemon.
Pertanyaan wawancara ini juga akan membantu dalam viva Anda (lisan)