60+ Pertanyaan dan Jawaban Wawancara Insinyur Data pada tahun 2025

Berikut adalah pertanyaan dan jawaban wawancara Teknik Data untuk calon data engineer yang lebih baru dan berpengalaman untuk mendapatkan pekerjaan impian mereka.

 

Pertanyaan Wawancara Insinyur Data untuk Mahasiswa Baru

1) Jelaskan Rekayasa Data.

Rekayasa data adalah istilah yang digunakan dalam data besar. Ini berfokus pada penerapan pengumpulan data dan penelitian. Data yang dihasilkan dari berbagai sumber hanyalah data mentah. Rekayasa data membantu mengubah data mentah ini menjadi informasi yang berguna.


2) Apa itu Pemodelan Data?

Pemodelan data adalah metode mendokumentasikan desain perangkat lunak yang kompleks sebagai diagram sehingga siapa pun dapat dengan mudah memahaminya. Ini adalah representasi konseptual dari objek data yang dikaitkan antara berbagai objek data dan aturan.

Pemodelan Data


3) Sebutkan berbagai jenis skema desain dalam Pemodelan Data

Pada dasarnya ada dua jenis skema dalam pemodelan data: 1) Skema bintang dan 2) Skema kepingan salju.


4) Membedakan data terstruktur dan tidak terstruktur

Berikut ini adalah perbedaan antara data terstruktur dan tidak terstruktur:

Parameter Data Terstruktur Data Tidak Terstruktur
Storage DBMS Struktur file yang tidak dikelola
Standar ADO.net, ODBC, dan SQL STMP, XML, CSV, dan SMS
Alat Integrasi ELT (Ekstrak, Transformasi, Muat) Entri data manual atau pemrosesan batch yang mencakup kode
skala Penskalaan skema itu sulit Penskalaan sangat mudah.

5) Jelaskan semua komponen aplikasi Hadoop

Berikut ini adalah komponen aplikasi Hadoop:

Ekosistem dan Komponen Hadoop

  • Hadoop Umum: Ini adalah seperangkat utilitas dan perpustakaan umum yang digunakan oleh Hadoop.
  • HDFS: Aplikasi Hadoop ini berhubungan dengan sistem file tempat data Hadoop disimpan. Ini adalah sistem file terdistribusi yang memiliki bandwidth tinggi.
  • Pengurangan Peta Hadoop: Hal ini didasarkan pada algoritma untuk penyediaan pemrosesan data skala besar.
  • BENANG Hadoop: Digunakan untuk manajemen sumber daya dalam kluster Hadoop. Dapat juga digunakan untuk penjadwalan tugas bagi pengguna.

6) Apa itu NamaNode?

Ini adalah inti dari HDFS. Ia menyimpan data HDFS dan melacak berbagai berkas di seluruh kluster. Di sini, data sebenarnya tidak disimpan. Data disimpan di DataNodes.


7) Tentukan streaming Hadoop

Ini adalah utilitas yang memungkinkan pembuatan peta dan Mengurangi pekerjaan dan mengirimkannya ke klaster tertentu.


8) Apa bentuk lengkap HDFS?

HDFS adalah singkatan dari Sistem File Terdistribusi Hadoop.


9) Tentukan Blokir dan Blokir Pemindai di HDFS

Blok adalah unit terkecil dari file data. Hadoop secara otomatis membagi file besar menjadi potongan-potongan kecil.

Block Scanner memverifikasi daftar blok yang disajikan pada DataNode.


10) Apa saja langkah-langkah yang terjadi ketika Block Scanner mendeteksi blok data yang rusak?

Berikut ini adalah langkah-langkah yang terjadi ketika Pemindai Blok menemukan blok data yang rusak:

1) Pertama-tama, ketika Block Scanner menemukan blok data yang rusak, DataNode melaporkan ke NameNode

2) NameNode memulai proses pembuatan replika baru menggunakan replika blok yang rusak.

3) Hitungan replikasi dari replika yang benar dicoba untuk dicocokkan dengan faktor replikasi. Jika kecocokan ditemukan blok data yang rusak tidak akan dihapus.


11) Sebutkan dua pesan yang didapat NameNode dari DataNode?

Ada dua pesan yang didapat NameNode dari DataNode. Mereka adalah 1) Laporan blok dan 2) Detak jantung.


12) Sebutkan berbagai file konfigurasi XML di Hadoop?

Ada lima file konfigurasi XML di Hadoop:

  • Situs yang dipetakan
  • Situs inti
  • situs HDFS
  • Situs benang

13) Apa saja empat V pada big data?

Empat V data besar adalah:

  • Kecepatan
  • Variasi
  • Volume
  • kebenaran

14) Jelaskan fitur Hadoop

Fitur penting dari Hadoop adalah:

  • Ini adalah kerangka kerja sumber terbuka yang tersedia freeware.
  • Hadoop kompatibel dengan banyak jenis perangkat keras dan mudah mengakses perangkat keras baru dalam node tertentu.
  • Hadoop mendukung pemrosesan data yang terdistribusi lebih cepat.
  • Ia menyimpan data dalam klaster, yang independen dari operasi lainnya.
  • Hadoop memungkinkan pembuatan 3 replika untuk setiap blok dengan node berbeda.

15) Jelaskan metode utama Peredam

  • setup(): Digunakan untuk mengonfigurasi parameter seperti ukuran data input dan cache yang didistribusikan.
  • cleanup(): Metode ini digunakan untuk membersihkan file-file sementara.
  • pengurangan(): Ini adalah inti dari peredam yang dipanggil satu kali per kunci dengan tugas pengurangan terkait

16) Apa singkatan dari COSHH?

Singkatan dari COSHH adalah Klasifikasi dan Optimasi berdasarkan Jadwal untuk sistem Hadoop Heterogen.


17) Jelaskan Skema Bintang

Skema Bintang atau Star Join Schema adalah jenis skema Data Warehouse yang paling sederhana. Disebut skema bintang karena strukturnya seperti bintang. Dalam skema Bintang, pusat bintang mungkin mempunyai satu tabel fakta dan beberapa tabel dimensi terkait. Skema ini digunakan untuk menanyakan kumpulan data besar.


18) Bagaimana cara menerapkan solusi big data?

Ikuti langkah-langkah berikut untuk menerapkan solusi big data.

1) Integrasikan data menggunakan sumber data seperti RDBMS, SAP, MySQL, Salesforce
2) Simpan data yang diekstraksi dalam database NoSQL atau HDFS.
3) Menerapkan solusi data besar menggunakan kerangka pemrosesan seperti Pig, Spark, dan MapReduce.


19) Jelaskan FSCK

File System Check atau FSCK adalah perintah yang digunakan oleh HDFS. Perintah FSCK digunakan untuk memeriksa ketidakkonsistenan dan masalah dalam file.


20) Jelaskan Skema Kepingan Salju

A Skema Kepingan Salju merupakan perpanjangan dari Skema Bintang, dan menambahkan dimensi tambahan. Disebut kepingan salju karena diagramnya terlihat seperti Kepingan Salju. Tabel dimensi dinormalisasi, yang membagi data menjadi tabel tambahan.


21) Bedakan antara Skema Bintang dan Kepingan Salju

Bintang Skema Kepingan Salju
Hirarki dimensi disimpan dalam tabel dimensi. Setiap hierarki disimpan ke dalam tabel terpisah.
Kemungkinan terjadinya redundansi data sangat tinggi Kemungkinan redundansi data rendah.
Ini memiliki desain DB yang sangat sederhana Ini memiliki desain DB yang kompleks
Menyediakan cara yang lebih cepat untuk pemrosesan kubus Pemrosesan kubus lambat karena penggabungan yang rumit.

22) Jelaskan sistem file terdistribusi Hadoop

Hadoop bekerja dengan sistem berkas terdistribusi yang dapat diskalakan seperti S3, HFTP FS, FS, dan HDFS. Hadoop Distributed File System dibuat pada Google File System. Sistem berkas ini dirancang sedemikian rupa sehingga dapat berjalan dengan mudah pada kluster besar sistem komputer.


23) Jelaskan tanggung jawab utama seorang insinyur data

Insinyur data memiliki banyak tanggung jawab. Mereka mengelola sistem sumber data. Insinyur data menyederhanakan struktur data yang kompleks dan mencegah duplikasi data. Sering kali mereka juga menyediakan ELT dan transformasi data.


24) Apa bentuk lengkap dari BENANG?

Bentuk lengkap dari YARN adalah Yet Another Resource Negotiator.


25) Sebutkan berbagai mode di Hadoop

Mode di Hadoop adalah 1) Mode mandiri 2) Mode terdistribusi semu 3) Mode terdistribusi penuh.


26) Bagaimana cara mencapai keamanan di Hadoop?

Lakukan langkah-langkah berikut untuk mencapai keamanan di Hadoop:

1) Langkah pertama adalah mengamankan saluran otentikasi klien ke server. Berikan stempel waktu kepada klien.
2) Pada langkah kedua, klien menggunakan stempel waktu yang diterima untuk meminta tiket layanan kepada TGS.
3) Pada langkah terakhir, klien menggunakan tiket layanan untuk otentikasi mandiri ke server tertentu.


27) Apa itu Detak Jantung di Hadoop?

Di Hadoop, NameNode dan DataNode berkomunikasi satu sama lain. Detak jantung adalah sinyal yang dikirimkan DataNode ke NameNode secara berkala untuk menunjukkan keberadaannya.


28) Bedakan antara NAS dan DAS di Hadoop

NAS DAS
Kapasitas penyimpanan adalah 109 untuk 1012 dalam byte. Kapasitas penyimpanan adalah 109 dalam byte.
Biaya pengelolaan per GB tergolong moderat. Biaya pengelolaan per GB tinggi.
Mengirimkan data menggunakan Ethernet atau TCP/IP. Mengirimkan data menggunakan IDE/SCSI

29) Buat daftar bidang atau bahasa penting yang digunakan oleh insinyur data

Berikut adalah beberapa bidang atau bahasa yang digunakan oleh data engineer:

  • Probabilitas serta aljabar linier
  • Pembelajaran mesin
  • Analisis tren dan regresi
  • Kumpulan database QL dan SQL

30) Apa itu Data Besar?

Ini adalah sejumlah besar data terstruktur dan tidak terstruktur, yang tidak dapat dengan mudah diproses dengan metode penyimpanan data tradisional. Insinyur data menggunakan Hadoop untuk mengelola data besar.


Pertanyaan Wawancara Insinyur Data untuk Berpengalaman

31) Apa yang dimaksud dengan penjadwalan FIFO?

Ini adalah algoritma penjadwalan Pekerjaan Hadoop. Dalam penjadwalan FIFO ini, reporter memilih pekerjaan dari antrian pekerjaan, pekerjaan terlama terlebih dahulu.


32) Sebutkan nomor port default tempat pelacak tugas, NameNode, dan pelacak pekerjaan dijalankan di Hadoop

Nomor port default tempat pelacak tugas, NameNode, dan pelacak pekerjaan dijalankan di Hadoop adalah sebagai berikut:

  • Pelacak tugas berjalan pada port 50060
  • NameNode berjalan pada port 50070
  • Pelacak Pekerjaan berjalan pada port 50030

33) Cara menonaktifkan Block Scanner pada HDFS Data Node

Untuk menonaktifkan Pemindai Blok pada Node Data HDFS, tetapkan dfs.datanode.scan.period.hours ke 0.


34) Bagaimana cara menentukan jarak antara dua node di Hadoop?

Jaraknya sama dengan jumlah jarak ke titik-titik terdekat. Metode getDistance() digunakan untuk menghitung jarak antara dua node.


35) Mengapa menggunakan perangkat keras komoditas di Hadoop?

Perangkat keras komoditas mudah diperoleh dan terjangkau. Ini adalah sistem yang kompatibel dengan Windows, MS-DOS, atau Linux.


36) Tentukan faktor replikasi dalam HDFS

Faktor replikasi adalah jumlah total replika suatu file dalam sistem.


37) Data apa yang disimpan di NameNode?

Namenode menyimpan metadata untuk HDFS seperti informasi blok, dan informasi namespace.


38) Apa yang dimaksud dengan Kesadaran Rak?

Dalam kluster Haddop, Namenode menggunakan Datanode untuk meningkatkan lalu lintas jaringan saat membaca atau menulis berkas apa pun yang lebih dekat ke rak terdekat untuk permintaan Baca atau Tulis. Namenode menyimpan id rak setiap DataNode untuk memperoleh informasi rak. Konsep ini disebut sebagai Rack Awareness dalam Hadoop.


39) Apa fungsi dari NameNode Sekunder?

Berikut ini adalah fungsi dari Secondary NameNode:

  • FsImage yang menyimpan salinan file EditLog dan FsImage.
  • NameNode crash: Jika NameNode crash, FsImage Secondary NameNode dapat digunakan untuk membuat ulang NameNode.
  • Pos pemeriksaan: Digunakan oleh Secondary NameNode untuk mengonfirmasi bahwa data tidak rusak di HDFS.
  • Pembaruan: Secara otomatis memperbarui file EditLog dan FsImage. Ini membantu untuk terus memperbarui file FsImage di Secondary NameNode.

40) Apa yang terjadi jika NameNode tidak aktif, dan pengguna mengirimkan pekerjaan baru?

NameNode adalah satu-satunya titik kegagalan di Hadoop sehingga pengguna tidak dapat mengirimkan pekerjaan baru yang tidak dapat dijalankan. Jika NameNode tidak aktif, maka pekerjaan mungkin gagal, karena ini pengguna harus menunggu hingga NameNode dimulai ulang sebelum menjalankan pekerjaan apa pun.


41) Apa saja fase dasar peredam di Hadoop?

Ada tiga fase dasar peredam di Hadoop:

1. Acak: Di sini, Peredam menyalin keluaran dari Mapper.

2. Sortir: Dalam sortir, Hadoop mengurutkan input ke Reducer menggunakan kunci yang sama.

3. Kurangi: Dalam fase ini, nilai keluaran yang terkait dengan suatu kunci dikurangi untuk mengkonsolidasikan data ke dalam keluaran akhir.


42) Mengapa Hadoop menggunakan objek Konteks?

Kerangka kerja Hadoop menggunakan objek Konteks dengan kelas Mapper untuk berinteraksi dengan sistem yang tersisa. Objek Konteks mendapatkan detail konfigurasi sistem dan pekerjaan dalam konstruktornya.

Kami menggunakan objek Konteks untuk meneruskan informasi dalam metode setup(), cleanup() dan map(). Objek ini menyediakan informasi penting selama pengoperasian peta.


43) Tentukan Penggabung di Hadoop

Ini adalah langkah opsional antara Map dan Reduce. Penggabung mengambil keluaran dari fungsi Peta, membuat pasangan nilai kunci, dan mengirimkannya ke Hadoop Reducer. Tugas Combiner adalah meringkas hasil akhir dari Map menjadi catatan ringkasan dengan kunci yang identik.


44) Apa faktor replikasi default yang tersedia di HDFS? Apa yang ditunjukkannya?

Faktor replikasi default yang tersedia di HDFS adalah tiga. Faktor replikasi default menunjukkan bahwa akan ada tiga replika untuk setiap data.


45) Apa yang Anda maksud dengan Lokalitas Data di Hadoop?

Dalam sistem Big Data, ukuran data sangat besar, dan itulah mengapa tidak masuk akal untuk memindahkan data melalui jaringan. Kini, Hadoop mencoba mendekatkan komputasi ke data. Dengan cara ini, data tetap bersifat lokal di lokasi yang disimpan.


46) Tentukan Penyeimbang di HDFS

Di HDFS, penyeimbang adalah administratif yang digunakan oleh staf admin untuk menyeimbangkan kembali data di seluruh DataNodes dan memindahkan blok dari node yang terlalu banyak digunakan ke node yang kurang dimanfaatkan.


47) Jelaskan mode Aman di HDFS

Ini adalah mode baca-saja NameNode dalam sebuah kluster. Awalnya, NameNode berada dalam Safemode. Ia mencegah penulisan ke sistem berkas dalam Safemode. Pada saat ini, ia mengumpulkan data dan statistik dari semua DataNode.


48) Apa pentingnya Cache Terdistribusi di Apache Hadoop?

Hadoop memiliki fitur utilitas berguna yang disebut Cache Terdistribusi yang meningkatkan kinerja pekerjaan dengan menyimpan file yang digunakan oleh aplikasi dalam cache. Aplikasi dapat menentukan file untuk cache menggunakan konfigurasi JobConf.

Kerangka kerja Hadoop membuat replika file-file ini ke node tempat tugas harus dijalankan. Hal ini dilakukan sebelum pelaksanaan tugas dimulai. Cache Terdistribusi mendukung distribusi file hanya baca serta file zip dan jar.


49) Apa itu Metastore di Hive?

Ini menyimpan skema serta lokasi tabel Hive.

Definisi tabel Hive, pemetaan, dan metadata yang disimpan di Metastore. Ini dapat disimpan di RDBMS yang didukung oleh JPOX.


50) Apa yang dimaksud dengan SerDe di Hive?

SerDe adalah nama pendek dari Serializer atau Deserializer. Di Hive, SerDe memungkinkan untuk membaca data dari tabel ke dan menulis ke bidang tertentu dalam format apa pun yang Anda inginkan.


51) Daftar komponen yang tersedia dalam model data Hive

Ada komponen berikut dalam model data Hive:

  • Meja
  • Partisi
  • Ember

52) Jelaskan penggunaan Hive di ekosistem Hadoop.

Hive menyediakan antarmuka untuk mengelola data yang disimpan dalam ekosistem Hadoop. Hive digunakan untuk memetakan dan bekerja dengan tabel HBase. Kueri Hive diubah menjadi pekerjaan MapReduce untuk menyembunyikan kompleksitas yang terkait dengan pembuatan dan pengoperasian pekerjaan MapReduce.


53) Daftar berbagai tipe data kompleks/koleksi yang didukung oleh Hive

Hive mendukung tipe data kompleks berikut:

  • Lokasi
  • Struktur
  • susunan
  • Serikat

54) Jelaskan bagaimana file .hiverc di Hive digunakan?

Di Hive, .hiverc adalah file inisialisasi. File ini awalnya dimuat ketika kita memulai Command Line Interface (CLI) untuk Hive. Kita dapat mengatur nilai awal parameter dalam file .hiverc.


55) Apakah mungkin membuat lebih dari satu tabel di Hive untuk satu file data?

Ya, kita dapat membuat lebih dari satu skema tabel untuk satu file data. Hive menyimpan skema di Hive Metastore. Berdasarkan skema ini, kita dapat mengambil hasil yang berbeda dari Data yang sama.


56) Jelaskan berbagai implementasi SerDe yang tersedia di Hive

Ada banyak implementasi SerDe yang tersedia di Hive. Anda juga dapat menulis implementasi SerDe kustom Anda sendiri. Berikut ini adalah beberapa implementasi SerDe yang terkenal:

  • OpenCSVSerde
  • RegexSerDe
  • DibatasiJSONSerDe
  • ByteStreamTypedSerDe

57) Daftar fungsi pembuatan tabel yang tersedia di Hive

Berikut ini adalah daftar fungsi pembangkit tabel:

  • Meledak (array)
  • JSON_tuple()
  • Tumpukan()
  • Meledak (peta)

58) Apa itu tabel miring di Hive?

Tabel miring adalah tabel yang lebih sering memuat nilai kolom. Di Hive, saat kita menentukan tabel sebagai SKEWED selama pembuatan, nilai yang miring ditulis ke dalam file terpisah, dan nilai sisanya dipindahkan ke file lain.


59) Buat daftar objek yang dibuat dengan membuat pernyataan di MySQL.

Objek yang dibuat dengan membuat pernyataan di MySQL adalah sebagai berikut:

  • Basis Data
  • Indeks
  • tabel
  • Pengguna
  • Prosedur
  • Pelatuk
  • Acara
  • Liha
  • fungsi

60) Cara melihat struktur database di MySQL?

Untuk melihat struktur database di MySQL, Anda dapat menggunakan

JELASKAN perintah. Sintaks dari perintah ini adalah DESCRIBE Table name;.


Pertanyaan Wawancara SQL untuk Insinyur Data

61) Cara mencari String tertentu di MySQL kolom tabel?

Gunakan operator regex untuk mencari String di MySQL kolom. Di sini, kita juga dapat mendefinisikan berbagai jenis ekspresi reguler dan mencari menggunakan regex.


62) Jelaskan bagaimana analisis data dan big data dapat meningkatkan pendapatan perusahaan?

Berikut ini adalah cara bagaimana analisis data dan big data dapat meningkatkan pendapatan perusahaan:

  • Gunakan data secara efisien untuk memastikan pertumbuhan bisnis.
  • Meningkatkan nilai pelanggan.
  • Mengubah analitis untuk meningkatkan perkiraan tingkat kepegawaian.
  • Mengurangi biaya produksi organisasi.

Pertanyaan wawancara ini juga akan membantu dalam viva Anda (lisan)