50 Pertanyaan dan Jawaban Wawancara Ilmu Data Teratas (PDF)
Berikut adalah pertanyaan dan jawaban wawancara Ilmu Data untuk kandidat baru dan berpengalaman untuk mendapatkan pekerjaan impian mereka.
Pertanyaan Wawancara Ilmu Data untuk Mahasiswa Baru
1. Apa itu Ilmu Data?
Ilmu Data adalah bidang studi yang melibatkan penggalian wawasan dari sejumlah besar data menggunakan berbagai metode, algoritma, dan proses ilmiah. Ini membantu Anda menemukan pola tersembunyi dari data mentah. Istilah Ilmu Data muncul karena evolusi statistik matematika, analisis data, dan data besar.
2. Apa Perbedaan Antara Ilmu Data dan Pembelajaran Mesin?
Ilmu Data adalah kombinasi algoritme, alat, dan teknik pembelajaran mesin yang membantu Anda menemukan pola umum yang tersembunyi dari data mentah yang diberikan. Sedangkan Machine learning adalah salah satu cabang ilmu komputer yang berhubungan dengan pemrograman sistem untuk dipelajari dan ditingkatkan secara otomatis seiring dengan pengalaman.
3. Sebutkan tiga jenis bias yang dapat terjadi selama pengambilan sampel
Dalam proses pengambilan sampel, terdapat tiga jenis bias, yaitu:
- Bias seleksi
- Di bawah bias cakupan
- Bias bertahan hidup
4. Membahas algoritma Decision Tree
Pohon keputusan adalah algoritma pembelajaran mesin terawasi yang populer. Ini terutama digunakan untuk Regresi dan Klasifikasi. Ini memungkinkan memecah kumpulan data menjadi subkumpulan yang lebih kecil. Pohon keputusan mampu menangani data kategorikal dan numerik.
5. Apa yang dimaksud dengan probabilitas dan kemungkinan sebelumnya?
Probabilitas sebelumnya adalah proporsi variabel terikat dalam kumpulan data, sedangkan kemungkinan adalah probabilitas mengklasifikasikan pengamat tertentu dengan adanya beberapa variabel lain.
6. Jelaskan Sistem Rekomendasi?
Ini adalah subkelas teknik penyaringan informasi. Ini membantu Anda memprediksi preferensi atau penilaian yang kemungkinan besar akan diberikan pengguna terhadap suatu produk.
7. Sebutkan tiga kelemahan menggunakan model linier
Tiga kelemahan model linier adalah:
- Asumsi linearitas kesalahan.
- Anda tidak dapat menggunakan model ini untuk biner atau menghitung hasil
- Ada banyak masalah overfitting yang tidak dapat diselesaikan
8. Mengapa perlu dilakukan resampling?
Pengambilan sampel ulang dilakukan dalam kasus-kasus berikut:
- Memperkirakan keakuratan statistik sampel dengan mengambil secara acak dengan penggantian dari sekumpulan titik data atau menggunakan sebagai subset data yang dapat diakses
- Mengganti label pada titik data saat melakukan pengujian yang diperlukan
- Memvalidasi model dengan menggunakan subset acak
9. Sebutkan perpustakaan-perpustakaan di Python digunakan untuk Analisis Data dan Perhitungan Ilmiah.
10. Apa itu Analisis Kekuatan?
Analisis kekuatan merupakan bagian integral dari desain eksperimen. Ini membantu Anda menentukan ukuran sampel yang diperlukan untuk mengetahui pengaruh ukuran tertentu dari suatu penyebab dengan tingkat kepastian tertentu. Hal ini juga memungkinkan Anda untuk menerapkan probabilitas tertentu dalam batasan ukuran sampel.
11. Jelaskan pemfilteran kolaboratif
Pemfilteran kolaboratif digunakan untuk mencari pola yang benar dengan mengkolaborasikan sudut pandang, berbagai sumber data, dan berbagai agen.
12. Apa itu bias?
Bias adalah kesalahan yang terjadi pada model Anda karena penyederhanaan algoritma pembelajaran mesin yang berlebihan.” Hal ini dapat menyebabkan underfitting.
13. Diskusikan 'Naif' dalam algoritma Naive Bayes?
Model Algoritma Naive Bayes didasarkan pada Teorema Bayes. Ini menggambarkan kemungkinan suatu peristiwa. Hal ini didasarkan pada pengetahuan sebelumnya tentang kondisi yang mungkin terkait dengan peristiwa spesifik tersebut.
14. Apa yang dimaksud dengan Regresi Linier?
Regresi linier adalah metode pemrograman statistik dimana skor suatu variabel 'A' diprediksi dari skor variabel kedua 'B'. B disebut sebagai variabel prediktor dan A sebagai variabel kriteria.
15. Sebutkan perbedaan antara nilai yang diharapkan dan nilai rata-rata
Perbedaannya tidak banyak, namun kedua istilah ini digunakan dalam konteks yang berbeda. Nilai rata-rata umumnya dirujuk ketika Anda membahas distribusi probabilitas sedangkan nilai yang diharapkan dirujuk dalam konteks variabel acak.
16. Apa tujuan melakukan Pengujian A/B?
Pengujian AB digunakan untuk melakukan eksperimen acak dengan dua variabel, A dan B. Tujuan dari metode pengujian ini adalah untuk mengetahui perubahan pada halaman web untuk memaksimalkan atau meningkatkan hasil suatu strategi.
17. Apa itu Pembelajaran Ensemble?
Ansambel adalah metode yang menggabungkan beragam peserta didik untuk melakukan improvisasi pada stabilitas dan kekuatan prediksi model. Dua jenis metode pembelajaran Ensemble adalah:
Bagging
Metode bagging membantu Anda menerapkan pembelajar serupa pada populasi sampel kecil. Ini membantu Anda membuat prediksi yang lebih dekat.
Meningkatkan
Boosting adalah metode berulang yang memungkinkan Anda menyesuaikan bobot observasi bergantung pada klasifikasi terakhir. Peningkatan mengurangi kesalahan bias dan membantu Anda membangun model prediktif yang kuat.
18. Menjelaskan Nilai Eigen dan Vektor Eigen
Vektor eigen digunakan untuk memahami transformasi linier. Ilmuwan data perlu menghitung vektor eigen untuk matriks kovarians atau korelasi. Nilai eigen adalah arah yang menggunakan tindakan transformasi linier tertentu dengan mengompresi, membalik, atau meregangkan.
19. Definisikan istilah validasi silang
Validasi silang adalah teknik validasi untuk mengevaluasi bagaimana hasil analisis statistik akan digeneralisasikan untuk kumpulan data Independen. Metode ini digunakan dalam latar belakang dimana tujuannya adalah perkiraan, dan seseorang perlu memperkirakan seberapa akurat suatu model akan tercapai.
20. Jelaskan langkah-langkah proyek analisis data
Berikut ini adalah langkah-langkah penting yang terlibat dalam proyek analitik:
- Memahami masalah Bisnis
- Jelajahi data dan pelajari dengan cermat.
- Siapkan data untuk pemodelan dengan mencari nilai yang hilang dan mentransformasikan variabel.
- Mulai jalankan model dan analisis hasil Big data.
- Validasi model dengan kumpulan data baru.
- Implementasikan model dan lacak hasilnya untuk menganalisis performa model selama periode tertentu.
21. Diskusikan Jaringan Syaraf Tiruan
Jaringan Syaraf Tiruan (JST) adalah seperangkat algoritme khusus yang telah merevolusi pembelajaran mesin. Ini membantu Anda beradaptasi sesuai dengan perubahan masukan. Jadi jaringan menghasilkan hasil terbaik tanpa mendesain ulang kriteria keluaran.
22. Apa itu Propagasi Balik?
Propagasi balik adalah inti dari pelatihan jaringan saraf. Ini adalah metode penyetelan bobot jaringan saraf yang bergantung pada tingkat kesalahan yang diperoleh pada periode sebelumnya. Penyetelan yang tepat akan membantu Anda mengurangi tingkat kesalahan dan membuat model dapat diandalkan dengan meningkatkan generalisasinya.
23. Apa itu Hutan Acak?
Hutan acak adalah metode pembelajaran mesin yang membantu Anda melakukan semua jenis tugas regresi dan klasifikasi. Ini juga digunakan untuk menangani nilai yang hilang dan nilai outlier.
24. Apa pentingnya memiliki bias seleksi?
Bias Seleksi terjadi ketika tidak ada pengacakan spesifik yang dicapai saat memilih individu atau kelompok atau data yang akan dianalisis. Hal ini menunjukkan bahwa sampel yang diberikan tidak sepenuhnya mewakili populasi yang ingin dianalisis.
25. Apa yang dimaksud dengan metode pengelompokan K-means?
Pengelompokan K-means adalah metode pembelajaran tanpa pengawasan yang penting. Ini adalah teknik mengklasifikasikan data menggunakan sekumpulan cluster tertentu yang disebut cluster K. Ini digunakan untuk pengelompokan untuk mengetahui kesamaan data.
Pertanyaan Wawancara Ilmuwan Data untuk Berpengalaman
26. Jelaskan perbedaan antara Ilmu Data dan Analisis Data
Ilmuwan Data perlu membagi data untuk mengekstrak wawasan berharga yang dapat diterapkan oleh analis data pada skenario bisnis dunia nyata. Perbedaan utama antara keduanya adalah data scientist memiliki lebih banyak pengetahuan teknis dibandingkan analis bisnis. Selain itu, mereka tidak memerlukan pemahaman tentang bisnis yang diperlukan untuk visualisasi data.
27. Jelaskan nilai p?
Saat Anda melakukan uji hipotesis dalam statistik, nilai p memungkinkan Anda menentukan kekuatan hasil Anda. Ini adalah angka numerik antara 0 dan 1. Berdasarkan nilainya, ini akan membantu Anda menunjukkan kekuatan hasil spesifik.
28. Definisikan istilah pembelajaran mendalam
Pembelajaran Mendalam adalah subtipe pembelajaran mesin. Hal ini berkaitan dengan algoritma yang terinspirasi oleh struktur yang disebut jaringan syaraf tiruan (JST).
29. Jelaskan metode pengumpulan dan analisis data dengan menggunakan media sosial untuk memprediksi kondisi cuaca.
Anda dapat mengumpulkan data media sosial menggunakan Facebook, twitter, API Instagram. Misalnya untuk tweeter, kita dapat membuat fitur dari setiap tweet seperti tanggal tweet, retweet, daftar pengikut, dll. Kemudian Anda dapat menggunakan model deret waktu multivariat untuk memprediksi kondisi cuaca.
30. Kapan Anda perlu memperbarui algoritma dalam ilmu data?
Anda perlu memperbarui algoritma dalam situasi berikut:
- Anda ingin model data Anda berkembang seiring aliran data menggunakan infrastruktur
- Sumber data yang mendasarinya berubahJika tidak stasioneritas
31. Apa itu Distribusi Normal
Distribusi normal adalah himpunan variabel kontinu yang tersebar pada kurva normal atau berbentuk kurva lonceng. Anda dapat menganggapnya sebagai distribusi probabilitas berkelanjutan yang berguna dalam statistik. Analisis variabel dan hubungannya akan berguna bila kita menggunakan kurva distribusi normal.
32. Bahasa apa yang terbaik untuk analisis teks? R atau Python?
Python akan lebih cocok untuk analisis teks karena terdiri dari perpustakaan kaya yang dikenal sebagai pandas. Ini memungkinkan Anda untuk menggunakan level tinggi alat analisis data dan struktur data, sementara R tidak menawarkan fitur ini.
33. Jelaskan manfaat penggunaan statistik oleh Data Scientist
Statistik membantu ilmuwan data mendapatkan gambaran yang lebih baik tentang ekspektasi pelanggan. Menggunakan metode statistik, Data Scientist dapat memperoleh pengetahuan mengenai minat, perilaku, keterlibatan, retensi konsumen, dll. Metode ini juga membantu Anda membangun model data yang kuat untuk memvalidasi kesimpulan dan prediksi tertentu.
34. Sebutkan berbagai jenis Kerangka Pembelajaran Mendalam
- pytorch
- Microsoft Perangkat Kognitif
- TensorFlow
- Caffe
- rantai
- Keras
35.Jelaskan Pembuat Enkode Otomatis
Autoencoder adalah jaringan pembelajaran. Ini membantu Anda mengubah masukan menjadi keluaran dengan jumlah kesalahan yang lebih sedikit. Artinya, Anda akan mendapatkan keluaran yang sedekat mungkin dengan masukan.
36. Definisikan Mesin Boltzmann
Mesin Boltzmann adalah algoritma pembelajaran sederhana. Algoritma ini membantu Anda menemukan fitur-fitur yang mewakili keteraturan kompleks dalam data pelatihan. Algoritma ini memungkinkan Anda mengoptimalkan bobot dan kuantitas untuk masalah yang diberikan.
37. Jelaskan mengapa Pembersihan Data itu penting dan metode apa yang Anda gunakan untuk menjaga kebersihan data
Data yang kotor sering kali mengarah pada kesalahan internal, yang dapat merusak prospek organisasi mana pun. Misalnya saja jika Anda ingin menjalankan kampanye pemasaran yang ditargetkan. Namun, data kami secara keliru memberi tahu Anda bahwa produk tertentu akan diminati oleh audiens target Anda; kampanye akan gagal.
38. Apa yang dimaksud dengan Distribusi miring & distribusi seragam?
Distribusi miring terjadi ketika data didistribusikan pada salah satu sisi plot, sedangkan distribusi seragam diidentifikasi ketika data tersebar sama dalam rentang tersebut.
39. Kapan underfitting terjadi pada model statis?
Underfitting terjadi ketika model statistik atau algoritme pembelajaran mesin tidak mampu menangkap tren mendasar dari data.
40. Apa itu pembelajaran penguatan?
Reinforcement Learning adalah mekanisme pembelajaran tentang bagaimana memetakan situasi menjadi tindakan. Hasil akhirnya akan membantu Anda meningkatkan sinyal imbalan biner. Dalam metode ini, pelajar tidak diberitahu tindakan mana yang harus diambil, melainkan harus menemukan tindakan mana yang menawarkan imbalan maksimal. Karena metode ini didasarkan pada mekanisme reward/penalty.
41. Sebutkan algoritma yang umum digunakan.
Empat algoritma yang paling umum digunakan oleh Data scientist adalah:
- Regresi linier
- Regresi logistik
- Hutan Acak
- KNN
42. Apa itu presisi?
Presisi adalah metrik kesalahan yang paling umum digunakan dalam mekanisme klasifikasi n. Kisarannya adalah dari 0 hingga 1, dimana 1 mewakili 100%
43. Apa yang dimaksud dengan analisis univariat?
Analisis yang tidak diterapkan pada satu atribut pun pada suatu waktu disebut analisis univariat. Boxplot banyak digunakan, model univariat.
44. Bagaimana Anda mengatasi tantangan terhadap temuan Anda?
Untuk mengatasi tantangan temuan saya, kita perlu mendorong diskusi, menunjukkan kepemimpinan dan menghormati pilihan yang berbeda.
45. Menjelaskan teknik cluster sampling dalam Ilmu Data
Metode pengambilan sampel kluster digunakan jika sulit mempelajari populasi target yang tersebar, dan pengambilan sampel acak sederhana tidak dapat diterapkan.
46. Nyatakan perbedaan antara Set Validasi dan Set Tes
Set Validasi sebagian besar dianggap sebagai bagian dari set pelatihan karena digunakan untuk pemilihan parameter yang membantu Anda menghindari overfitting pada model yang sedang dibangun.
Sedangkan Test Set digunakan untuk menguji atau mengevaluasi performa model pembelajaran mesin yang dilatih.
47. Jelaskan istilah Rumus Peluang Binomial?
“Distribusi binomial berisi probabilitas setiap kemungkinan keberhasilan pada N percobaan untuk kejadian independen yang memiliki probabilitas terjadinya π.”
48. Apa yang dimaksud dengan penarikan kembali?
Penarikan kembali adalah rasio tingkat positif sebenarnya terhadap tingkat positif sebenarnya. Ini berkisar dari 0 hingga 1.
49. Diskusikan distribusi normal
Distribusi normal berdistribusi merata sehingga mean, median dan modusnya sama.
50. Saat mengerjakan kumpulan data, bagaimana Anda memilih variabel penting? Menjelaskan
Berikut ini adalah metode pemilihan variabel yang dapat Anda gunakan:
- Hapus variabel yang berkorelasi sebelum memilih variabel penting
- Gunakan regresi linier dan pilih variabel yang bergantung pada nilai p tersebut.
- Gunakan Seleksi Mundur, Seleksi Maju, dan Seleksi Bertahap
- Gunakan Xgboost, Random Forest, dan plot grafik kepentingan variabel.
- Ukur perolehan informasi untuk kumpulan fitur tertentu dan pilih n fitur teratas yang sesuai.
51. Apakah mungkin untuk menangkap korelasi antara variabel kontinu dan kategorikal?
Ya, kita dapat menggunakan teknik analisis kovarians untuk menangkap hubungan antara variabel kontinu dan kategorikal.
52. Memperlakukan variabel kategori sebagai variabel kontinu akan menghasilkan model prediksi yang lebih baik?
Ya, nilai kategoris harus dianggap sebagai variabel kontinu hanya jika variabel tersebut bersifat ordinal. Jadi ini adalah model prediksi yang lebih baik.
Pertanyaan wawancara ini juga akan membantu dalam viva Anda (lisan)