En İyi 50 Veri Bilimi Mülakat Soruları ve Cevapları (PDF)

İşte hem yeni hem de deneyimli adayların hayallerindeki işi bulmaları için Veri Bilimi mülakat soruları ve cevapları.

 

Yeni Öğrenciler için Veri Bilimi Mülakat Soruları

1. Veri Bilimi Nedir?

Veri Bilimi, çeşitli bilimsel yöntemler, algoritmalar ve süreçler kullanarak çok miktarda veriden içgörü elde etmeyi içeren çalışma alanıdır. Ham verilerden gizli kalıpları keşfetmenize yardımcı olur. Veri Bilimi terimi matematiksel istatistiklerin, veri analizinin ve büyük verilerin evrimi nedeniyle ortaya çıkmıştır.


2. Veri Bilimi ile Makine Öğrenimi Arasındaki Fark Nedir?

Veri Bilim verilen ham verilerden ortak gizli kalıpları bulmanıza yardımcı olan algoritmaların, araçların ve makine öğrenimi tekniğinin birleşimidir. Makine öğrenimi ise bilgisayar biliminin otomatik olarak öğrenmek ve deneyimle gelişmek için sistem programlamayla ilgilenen bir dalıdır.

Veri Bilim


3. Örnekleme sırasında oluşabilecek üç tür sapmayı adlandırın

Örnekleme sürecinde üç tür önyargı vardır:

  • seçim yanlılığı
  • Kapsam önyargısı altında
  • Hayatta kalma yanlılığı

4. Karar Ağacı algoritmasını tartışın

Karar ağacı, popüler bir denetimli makine öğrenimi algoritmasıdır. Esas olarak Regresyon ve Sınıflandırma için kullanılır. Bir veri kümesinin daha küçük alt kümelere bölünmesine olanak tanır. Karar ağacı hem kategorik hem de sayısal verileri işleyebilir.


5. Önceki olasılık ve olasılık nedir?

Önceki olasılık, veri setindeki bağımlı değişkenin oranıdır; olasılık ise belirli bir gözlemcinin başka bir değişkenin varlığında sınıflandırılma olasılığıdır.


6. Öneri Sistemlerini Açıklayın?

Bilgi filtreleme tekniklerinin bir alt sınıfıdır. Kullanıcıların bir ürüne vereceği tercihleri ​​veya derecelendirmeleri tahmin etmenize yardımcı olur.


7. Doğrusal model kullanmanın üç dezavantajını belirtin

Doğrusal modelin üç dezavantajı şunlardır:

  • Hataların doğrusallık varsayımı.
  • Bu modeli ikili veya sayım sonuçları için kullanamazsınız
  • Çözemediği pek çok aşırı uyum sorunu var

8. Neden yeniden örnekleme yapmanız gerekiyor?

Yeniden örnekleme aşağıdaki durumlarda yapılır:

  • Veri noktalarından rastgele çekilerek veya erişilebilir verilerin alt kümeleri olarak kullanılarak örnek istatistiklerinin doğruluğunun tahmin edilmesi
  • Gerekli testleri gerçekleştirirken veri noktalarındaki etiketleri değiştirmek
  • Rastgele alt kümeler kullanarak modelleri doğrulama

9. İçindeki kütüphaneleri listeleyin Python Veri Analizi ve Bilimsel Hesaplamalar için kullanılır.


10. Güç Analizi Nedir?

Güç analizi deneysel tasarımın ayrılmaz bir parçasıdır. Belirli bir boyutun etkisini belirli bir güvence düzeyiyle bir nedenden bulmak için gereken örnek boyutunu belirlemenize yardımcı olur. Ayrıca, bir örneklem boyutu kısıtlamasında belirli bir olasılığı dağıtmanıza da olanak tanır.


11. İşbirlikçi filtrelemeyi açıklayın

İşbirliğine dayalı filtreleme, bakış açılarını, çoklu veri kaynaklarını ve çeşitli aracıları bir araya getirerek doğru kalıpları aramak için kullanılır.


12. Önyargı nedir?

Önyargı, makine öğrenimi algoritmasının aşırı basitleştirilmesi nedeniyle modelinizde ortaya çıkan bir hatadır." Yetersiz uyum sağlamaya yol açabilir.


13. Naive Bayes algoritmasında 'Naif'i tartışın mı?

Naive Bayes Algoritması modeli Bayes Teoremine dayanmaktadır. Bir olayın olasılığını açıklar. Söz konusu spesifik olayla ilgili olabilecek koşullara ilişkin ön bilgilere dayanmaktadır.


14. Doğrusal Regresyon Nedir?

Doğrusal regresyon, 'A' değişkeninin puanının ikinci bir değişken 'B'nin puanından tahmin edildiği istatistiksel bir programlama yöntemidir. B'ye yordayıcı değişken, A'ya ise kriter değişken denir.


15. Beklenen değer ile ortalama değer arasındaki farkı belirtin

Çok fazla fark yok, ancak bu terimlerin her ikisi de farklı bağlamlarda kullanılıyor. Ortalama değere genellikle bir olasılık dağılımını tartışırken atıfta bulunulurken, beklenen değere bir rastgele değişken bağlamında atıfta bulunulur.


16. A/B Testi yapmanın amacı nedir?

AB testi, A ve B olmak üzere iki değişkenle rastgele deneyler yapmak için kullanılır. Bu test yönteminin amacı, bir stratejinin sonucunu en üst düzeye çıkarmak veya artırmak için bir web sayfasında yapılan değişiklikleri bulmaktır.


17. Topluluk Öğrenmesi Nedir?

Topluluk, modelin istikrarı ve tahmin gücü üzerinde doğaçlama yapmak için çeşitli öğrenci gruplarını bir araya getiren bir yöntemdir. İki tür Topluluk öğrenme yöntemi şunlardır:

sarkık

Torbalama yöntemi, benzer öğrenicileri küçük örnek popülasyonlara uygulamanıza yardımcı olur. Daha yakın tahminler yapmanıza yardımcı olur.

Arttırılması

Yükseltme, bir gözlemin ağırlığını son sınıflandırmaya göre ayarlamanıza olanak tanıyan yinelemeli bir yöntemdir. Yükseltme önyargı hatasını azaltır ve güçlü tahmine dayalı modeller oluşturmanıza yardımcı olur.


18. Özdeğer ve Özvektörü açıklayın

Özvektörler doğrusal dönüşümleri anlamak içindir. Veri bilimcinin bir kovaryans matrisi veya korelasyon için özvektörleri hesaplaması gerekir. Özdeğerler, sıkıştırarak, çevirerek veya uzatarak belirli doğrusal dönüşüm eylemlerini kullanan yönlerdir.


19. Çapraz doğrulama terimini tanımlayın

Çapraz doğrulama, istatistiksel analiz sonuçlarının Bağımsız bir veri kümesi için nasıl genelleştirileceğini değerlendirmeye yönelik bir doğrulama tekniğidir. Bu yöntem, hedefin tahmin edildiği ve bir modelin ne kadar doğru bir şekilde gerçekleştirileceğinin tahmin edilmesinin gerektiği arka planda kullanılır.


20. Veri analizi projesinin adımlarını açıklayın

Bir analitik projede yer alan önemli adımlar şunlardır:

  • İşletme sorununu anlayın
  • Verileri keşfedin ve dikkatlice inceleyin.
  • Eksik değerleri bularak ve değişkenleri dönüştürerek verileri modellemeye hazırlayın.
  • Modeli çalıştırmaya başlayın ve Büyük veri sonucunu analiz edin.
  • Modeli yeni veri seti ile doğrulayın.
  • Modelin belirli bir dönem için performansını analiz etmek için modeli uygulayın ve sonucu izleyin.

21. Yapay Sinir Ağlarını Tartışın

Yapay Sinir ağları (YSA), makine öğreniminde devrim yaratan özel bir algoritma kümesidir. Değişen girdilere göre uyum sağlamanıza yardımcı olur. Böylece ağ, çıktı kriterlerini yeniden tasarlamadan mümkün olan en iyi sonucu üretir.


22. Geriye Yayılım Nedir?

Geri yayılım, sinir ağı eğitiminin özüdür. Bir sinir ağının ağırlıklarının önceki dönemde elde edilen hata oranına bağlı olarak ayarlanması yöntemidir. Doğru ayarlama, hata oranlarını azaltmanıza ve modelin genellemesini artırarak güvenilir hale getirmenize yardımcı olur.


23. Rastgele Orman Nedir?

Rastgele orman, her türlü regresyon ve sınıflandırma görevini gerçekleştirmenize yardımcı olan bir makine öğrenme yöntemidir. Ayrıca eksik değerleri ve aykırı değerleri tedavi etmek için de kullanılır.


24. Seçim yanlılığının önemi nedir?

Seçim Önyargısı, analiz edilecek bireyleri, grupları veya verileri seçerken belirli bir rastgeleleştirme sağlanamadığında ortaya çıkar. Bu, verilen örneğin analiz edilmesi amaçlanan popülasyonu tam olarak temsil etmediğini göstermektedir.


25. K-ortalamalı kümeleme yöntemi nedir?

K-means kümelemesi önemli bir denetimsiz öğrenme yöntemidir. K kümesi adı verilen belirli bir küme kümesini kullanarak verileri sınıflandırma tekniğidir. Verilerdeki benzerliği bulmak için gruplama amacıyla kullanılır.


Deneyimlilere Yönelik Veri Bilimcisi Mülakat Soruları

26. Veri Bilimi ile Veri Analitiği arasındaki farkı açıklayın

Veri Bilimcilerinin, bir veri analistinin gerçek dünyadaki iş senaryolarına uygulayabileceği değerli öngörüleri elde etmek için verileri parçalara ayırması gerekir. İkisi arasındaki temel fark, veri bilimcilerinin iş analistlerinden daha fazla teknik bilgiye sahip olmasıdır. Üstelik veri görselleştirme için gereken iş anlayışına da ihtiyaçları yok.


27. P-değerini açıklayınız?

İstatistikte bir hipotez testi yaptığınızda, p değeri sonuçlarınızın gücünü belirlemenize olanak tanır. 0 ile 1 arasında sayısal bir sayıdır. Değere bağlı olarak belirli bir sonucun gücünü belirtmenize yardımcı olacaktır.


28. Derin öğrenme terimini tanımlayın

Derin Öğrenme, makine öğreniminin bir alt türüdür. Yapay sinir ağları (YSA) adı verilen yapıdan ilham alan algoritmalarla ilgilidir.


29. Hava durumunu tahmin etmek amacıyla sosyal medyayı kullanmak için veri toplama ve analiz etme yöntemini açıklayın.

Facebook, Twitter, Instagram'ın API'lerini kullanarak sosyal medya verilerini toplayabilirsiniz. Örneğin tweeter için her tweet'ten tweet tarihi, retweetler, takipçi listesi vb. bir özellik oluşturabiliriz. Daha sonra hava durumunu tahmin etmek için çok değişkenli bir zaman serisi modeli kullanabilirsiniz.


30. Veri biliminde algoritmayı ne zaman güncellemeniz gerekir?

Aşağıdaki durumda algoritmayı güncellemeniz gerekir:

  • Veri modelinizin altyapıyı kullanan veri akışları olarak gelişmesini istiyorsunuz
  • Temel veri kaynağı değişiyorsa Durağan değilse

31. Normal Dağılım Nedir?

Normal dağılım, normal bir eğri boyunca veya çan eğrisi şeklinde yayılan sürekli bir değişken kümesidir. Bunu istatistikte yararlı olan sürekli bir olasılık dağılımı olarak düşünebilirsiniz. Normal dağılım eğrisini kullanırken değişkenleri ve aralarındaki ilişkileri analiz etmek faydalıdır.


32. Metin analizi için en iyi dil hangisidir? R veya Python?

Python pandas olarak bilinen zengin bir kütüphaneden oluştuğu için metin analitiğine daha uygun olacaktır. Üst düzey kullanmanıza olanak tanır veri analiz araçları ve veri yapıları, R ise bu özelliği sunmuyor.


33. Veri Bilimcileri tarafından istatistik kullanımının faydalarını açıklayın

İstatistikler, Veri bilimcilerinin müşterinin beklentileri hakkında daha iyi bir fikir edinmesine yardımcı olur. İstatistik yöntemini kullanarak Veri Bilimcileri tüketici ilgisi, davranışı, katılımı, elde tutma vb. konularda bilgi edinebilir. Bu aynı zamanda belirli çıkarımları ve tahminleri doğrulamak için güçlü veri modelleri oluşturmanıza da yardımcı olur.


34. Çeşitli Derin Öğrenme Çerçevelerini adlandırın

  • ateş feneri
  • Microsoft Bilişsel Araç Seti
  • TensorFlow
  • Caffe
  • Zincirleme
  • keras

35.Otomatik Kodlayıcıyı Açıklayın

Otomatik kodlayıcılar öğrenen ağlardır. Girdileri daha az hatayla çıktılara dönüştürmenize yardımcı olur. Bu, çıktının girdiye mümkün olduğunca yakın olacağı anlamına gelir.


36. Boltzmann Makinesini Tanımlayın

Boltzmann makineleri basit bir öğrenme algoritmasıdır. Eğitim verilerindeki karmaşık düzenlilikleri temsil eden özellikleri keşfetmenize yardımcı olur. Bu algoritma, verilen problem için ağırlıkları ve miktarı optimize etmenize olanak tanır.


37. Veri Temizlemenin neden gerekli olduğunu ve verileri temiz tutmak için hangi yöntemi kullandığınızı açıklayın

Kirli veriler çoğu zaman yanlış iç bilgilere yol açar ve bu da herhangi bir kuruluşun geleceğine zarar verebilir. Örneğin, hedefli bir pazarlama kampanyası yürütmek istiyorsanız. Ancak verilerimiz size belirli bir ürünün hedef kitleniz tarafından talep edileceğini yanlış söylüyor; kampanya başarısız olacaktır.


38. Çarpık Dağıtım ve düzgün dağılım nedir?

Veriler grafiğin herhangi bir tarafına dağıtıldığında çarpık dağılım meydana gelirken, veriler aralıkta eşit yayıldığında tekdüze dağılım tanımlanır.


39. Statik bir modelde yetersiz uyum ne zaman meydana gelir?

Yetersiz uyum, bir istatistiksel model veya makine öğrenimi algoritması, verilerin temel eğilimini yakalayamadığında ortaya çıkar.


40. Takviyeli öğrenme nedir?

Takviyeli Öğrenme, durumların eylemlerle nasıl eşleştirileceğine ilişkin bir öğrenme mekanizmasıdır. Nihai sonuç, ikili ödül sinyalini artırmanıza yardımcı olacaktır. Bu yöntemde, öğrenciye hangi eylemi yapması gerektiği söylenmez, bunun yerine hangi eylemin maksimum ödül sunduğunu keşfetmesi gerekir. Bu yöntem ödül/ceza mekanizmasına dayanmaktadır.


41. Yaygın olarak kullanılan algoritmaları adlandırın.

Veri bilimcisi tarafından en sık kullanılan dört algoritma şunlardır:

  • Doğrusal regresyon
  • Lojistik regresyon
  • Rastgele Orman
  • KNN

42. Kesinlik nedir?

Kesinlik en sık kullanılan hata ölçüsüdür ve n sınıflandırma mekanizmasıdır. Aralığı 0 ila 1 arasındadır; burada 1, %100'ü temsil eder


43. Tek değişkenli analiz nedir?

Hiçbir özelliğe aynı anda uygulanmayan analiz, tek değişkenli analiz olarak bilinir. BoxGrafik yaygın olarak kullanılan tek değişkenli bir modeldir.


44. Bulgularınıza yönelik zorlukların üstesinden nasıl gelirsiniz?

Bulduğum zorlukların üstesinden gelmek için tartışmayı teşvik etmek, liderlik göstermek ve farklı seçeneklere saygı duymak gerekiyor.


45. Veri biliminde küme örnekleme tekniğini açıklayın

Hedef popülasyonun geneline yayılmış çalışmanın zor olduğu ve basit rastgele örneklemenin uygulanamadığı durumlarda küme örnekleme yöntemi kullanılır.


46. ​​Doğrulama Seti ile Test Seti arasındaki farkı belirtin

Bir Doğrulama seti çoğunlukla eğitim setinin bir parçası olarak kabul edilir, çünkü parametre seçimi için kullanılır ve inşa edilen modelin gereğinden fazla takılmasını önlemenize yardımcı olur.

Eğitimli bir makine öğrenimi modelinin performansını test etmek veya değerlendirmek için bir Test Seti kullanılırken.


47. Binom Olasılık Formülü terimini açıklayınız?

"Binom dağılımı, π'nin meydana gelme olasılığına sahip bağımsız olaylar için N denemede mümkün olan her başarının olasılığını içerir."


48. Geri çağırma nedir?

Geri çağırma, gerçek pozitif oranın gerçek pozitif orana oranıdır. 0 ila 1 arasında değişir.


49. Normal dağılımı tartışın

Normal dağılım eşit dağıldığı için ortalama, medyan ve mod eşittir.


50. Bir veri seti üzerinde çalışırken önemli değişkenleri nasıl seçersiniz? Açıklamak

Değişken seçimi için aşağıdaki yöntemleri kullanabilirsiniz:

  • Önemli değişkenleri seçmeden önce ilişkili değişkenleri kaldırın
  • Doğrusal regresyonu kullanın ve bu p değerlerine bağlı değişkenleri seçin.
  • Geriye Doğru, İleriye Doğru Seçim ve Kademeli Seçimi Kullanın
  • Xgboost, Random Forest kullanın ve değişken önem tablosunu çizin.
  • Verilen özellikler dizisi için bilgi kazanımını ölçün ve buna göre en iyi n özelliği seçin.

51. Sürekli ve kategorik değişken arasındaki korelasyonu yakalamak mümkün müdür?

Evet, sürekli ve kategorik değişkenler arasındaki ilişkiyi yakalamak için kovaryans analizi tekniğini kullanabiliriz.


52. Kategorik bir değişkeni sürekli bir değişken olarak ele almak daha iyi bir tahmin modeliyle sonuçlanabilir mi?

Evet, kategorik değer yalnızca değişken doğası gereği sıralı olduğunda sürekli bir değişken olarak değerlendirilmelidir. Dolayısıyla daha iyi bir tahmin modelidir.

Bu mülakat soruları aynı zamanda yaşamınızda da yardımcı olacaktır.