60'te 2025'tan Fazla Veri Mühendisi Mülakat Sorusu ve Yanıtı

İşte hayallerindeki işi bulmaları için daha yeni ve deneyimli veri mühendisi adaylarına yönelik Veri Mühendisliği mülakat soruları ve cevapları.

Yeni Öğrenciler için Veri Mühendisi Mülakat Soruları

1) Veri Mühendisliğini açıklar.

Veri mühendisliği büyük veride kullanılan bir terimdir. Veri toplama ve araştırmanın uygulanmasına odaklanır. Çeşitli kaynaklardan üretilen veriler yalnızca ham verilerdir. Veri mühendisliği bu ham verileri yararlı bilgilere dönüştürmeye yardımcı olur.

2) Veri Modelleme Nedir?

Veri modelleme karmaşık yazılım tasarımını herkesin kolayca anlayabileceği şekilde bir diyagram olarak belgeleme yöntemidir. Çeşitli veri nesneleri ve kurallar arasında ilişkilendirilen veri nesnelerinin kavramsal bir temsilidir.

Veri Modelleme

3) Veri Modellemede çeşitli tasarım şeması türlerini listeleyin

Veri modellemede temel olarak iki tür şema vardır: 1) Yıldız şeması ve 2) Kar Tanesi şeması.

4) Yapılandırılmış ve yapılandırılmamış veriler arasında ayrım yapın

Yapılandırılmış ve yapılandırılmamış veriler arasındaki farklar şunlardır:

Parametre	Yapısal Veri	Yapılandırılmamış Veriler
Depolama	DBMS	Yönetilmeyen dosya yapıları
Standart	ADO.net, ODBC ve SQL	STMP, XML, CSV ve SMS
Entegrasyon Aracı	ELT (Çıkarma, Dönüştürme, Yükleme)	Kodları içeren manuel veri girişi veya toplu işleme
ölçekleme	Şema ölçeklendirmesi zordur	Ölçeklendirme çok kolaydır.

5) Hadoop uygulamasının tüm bileşenlerini açıklayın

Aşağıdaki vardır Hadoop uygulamasının bileşenleri:

Hadoop Ekosistemi ve Bileşenleri

Hadoop Ortak: Hadoop tarafından kullanılan yaygın bir dizi yardımcı program ve kütüphanedir.
HDFS'ler: Bu Hadoop uygulaması, Hadoop verilerinin saklandığı dosya sistemiyle ilgilidir. Yüksek bant genişliğine sahip dağıtılmış bir dosya sistemidir.
Hadoop Haritası Azaltma: Büyük ölçekli veri işlemenin sağlanmasına yönelik algoritmaya dayanmaktadır.
Hadoop İPLİK: Hadoop kümesi içindeki kaynak yönetimi için kullanılır. Ayrıca kullanıcılar için görev zamanlaması için de kullanılabilir.

6) NameNode nedir?

HDFS'nin merkezi parçasıdır. HDFS verilerini depolar ve kümelerdeki çeşitli dosyaları izler. Burada gerçek veriler saklanmaz. Veriler DataNodes'ta saklanır.

7) Hadoop akışını tanımlayın

Haritanın oluşturulmasına olanak tanıyan ve işleri azaltan ve bunları belirli bir kümeye gönderen bir yardımcı programdır.

8) HDFS'nin tam formu nedir?

HDFS, Hadoop Dağıtılmış Dosya Sistemi anlamına gelir.

9) HDFS'de Blok ve Tarayıcıyı Engelle tanımlayın

Bloklar bir veri dosyasının en küçük birimidir. Hadoop büyük dosyaları otomatik olarak küçük parçalara böler.

Blok Tarayıcı, DataNode'da sunulan blokların listesini doğrular.

10) Blok Tarayıcı bozuk bir veri bloğu tespit ettiğinde gerçekleşen adımlar nelerdir?

Block Scanner bozuk bir veri bloğu bulduğunda gerçekleşen adımlar şunlardır:

1) Öncelikle Blok Tarayıcı bozuk bir veri bloğu bulduğunda DataNode, NameNode'a rapor verir.

2) NameNode, bozuk bloğun bir kopyasını kullanarak yeni bir kopya oluşturma işlemini başlatır.

3) Doğru kopyaların çoğaltma sayısı, çoğaltma faktörüyle eşleşmeye çalışır. Eşleşmenin bozuk olduğu tespit edilirse veri bloğu silinmeyecektir.

11) NameNode'un DataNode'dan aldığı iki mesajı adlandırın mı?

NameNode'un DataNode'dan aldığı iki mesaj vardır. Bunlar 1) Blok raporu ve 2) Kalp atışıdır.

12) Hadoop'ta çeşitli XML yapılandırma dosyalarını listelemek ister misiniz?

Hadoop'ta beş XML yapılandırma dosyası vardır:

Haritalanmış site
Çekirdek site
HDFS sitesi
İplik sahası

13) Büyük verinin dört V'si nedir?

Büyük verinin dört V'si şunlardır:

Hız
çeşitlilik
hacim
gerçeklik

14) Hadoop'un özelliklerini açıklayın

Hadoop'un önemli özellikleri şunlardır:

Ücretsiz olarak kullanılabilen açık kaynaklı bir çerçevedir.
Hadoop birçok donanım türüyle uyumludur ve belirli bir düğümdeki yeni donanımlara kolayca erişilebilmektedir.
Hadoop, verilerin daha hızlı dağıtılmış şekilde işlenmesini destekler.
Verileri diğer işlemlerden bağımsız olarak kümede saklar.
Hadoop, farklı düğümlere sahip her blok için 3 kopya oluşturulmasına olanak tanır.

15) Redüktörün ana yöntemlerini açıklar

setup (): Giriş verilerinin boyutu ve dağıtılmış önbellek gibi parametreleri yapılandırmak için kullanılır.
cleanup(): Bu yöntem geçici dosyaları temizlemek için kullanılır.
reduc(): İlgili azaltılmış görevle birlikte anahtar başına bir kez çağrılan redüktörün kalbidir.

16) COSHH'nin kısaltması nedir?

COSHH'ın kısaltması, Heterojen Hadoop Sistemleri için Sınıflandırma ve Optimizasyona Dayalı Planlama'dır.

17) Yıldız Şemasını Açıklayın

Yıldız Şeması veya Yıldız Katılım Şeması, Veri Ambarı şemasının en basit türüdür. Yapısı yıldıza benzediğinden yıldız şeması olarak bilinir. Yıldız şemasında, yıldızın merkezi bir olgu tablosuna ve ilişkili birden fazla boyut tablosuna sahip olabilir. Bu şema büyük veri kümelerini sorgulamak için kullanılır.

18) Büyük veri çözümü nasıl dağıtılır?

Büyük veri çözümünü devreye almak için aşağıdaki adımları izleyin.

1) RDBMS gibi veri kaynaklarını kullanarak verileri entegre edin, SAP, MySQL, Satış Gücü
2) Çıkarılan verileri NoSQL veritabanında veya HDFS'de saklayın.
3) Pig gibi işleme çerçevelerini kullanarak büyük veri çözümünü dağıtın, Sparkve MapReduce.

19) FSCK'yi açıklayın

Dosya Sistemi Kontrolü veya FSCK, HDFS tarafından kullanılan komuttur. FSCK komutu dosyadaki tutarsızlıkları ve sorunları kontrol etmek için kullanılır.

20) Kar Tanesi Şemasını Açıklayın

A kar tanesi şeması Yıldız Şemasının bir uzantısıdır ve ek boyutlar ekler. Diyagramı kar tanesine benzediği için kar tanesi ismi verilmiştir. Verileri ek tablolara bölen boyut tabloları normalleştirilmiştir.

21) Yıldız ve Kar Tanesi Şemasını Ayırın

Star	Kar Tanesi Şeması
Boyut hiyerarşileri boyut tablosunda saklanır.	Her hiyerarşi ayrı tablolarda saklanır.
Veri artıklığı olasılığı yüksektir	Veri fazlalığı olasılığı düşüktür.
Çok basit bir DB tasarımına sahiptir	Karmaşık bir veritabanı tasarımına sahiptir
Küp işleme için daha hızlı bir yol sağlayın	Karmaşık birleştirme nedeniyle küp işleme yavaştır.

22) Hadoop dağıtılmış dosya sistemini açıklar

Hadoop, S3, HFTP FS, FS ve HDFS gibi ölçeklenebilir dağıtılmış dosya sistemleriyle çalışır. Hadoop Dağıtılmış Dosya Sistemi Google Dosya Sistemi üzerinde yapılmıştır. Bu dosya sistemi bilgisayar sisteminin büyük bir kümesinde kolaylıkla çalışabilecek şekilde tasarlanmıştır.

23) Bir veri mühendisinin temel sorumluluklarını açıklayın

Veri mühendislerinin birçok sorumluluğu vardır. Verinin kaynak sistemini yönetirler. Veri mühendisleri karmaşık veri yapısını basitleştirir ve verilerin tekrarlanmasını önlerler. Çoğu zaman ELT ve veri dönüşümü de sağlarlar.

24) İPLİK'in tam formu nedir?

YARN'un tam biçimi Yet Another Resource Negotiator'dır.

25) Hadoop'taki çeşitli modları listeleyin

Hadoop'taki modlar şunlardır: 1) Bağımsız mod 2) Sözde dağıtılmış mod 3) Tamamen dağıtılmış mod.

26) Hadoop'ta güvenlik nasıl sağlanır?

Hadoop'ta güvenliği sağlamak için aşağıdaki adımları uygulayın:

1) İlk adım, istemcinin kimlik doğrulama kanalını sunucuya güvenli hale getirmektir. Müşteriye zaman damgalı sağlayın.
2) İkinci adımda müşteri, aldığı zaman damgasını kullanarak TGS'den hizmet bileti talebinde bulunur.
3) Son adımda istemci, belirli bir sunucuya kendi kimliğini doğrulamak için hizmet biletini kullanır.

27) Hadoop'ta Kalp Atışı Nedir?

Hadoop'ta NameNode ve DataNode birbirleriyle iletişim kurar. Kalp atışı, DataNode tarafından NameNode'a varlığını göstermek için düzenli olarak gönderilen sinyaldir.

28) Hadoop'ta NAS ve DAS'ı ayırt edin

NAS	DAS
Depolama kapasitesi 10⁹10 için¹² bayt cinsinden.	Depolama kapasitesi 10⁹bayt cinsinden.
GB başına yönetim maliyeti orta düzeydedir.	GB başına yönetim maliyeti yüksektir.
Verileri Ethernet veya TCP/IP kullanarak iletin.	IDE/SCSI kullanarak veri aktarma

29) Veri mühendisinin kullandığı önemli alanları veya dilleri listeleyin

Veri mühendisinin kullandığı birkaç alan veya dil şunlardır:

Olasılık ve doğrusal cebir
Makine öğrenme
Trend analizi ve regresyon
Hive QL ve SQL veritabanları

30) Büyük Veri Nedir?

Geleneksel veri depolama yöntemleriyle kolayca işlenemeyen, büyük miktarda yapılandırılmış ve yapılandırılmamış veridir. Veri mühendisleri büyük verileri yönetmek için Hadoop'u kullanıyor.

Deneyimlilere Yönelik Veri Mühendisi Mülakat Soruları

31) FIFO planlaması nedir?

Bu bir Hadoop İş planlama algoritmasıdır. Bu FIFO planlamasında, bir raportör, en eski iş ilk önce olacak şekilde iş kuyruğundan işleri seçer.

32) Hadoop'ta görev izleyicinin, NameNode'un ve iş izleyicinin çalıştığı varsayılan bağlantı noktası numaralarını belirtin

Hadoop'ta görev izleyicinin, NameNode'un ve iş izleyicinin çalıştığı varsayılan bağlantı noktası numaraları aşağıdaki gibidir:

Görev izleyici 50060 bağlantı noktasında çalışır
NameNode 50070 bağlantı noktasında çalışır
Job Tracker 50030 bağlantı noktasında çalışır

33) HDFS Veri Düğümünde Blok Tarayıcı nasıl devre dışı bırakılır

HDFS Veri Düğümünde Blok Tarayıcıyı devre dışı bırakmak için dfs.datanode.scan.period.hours değerini 0 olarak ayarlayın.

34) Hadoop'ta iki düğüm arasındaki mesafe nasıl tanımlanır?

Uzaklık, en yakın düğümlere olan uzaklığın toplamına eşittir. GetDistance() yöntemi, iki düğüm arasındaki mesafeyi hesaplamak için kullanılır.

35) Hadoop'ta neden ticari donanım kullanılmalı?

Emtia donanımının elde edilmesi kolay ve uygun maliyetlidir. Uyumlu bir sistemdir Windows, MS-DOS veya Linux.

36) HDFS'de replikasyon faktörünü tanımlayın

Çoğaltma faktörü, sistemdeki bir dosyanın toplam kopya sayısıdır.

37) NameNode'da hangi veriler saklanıyor?

Namenode, HDFS'nin blok bilgileri ve ad alanı bilgileri gibi meta verilerini saklar.

38) Raf Farkındalığı ile ne demek istiyorsunuz?

Haddop kümesinde Namenode, yakındaki rafa daha yakın olan herhangi bir dosyayı Okuma veya Yazma isteğine yazarken veya okurken ağ trafiğini iyileştirmek için Datanode'u kullanır. Namenode, raf bilgilerine ulaşmak için her DataNode'un raf kimliğini korur. Bu kavrama Hadoop'ta Rack Awareness adı verilmektedir.

39) İkincil NameNode'un işlevleri nelerdir?

İkincil NameNode'un işlevleri şunlardır:

EditLog ve FsImage dosyasının bir kopyasını saklayan FsImage.
NameNode çökmesi: NameNode çökerse, NameNode'u yeniden oluşturmak için İkincil NameNode'un FsImage'ı kullanılabilir.
Kontrol Noktası: Secondary NameNode tarafından HDFS’de verilerin bozulmadığını doğrulamak için kullanılır.
Güncelleme: EditLog ve FsImage dosyasını otomatik olarak günceller. İkincil NameNode'daki FsImage dosyasının güncel tutulmasına yardımcı olur.

40) NameNode kapalı olduğunda ve kullanıcı yeni bir iş gönderdiğinde ne olur?

NameNode, Hadoop'taki tek hata noktası olduğundan kullanıcı yeni bir iş gönderemez ve yürütemez. NameNode kapalıysa, bu kullanıcının herhangi bir işi çalıştırmadan önce NameNode'un yeniden başlatılmasını beklemesi gerektiğinden iş başarısız olabilir.

41) Hadoop'ta redüktörün temel aşamaları nelerdir?

Hadoop'ta bir redüktörün üç temel aşaması vardır:

1. Karıştır: Burada, Redüktör, çıktıyı Mapper'dan kopyalar.

2. Sırala: Hadoop, aynı tuşu kullanarak girişi Redüktöre sıralar.

3. Azaltın: Bu aşamada, verileri nihai çıktıda birleştirmek için bir anahtarla ilişkili çıktı değerleri azaltılır.

42) Hadoop neden Context nesnesini kullanıyor?

Hadoop framework, kalan sistemle etkileşim kurmak için Mapper sınıfıyla Context nesnesini kullanır. Context nesnesi, kurucudaki sistem yapılandırma ayrıntılarını ve işi alır.

setup(), cleanup() ve map() yöntemlerinde bilgileri iletmek için Context nesnesini kullanırız. Bu nesne, harita işlemleri sırasında hayati bilgilerin kullanılabilir olmasını sağlar.

43) Hadoop'ta Birleştiriciyi Tanımlayın

Haritalama ve Azaltma arasında isteğe bağlı bir adımdır. Birleştirici, çıktıyı Harita işlevinden alır, anahtar değer çiftleri oluşturur ve Hadoop Redüktöre gönderir. Birleştiricinin görevi, Haritadan elde edilen nihai sonucu aynı anahtarla özet kayıtlara özetlemektir.

44) HDFS'de bulunan varsayılan çoğaltma faktörü nedir? Neyi gösterir?

HDFS'de mevcut olan varsayılan çoğaltma faktörü üçtür. Varsayılan çoğaltma faktörü, her verinin üç kopyasının olacağını gösterir.

45) Hadoop'ta Veri Yerelliği ne demek?

Büyük Veri sisteminde verilerin boyutu çok büyüktür ve bu nedenle verileri ağ üzerinde taşımak mantıklı değildir. Hadoop artık hesaplamayı verilere yaklaştırmaya çalışıyor. Bu şekilde veriler depolanan konumda yerel kalır.

46) HDFS'de Dengeleyiciyi Tanımlayın

HDFS'de dengeleyici, yönetici personeli tarafından DataNode'lar arasındaki verileri yeniden dengelemek ve blokları aşırı kullanılan düğümlerden az kullanılan düğümlere taşımak için kullanılan bir yönetim birimidir.

47) HDFS'de Güvenli modu açıklama

Bir kümedeki NameNode'un salt okunur modudur. Başlangıçta NameNode Güvenli Moddadır. Güvenli Modda dosya sistemine yazmayı engeller. Şu anda tüm DataNode'lardan veri ve istatistik topluyor.

48) Apache Hadoop'ta Dağıtılmış Önbelleğin önemi nedir?

Hadoop, uygulamalar tarafından kullanılan dosyaları önbelleğe alarak işlerin performansını artıran, Dağıtılmış Önbellek adı verilen kullanışlı bir yardımcı özelliğe sahiptir. Bir uygulama, JobConf yapılandırmasını kullanarak önbellek için bir dosya belirtebilir.

Hadoop çerçevesi, bu dosyaların bir görevin yürütülmesi gereken düğümlere kopyalanmasını sağlar. Bu, görevin yürütülmesi başlamadan önce yapılır. Dağıtılmış Önbellek, salt okunur dosyaların yanı sıra zip ve jar dosyalarının dağıtımını da destekler.

49) Hive'daki Metastore nedir?

Hive tablosu konumunun yanı sıra şemayı da saklar.

Hive tablosu, Metastore'da depolanan eşlemeleri ve meta verileri tanımlar. Bu, JPOX tarafından desteklenen RDBMS'de saklanabilir.

50) Hive'daki SerDe ne anlama geliyor?

SerDe, Seri Hale Getirici veya Seri Hale Getiricinin kısa adıdır. Hive'da SerDe, tablodan veri okumanıza ve belirli bir alana istediğiniz formatta yazmanıza olanak tanır.

51) Hive veri modelinde bulunan bileşenleri listeleyin

Hive veri modelinde aşağıdaki bileşenler bulunur:

tablolar
Bölme
Kepçeler

52) Hadoop ekosisteminde Hive kullanımını açıklar.

Hive, Hadoop ekosisteminde depolanan verileri yönetmek için bir arayüz sağlar. Hive, HBase tablolarını eşlemek ve bunlarla çalışmak için kullanılır. Hive sorguları, MapReduce işlerini oluşturma ve çalıştırma ile ilişkili karmaşıklığı gizlemek için MapReduce işlerine dönüştürülür.

53) Hive tarafından desteklenen çeşitli karmaşık veri tiplerini/koleksiyonlarını listeleyin

Hive aşağıdaki karmaşık veri türlerini destekler:

Harita
yapı
Dizi
sendika

54) Hive'da .hiverc dosyasının nasıl kullanıldığını açıklayın?

Hive'da .hiverc başlatma dosyasıdır. Bu dosya ilk olarak Hive için Komut Satırı Arayüzünü (CLI) başlattığımızda yüklenir. .hiverc dosyasında parametrelerin başlangıç değerlerini ayarlayabiliriz.

55) Hive'da tek bir veri dosyası için birden fazla tablo oluşturmak mümkün mü?

Evet, bir veri dosyası için birden fazla tablo şeması oluşturabiliriz. Hive, şemayı Hive Metastore'a kaydeder. Bu şemaya dayanarak aynı Verilerden farklı sonuçlar elde edebiliriz.

56) Hive'da bulunan farklı SerDe uygulamalarını açıklayın

Hive'da birçok SerDe uygulaması mevcuttur. Ayrıca kendi özel SerDe uygulamanızı da yazabilirsiniz. Aşağıda bazı ünlü SerDe uygulamaları verilmiştir:

OpenCSVSerde
RegexSerDe
SınırlandırılmışJSONSerDe
ByteStreamTypedSerDe

57) Hive'da mevcut olan tablo oluşturma işlevlerini listeleyin

Aşağıda tablo oluşturma fonksiyonlarının bir listesi bulunmaktadır:

Patlat(dizi)
JSON_tuple()
Yığın()
Patlat(harita)

58) Hive'da Çarpık tablo nedir?

Çarpık tablo, sütun değerlerini daha sık içeren bir tablodur. Hive'da bir tabloyu oluşturma sırasında SKEWED olarak belirttiğimizde skew değerler ayrı dosyalara yazılır, kalan değerler başka bir dosyaya gider.

59) create ifadesi tarafından oluşturulan nesneleri listeleyin. MySQL.

Create deyimi tarafından oluşturulan nesneler MySQL aşağıdaki gibidir:

veritabanı
indeks
tablo
kullanıcı
Prosedür
Tetik
Etkinlikler
Görüntüle
işlev

60) Veritabanı yapısını nasıl görebilirim? MySQL?

Veritabanı yapısını görmek için MySQL, Kullanabilirsiniz

AÇIKLAMA komutu. Bu komutun sözdizimi şöyledir DESCRIBE Table name;.

Veri Mühendisi için SQL Mülakat Soruları

61) Belirli bir String nasıl aranır? MySQL tablo sütunu?

Bir Dizeyi aramak için regex operatörünü kullanın MySQL kolon. Burada ayrıca çeşitli düzenli ifade türlerini tanımlayabilir ve regex kullanımını arayabiliriz.

62) Veri analitiğinin ve büyük verinin şirket gelirini nasıl artırabileceğini açıklayın?

Veri analitiği ve büyük verinin şirket gelirlerini nasıl artırabileceğine dair bazı örnekler şunlardır:

İşletmenizin büyümesini sağlamak için verileri verimli bir şekilde kullanın.
Müşteri değerini artırın.
Personel seviyesi tahminlerini geliştirmek için analitik yaklaşım.
Kuruluşların üretim maliyetlerinin azaltılması.

Bu mülakat soruları aynı zamanda yaşamınızda da yardımcı olacaktır.