60+ أسئلة وأجوبة لمقابلة مهندس البيانات في عام 2024

فيما يلي أسئلة وإجابات مقابلة هندسة البيانات للمرشحين الجدد وذوي الخبرة للحصول على وظيفة أحلامهم.

 

أسئلة مقابلة مهندس البيانات للطلاب الجدد

1) شرح هندسة البيانات.

هندسة البيانات هو مصطلح يستخدم في البيانات الضخمة. ويركز على تطبيق جمع البيانات والبحث. البيانات الناتجة من مصادر مختلفة هي مجرد بيانات أولية. تساعد هندسة البيانات على تحويل هذه البيانات الأولية إلى معلومات مفيدة.


2) ما هي نمذجة البيانات؟

نمذجة البيانات هي طريقة توثيق تصميمات البرامج المعقدة على هيئة رسم بياني بحيث يمكن لأي شخص فهمها بسهولة. وهي عبارة عن تمثيل مفاهيمي لكائنات البيانات المرتبطة بين كائنات البيانات المختلفة والقواعد.

نمذجة البيانات


3) سرد أنواع مختلفة من مخططات التصميم في نمذجة البيانات

هناك نوعان أساسيان من المخططات في نمذجة البيانات: 1) مخطط النجوم و2) مخطط ندفة الثلج.


4) التمييز بين البيانات المنظمة وغير المنظمة

فيما يلي الفرق بين البيانات المنظمة وغير المنظمة:

معامل منظم البيانات بيانات غير منظمة
الخزائن DBMS هياكل الملفات غير المدارة
المجموعة الأساسية ADO.net، ODBC، وSQL STMP، XML، CSV، والرسائل النصية القصيرة
أداة التكامل ELT (استخراج، تحويل، تحميل) إدخال البيانات يدويًا أو معالجة الدُفعات التي تتضمن الرموز
التحجيم يعد تغيير حجم المخطط أمرًا صعبًا القياس سهل للغاية.

5) شرح جميع مكونات تطبيق Hadoop

فيما يلي مكونات تطبيق Hadoop:

نظام Hadoop البيئي ومكوناته

  • هادوب المشتركة: إنها مجموعة شائعة من الأدوات المساعدة والمكتبات التي يستخدمها Hadoop.
  • هدفس: يرتبط تطبيق Hadoop هذا بنظام الملفات الذي يتم تخزين بيانات Hadoop فيه. إنه نظام ملفات موزع ذو نطاق ترددي عالي.
  • Hadoop MapReduce: يعتمد على الخوارزمية لتوفير معالجة البيانات على نطاق واسع.
  • غزل هادوب: يتم استخدامه لإدارة الموارد داخل مجموعة Hadoop. ويمكن استخدامه أيضًا لجدولة المهام للمستخدمين.

6) ما هو NameNode؟

إنه محور نظام HDFS. فهو يخزن بيانات نظام HDFS ويتتبع الملفات المختلفة عبر المجموعات. هنا، لا يتم تخزين البيانات الفعلية. بل يتم تخزين البيانات في DataNodes.


7) تعريف تدفق Hadoop

إنها أداة مساعدة تسمح بإنشاء الخريطة وتقليل الوظائف وإرسالها إلى مجموعة محددة.


8) ما هو الشكل الكامل لـ HDFS؟

HDFS لتقف على نظام الملفات الموزعة Hadoop.


9) تعريف Block و Block Scanner في HDFS

الكتل هي أصغر وحدة في ملف البيانات. يقوم Hadoop تلقائيًا بتقسيم الملفات الضخمة إلى أجزاء صغيرة.

يتحقق Block Scanner من قائمة الكتل المعروضة على DataNode.


10) ما هي الخطوات التي تحدث عندما يكتشف Block Scanner كتلة بيانات تالفة؟

فيما يلي الخطوات التي تحدث عندما يجد Block Scanner كتلة بيانات تالفة:

1) أولاً وقبل كل شيء، عندما يعثر Block Scanner على كتلة بيانات تالفة، يقوم DataNode بإبلاغ NameNode

2) يبدأ NameNode عملية إنشاء نسخة متماثلة جديدة باستخدام نسخة طبق الأصل من الكتلة التالفة.

3) يحاول عدد النسخ المتماثل للنسخ المتماثلة الصحيحة أن يتطابق مع عامل النسخ المتماثل. إذا تم العثور على التطابق، فلن يتم حذف كتلة البيانات التالفة.


11) ما اسم الرسالتين اللتين تحصل عليهما NameNode من DataNode؟

هناك رسالتان يحصل عليهما NameNode من DataNode. هم 1) تقرير الحظر و 2) نبضات القلب.


12) قم بإدراج ملفات تكوين XML المتنوعة في Hadoop؟

هناك خمسة ملفات تكوين XML في Hadoop:

  • موقع Mapred
  • الموقع الأساسي
  • موقع HDFS
  • موقع الغزل

13) ما هي العناصر الأربعة للبيانات الضخمة؟

أربعة من البيانات الضخمة هي:

  • سرعة
  • تشكيلة
  • الصوت
  • الإيذائية

14) شرح مميزات برنامج Hadoop

الميزات الهامة لبرنامج Hadoop هي:

  • إنه إطار عمل مفتوح المصدر ومتاح مجانًا.
  • Hadoop متوافق مع العديد من أنواع الأجهزة ويسهل الوصول إلى الأجهزة الجديدة داخل عقدة معينة.
  • يدعم Hadoop المعالجة الموزعة بشكل أسرع للبيانات.
  • يقوم بتخزين البيانات في المجموعة، والتي تكون مستقلة عن بقية العمليات.
  • يسمح Hadoop بإنشاء 3 نسخ متماثلة لكل كتلة ذات عقد مختلفة.

15) شرح الطرق الرئيسية للتقليل

  • الإعداد (): يتم استخدامه لتكوين المعلمات مثل حجم بيانات الإدخال وذاكرة التخزين المؤقت الموزعة.
  • تنظيف (): تستخدم هذه الطريقة لتنظيف الملفات المؤقتة.
  • تقليل (): إنه قلب المخفض الذي يتم استدعاؤه مرة واحدة لكل مفتاح مع المهمة المخفضة المرتبطة به

16) ما هو اختصار COSHH؟

اختصار COSHH هو التصنيف والتحسين القائم على الجدول الزمني لأنظمة Hadoop غير المتجانسة.


17) شرح مخطط النجوم

مخطط النجوم أو Star Join Schema هو أبسط نوع من مخططات مستودع البيانات. يُعرف باسم مخطط النجمة لأن بنيته تشبه النجم. في مخطط النجمة، قد يحتوي مركز النجمة على جدول حقائق واحد وجدول أبعاد متعدد مرتبط. يُستخدم هذا المخطط للاستعلام عن مجموعات البيانات الكبيرة.


18) كيفية نشر حل البيانات الضخمة؟

اتبع الخطوات التالية لنشر حل البيانات الضخمة.

1) دمج البيانات باستخدام مصادر البيانات مثل RDBMS، SAP, MySQL, ساليسفورسي
2) تخزين البيانات المستخرجة إما في قاعدة بيانات NoSQL أو HDFS.
3) نشر حلول البيانات الضخمة باستخدام أطر المعالجة مثل Pig، Sparkو MapReduce.


19) شرح FSCK

فحص نظام الملفات أو FSCK هو أمر يستخدمه HDFS. يتم استخدام أمر FSCK للتحقق من التناقضات والمشكلات في الملف.


20) شرح مخطط ندفة الثلج

A مخطط ندفة الثلج هو امتداد لمخطط النجوم، ويضيف أبعادًا إضافية. يطلق عليها اسم ندفة الثلج لأن مخططها يشبه ندفة الثلج. يتم تسوية جداول الأبعاد، مما يؤدي إلى تقسيم البيانات إلى جداول إضافية.


21) التمييز بين مخطط النجمة وندفة الثلج

Star مخطط SnowFlake
يتم تخزين التسلسل الهرمي للأبعاد في جدول الأبعاد. يتم تخزين كل تسلسل هرمي في جداول منفصلة.
فرص تكرار البيانات مرتفعة فرص تكرار البيانات منخفضة.
لديها تصميم قاعدة بيانات بسيط للغاية لديه تصميم قاعدة بيانات معقدة
توفير طريقة أسرع لمعالجة المكعب معالجة المكعب بطيئة بسبب الانضمام المعقد.

22) شرح نظام الملفات الموزعة Hadoop

يعمل Hadoop مع أنظمة الملفات الموزعة القابلة للتطوير مثل S3 وHFTP FS وFS وHDFS. تم إنشاء نظام الملفات الموزع Hadoop على نظام ملفات Google. تم تصميم نظام الملفات هذا بطريقة تجعله قادرًا على العمل بسهولة على مجموعة كبيرة من أنظمة الكمبيوتر.


23) شرح المسؤوليات الرئيسية لمهندس البيانات

يتحمل مهندسو البيانات العديد من المسؤوليات. فهم يديرون نظام المصدر للبيانات. ويعمل مهندسو البيانات على تبسيط بنية البيانات المعقدة ومنع تكرار البيانات. وفي كثير من الأحيان، يوفرون أيضًا ترجمة البيانات وتحويلها.


24) ما هو الشكل الكامل للغزل؟

الشكل الكامل لـ YARN هو مفاوض آخر للموارد.


25) قائمة الأوضاع المختلفة في Hadoop

الأوضاع في Hadoop هي 1) الوضع المستقل 2) الوضع الموزع الزائف 3) الوضع الموزع بالكامل.


26) كيفية تحقيق الأمن في Hadoop؟

قم بإجراء الخطوات التالية لتحقيق الأمان في Hadoop:

1) الخطوة الأولى هي تأمين قناة المصادقة الخاصة بالعميل إلى الخادم. تقديم ختم زمني للعميل.
2) في الخطوة الثانية، يستخدم العميل الطابع الزمني المستلم لطلب TGS للحصول على تذكرة الخدمة.
3) في الخطوة الأخيرة، يستخدم العميل تذكرة الخدمة للمصادقة الذاتية لخادم معين.


27) ما هو نبض القلب في Hadoop؟

في Hadoop، يتواصل NameNode وDataNode مع بعضهما البعض. نبضات القلب هي الإشارة التي ترسلها DataNode إلى NameNode بشكل منتظم لإظهار وجودها.


28) التمييز بين NAS وDAS في Hadoop

NAS DAS
سعة التخزين 109 إلى 1012 بالبايت. سعة التخزين 109 بالبايت.
تكلفة الإدارة لكل جيجابايت معتدلة. تكلفة الإدارة لكل جيجابايت مرتفعة.
نقل البيانات باستخدام Ethernet أو TCP/IP. نقل البيانات باستخدام IDE/SCSI

29) قم بإدراج الحقول أو اللغات المهمة التي يستخدمها مهندس البيانات

فيما يلي بعض المجالات أو اللغات التي يستخدمها مهندس البيانات:

  • الاحتمالية وكذلك الجبر الخطي
  • تعلم الآلة
  • تحليل الاتجاه والانحدار
  • قواعد بيانات Hive QL وSQL

30) ما هي البيانات الضخمة؟

إنها كمية كبيرة من البيانات المنظمة وغير المنظمة، والتي لا يمكن معالجتها بسهولة بواسطة طرق تخزين البيانات التقليدية. يستخدم مهندسو البيانات Hadoop لإدارة البيانات الضخمة.


أسئلة مقابلة مهندس البيانات للخبرة

31) ما هي جدولة FIFO؟

إنها خوارزمية جدولة وظائف Hadoop. في جدولة ما يصرف أولاً (FIFO) هذه، يقوم المراسل باختيار الوظائف من قائمة انتظار العمل، مع تحديد الوظيفة الأقدم أولاً.


32) اذكر أرقام المنافذ الافتراضية التي يتم تشغيل متعقب المهام وNameNode ومتعقب الوظائف عليها في Hadoop

أرقام المنافذ الافتراضية التي يتم تشغيل متعقب المهام وNameNode ومتعقب الوظائف عليها في Hadoop هي كما يلي:

  • يعمل متعقب المهام على منفذ 50060
  • يعمل NameNode على منفذ 50070
  • يعمل برنامج Job Tracker على منفذ 50030

33) كيفية تعطيل Block Scanner على عقدة بيانات HDFS

لتعطيل Block Scanner على عقدة بيانات HDFS، اضبط dfs.datanode.scan.period.hours على 0.


34) كيفية تحديد المسافة بين العقدتين في Hadoop؟

المسافة تساوي مجموع المسافة إلى أقرب العقد. يتم استخدام طريقة getDistance () لحساب المسافة بين عقدتين.


35) لماذا استخدام الأجهزة السلعية في Hadoop؟

من السهل الحصول على الأجهزة السلعية وبأسعار معقولة. وهو نظام متوافق مع Windowsأو MS-DOS أو Linux.


36) تحديد عامل النسخ في HDFS

عامل النسخ المتماثل هو إجمالي عدد النسخ المتماثلة للملف الموجود في النظام.


37) ما هي البيانات المخزنة في NameNode؟

يقوم Namenode بتخزين البيانات التعريفية لـ HDFS مثل معلومات الكتلة ومعلومات مساحة الاسم.


38) ماذا تقصد بالوعي الرف؟

في مجموعة Haddop، يستخدم Namenode عقدة البيانات لتحسين حركة المرور على الشبكة أثناء قراءة أو كتابة أي ملف أقرب إلى الرف القريب لطلب القراءة أو الكتابة. يحتفظ Namenode بمعرف الرف لكل عقدة بيانات لتحقيق معلومات الرف. يُطلق على هذا المفهوم اسم وعي الرف في Hadoop.


39) ما هي وظائف Secondary NameNode؟

فيما يلي وظائف اسم العقدة الثانوية:

  • FsImage الذي يقوم بتخزين نسخة من ملف EditLog وFsImage.
  • تعطل NameNode: في حالة تعطل NameNode، يمكن استخدام FsImage الخاص بـ NameNode الثانوي لإعادة إنشاء NameNode.
  • نقطة التفتيش: يتم استخدامها بواسطة Secondary NameNode للتأكد من عدم تلف البيانات في HDFS.
  • التحديث: يقوم تلقائيًا بتحديث ملف EditLog وFsImage. يساعد في الحفاظ على تحديث ملف FsImage على Secondary NameNode.

40) ماذا يحدث عندما يكون NameNode معطلاً، ويقوم المستخدم بإرسال وظيفة جديدة؟

NameNode هي نقطة الفشل الوحيدة في Hadoop، لذا لا يمكن للمستخدم إرسال مهمة جديدة ولا يمكن تنفيذها. إذا كانت NameNode معطلة، فقد تفشل المهمة، نظرًا لأن هذا المستخدم يحتاج إلى الانتظار حتى يتم إعادة تشغيل NameNode قبل تشغيل أي مهمة.


41) ما هي المراحل الأساسية للمخفض في Hadoop؟

هناك ثلاث مراحل أساسية للمخفض في Hadoop:

1. خلط ورق اللعب: هنا، يقوم المخفض بنسخ الإخراج من Mapper.

2. الفرز: في الفرز، يقوم Hadoop بفرز الإدخال إلى المخفض باستخدام نفس المفتاح.

3. التخفيض: في هذه المرحلة، يتم تقليل قيم المخرجات المرتبطة بالمفتاح لدمج البيانات في المخرجات النهائية.


42) لماذا يستخدم Hadoop كائن السياق؟

يستخدم إطار عمل Hadoop كائن السياق مع فئة Mapper للتفاعل مع النظام المتبقي. يحصل كائن السياق على تفاصيل تكوين النظام والمهمة في المنشئ الخاص به.

نستخدم كائن السياق لتمرير المعلومات في طرق setup() وcleanup() وmap(). يجعل هذا الكائن المعلومات الحيوية متاحة أثناء عمليات الخريطة.


43) تعريف الموحد في Hadoop

إنها خطوة اختيارية بين Map وReduce. يأخذ Combiner الناتج من دالة Map، وينشئ أزواجًا من القيم الرئيسية، ويرسلها إلى Hadoop Reducer. تتمثل مهمة Combiner في تلخيص النتيجة النهائية من Map في سجلات موجزة بمفتاح متطابق.


44) ما هو عامل النسخ الافتراضي المتوفر في HDFS على ماذا يشير؟

عامل النسخ الافتراضي المتوفر في HDFS هو ثلاثة. يشير عامل النسخ المتماثل الافتراضي إلى أنه سيكون هناك ثلاث نسخ متماثلة لكل بيانات.


45) ماذا تقصد بمحلية البيانات في Hadoop؟

في نظام البيانات الضخمة، يكون حجم البيانات ضخمًا، ولهذا السبب ليس من المنطقي نقل البيانات عبر الشبكة. الآن، يحاول Hadoop تقريب العمليات الحسابية من البيانات. بهذه الطريقة، تظل البيانات محلية في الموقع المخزن.


46) تعريف الموازن في HDFS

في HDFS، يعد الموازن بمثابة إداري يستخدمه موظفو الإدارة لإعادة توازن البيانات عبر DataNodes ونقل الكتل من العقد ذات الاستخدام الزائد إلى العقد غير المستغلة.


47) شرح الوضع الآمن في HDFS

إنه وضع القراءة فقط لـ NameNode في مجموعة. في البداية، يكون NameNode في الوضع الآمن. ويمنع الكتابة إلى نظام الملفات في الوضع الآمن. في هذا الوقت، يجمع البيانات والإحصائيات من جميع DataNodes.


48) ما هي أهمية ذاكرة التخزين المؤقت الموزعة في Apache Hadoop؟

يحتوي Hadoop على ميزة مفيدة تسمى ذاكرة التخزين المؤقت الموزعة والتي تعمل على تحسين أداء المهام عن طريق التخزين المؤقت للملفات التي تستخدمها التطبيقات. يمكن للتطبيق تحديد ملف لذاكرة التخزين المؤقت باستخدام تكوين JobConf.

يقوم إطار عمل Hadoop بإنشاء نسخة طبق الأصل من هذه الملفات إلى العقد التي يجب تنفيذ المهمة فيها. ويتم ذلك قبل بدء تنفيذ المهمة. تدعم ذاكرة التخزين المؤقت الموزعة توزيع ملفات القراءة فقط بالإضافة إلى ملفات zip وjars.


49) ما هو Metastore في الخلية؟

يقوم بتخزين المخطط بالإضافة إلى موقع جدول الخلية.

يحدد جدول الخلية والتعيينات والبيانات التعريفية المخزنة في Metastore. يمكن تخزين هذا في RDBMS المدعوم بواسطة JPOX.


50) ماذا يعني SerDe في الخلية؟

SerDe هو اسم قصير لـ Serializer أو Deserializer. في Hive، يسمح SerDe بقراءة البيانات من الجدول إلى حقل معين والكتابة فيه بأي تنسيق تريده.


51) قائمة المكونات المتوفرة في نموذج بيانات الخلية

يتضمن نموذج بيانات Hive المكونات التالية:

  • طاولات
  • أقسام
  • الدلاء

52) شرح استخدام الخلية في النظام البيئي Hadoop.

يوفر Hive واجهة لإدارة البيانات المخزنة في نظام Hadoop البيئي. يتم استخدام Hive لرسم الخرائط والعمل مع جداول HBase. يتم تحويل استعلامات Hive إلى مهام MapReduce من أجل إخفاء التعقيد المرتبط بإنشاء وتشغيل مهام MapReduce.


53) قم بإدراج أنواع البيانات المعقدة المختلفة/المجموعات التي يدعمها Hive

يدعم Hive أنواع البيانات المعقدة التالية:

  • خريطة
  • الهيكل
  • مجموعة
  • الاتحاد

54) اشرح كيفية استخدام ملف .hiverc في الخلية؟

في الخلية، .hiverc هو ملف التهيئة. يتم تحميل هذا الملف في البداية عندما نبدأ واجهة سطر الأوامر (CLI) لـ Hive. يمكننا ضبط القيم الأولية للمعلمات في ملف .hiverc.


55) هل من الممكن إنشاء أكثر من جدول في الخلية لملف بيانات واحد؟

نعم، يمكننا إنشاء أكثر من مخطط جدول لملف بيانات. يحفظ Hive المخطط في Hive Metastore. بناءً على هذا المخطط، يمكننا استرداد نتائج متباينة من نفس البيانات.


56) شرح تطبيقات SerDe المختلفة المتوفرة في الخلية

تتوفر العديد من تطبيقات SerDe في Hive. يمكنك أيضًا كتابة تطبيق SerDe مخصص لك. فيما يلي بعض تطبيقات SerDe الشهيرة:

  • OpenCSVSerde
  • RegexSerDe
  • محددJSONSerDe
  • ByteStreamTypedSerDe

57) قائمة وظائف توليد الجدول المتاحة في الخلية

فيما يلي قائمة بوظائف إنشاء الجدول:

  • تنفجر (صفيف)
  • JSON_tuple()
  • كومة()
  • تنفجر (خريطة)

58) ما هو الجدول المنحرف في الخلية؟

الجدول المنحرف هو جدول يحتوي على قيم الأعمدة في كثير من الأحيان. في Hive، عندما نحدد جدولًا على أنه SKEWED أثناء الإنشاء، تتم كتابة القيم المنحرفة في ملفات منفصلة، ​​وتنتقل القيم المتبقية إلى ملف آخر.


59) قم بإدراج الكائنات التي تم إنشاؤها عن طريق إنشاء بيان في MySQL.

الكائنات التي تم إنشاؤها بواسطة إنشاء بيان في MySQL هي كما يلي:

  • قاعدة البيانات
  • فهرس
  • طاولات ومكاتب
  • اسم المستخدم
  • العملية
  • تحفيز عملية
  • الحدث/الفعالية
  • عرض
  • الوظيفة

60) كيفية رؤية هيكل قاعدة البيانات في MySQL?

من أجل رؤية بنية قاعدة البيانات في MySQL، يمكنك استخدام

وصف الأمر. بناء جملة هذا الأمر هو DESCRIBE Table name;.


أسئلة مقابلة SQL لمهندس البيانات

61) كيفية البحث عن سلسلة معينة في MySQL عمود الجدول؟

استخدم عامل regex للبحث عن سلسلة في MySQL عمود. هنا، يمكننا أيضًا تحديد أنواع مختلفة من التعبير العادي والبحث عن استخدام التعبير العادي.


62) اشرح كيف يمكن لتحليلات البيانات والبيانات الضخمة زيادة إيرادات الشركة؟

فيما يلي الطرق التي يمكن من خلالها لتحليلات البيانات والبيانات الضخمة زيادة إيرادات الشركة:

  • استخدم البيانات بكفاءة للتأكد من نمو الأعمال.
  • زيادة قيمة العميل.
  • التحول التحليلي لتحسين توقعات مستويات التوظيف.
  • خفض تكاليف الإنتاج للمنظمات.

ستساعد أسئلة المقابلة هذه أيضًا في حياتك (شفهي)