أهم 60 أسئلة وأجوبة لمقابلة Hadoop (2025)
فيما يلي أسئلة وأجوبة مقابلة Hadoop MapReduce للمرشحين الجدد وذوي الخبرة للحصول على وظيفة أحلامهم.
Hadoop MapReduce أسئلة المقابلة
1) ما هو تقليل خريطة Hadoop؟
لمعالجة مجموعات البيانات الكبيرة بالتوازي عبر مجموعة Hadoop، يتم استخدام إطار عمل Hadoop MapReduce. يستخدم تحليل البيانات عملية مكونة من خطوتين للخريطة والاختزال.
2) كيف يعمل Hadoop MapReduce؟
في MapReduce، أثناء مرحلة الخريطة، يقوم بعد الكلمات الموجودة في كل مستند، بينما في مرحلة التصغير يقوم بتجميع البيانات وفقًا للمستند الذي يغطي المجموعة بأكملها. أثناء مرحلة الخريطة، يتم تقسيم بيانات الإدخال إلى أقسام للتحليل حسب مهام الخريطة التي تعمل بالتوازي عبر إطار عمل Hadoop.
👉 تنزيل مجاني بصيغة PDF: Hadoop وMapReduce أسئلة وأجوبة المقابلة
3) اشرح ما هو الخلط في MapReduce؟
تُعرف العملية التي يقوم النظام من خلالها بالفرز ونقل مخرجات الخريطة إلى المخفض كمدخلات باسم الخلط العشوائي
4) اشرح ما هي ذاكرة التخزين المؤقت الموزعة في MapReduce Framework؟
تعد ذاكرة التخزين المؤقت الموزعة ميزة مهمة يوفرها إطار عمل MapReduce. عندما تريد مشاركة بعض الملفات عبر كافة العقد في Hadoop Cluster، يتم استخدام ذاكرة التخزين المؤقت الموزعة. يمكن أن تكون الملفات عبارة عن ملفات jar قابلة للتنفيذ أو ملف خصائص بسيط.
5) اشرح ما هو NameNode في Hadoop؟
NameNode في Hadoop هي العقدة، حيث يقوم Hadoop بتخزين كافة معلومات موقع الملف فيها HDFS (نظام الملفات الموزعة Hadoop)بعبارة أخرى، يعد NameNode هو القطعة الأساسية لنظام ملفات HDFS. فهو يحتفظ بسجل لجميع الملفات في نظام الملفات ويتتبع بيانات الملفات عبر المجموعة أو الأجهزة المتعددة
6) اشرح ما هو JobTracker في Hadoop؟ ما هي الإجراءات التي يتبعها Hadoop؟
In Hadoop لإرسال وتتبع وظائف MapReduce، يتم استخدام JobTracker. يعمل متعقب الوظائف على عملية JVM الخاصة به
يقوم Job Tracker بتنفيذ الإجراءات التالية في Hadoop
- يقوم تطبيق العميل بإرسال الوظائف إلى متتبع الوظائف
- يتصل JobTracker بوضع الاسم لتحديد موقع البيانات
- بالقرب من البيانات أو مع الفتحات المتاحة، يقوم JobTracker بتحديد موقع عقد TaskTracker
- في عقد TaskTracker المختارة، يقوم بإرسال العمل
- عندما تفشل مهمة ما، يقوم متتبع الوظائف بإعلامك ويقرر ما يجب فعله بعد ذلك.
- تتم مراقبة عقد TaskTracker بواسطة JobTracker
7) اشرح ما هو نبض القلب في HDFS؟
تتم الإشارة إلى نبضات القلب إلى الإشارة المستخدمة بين عقدة البيانات وعقدة الاسم، وبين متعقب المهام ومتعقب الوظيفة، إذا لم تستجب عقدة الاسم أو متعقب الوظيفة للإشارة، فيعتبر أن هناك بعض المشكلات في عقدة البيانات أو المهمة تعقب
8) اشرح ما هي أدوات الدمج ومتى يجب عليك استخدام أداة الدمج في مهمة MapReduce؟
لزيادة كفاءة برنامج MapReduceيتم استخدام المجمعات. يمكن تقليل كمية البيانات بمساعدة المجمعات التي يجب نقلها إلى المختزلات. إذا كانت العملية التي يتم إجراؤها تبادلية وترابطية، فيمكنك استخدام كود المختزل الخاص بك كمجمع. لا يتم ضمان تنفيذ المجمع في Hadoop
9) ماذا يحدث عندما تفشل عقدة البيانات؟
عندما تفشل عقدة البيانات
- يكتشف Jobtracker وnamenode الفشل
- تتم إعادة جدولة كافة المهام على العقدة الفاشلة
- يقوم Namenode بنسخ بيانات المستخدم إلى عقدة أخرى
10) اشرح ما هو التنفيذ على أساس المضاربة؟
في Hadoop أثناء تنفيذ المضاربة، يتم إطلاق عدد معين من المهام المكررة. على عقدة تابعة مختلفة، يمكن تنفيذ نسخ متعددة من نفس الخريطة أو مهمة التصغير باستخدام التنفيذ التخميني. بكلمات بسيطة، إذا كان محرك أقراص معين يستغرق وقتًا طويلاً لإكمال مهمة، فسيقوم Hadoop بإنشاء مهمة مكررة على قرص آخر. يتم الاحتفاظ بالقرص الذي ينهي المهمة أولاً ويتم قتل الأقراص التي لا تنتهي أولاً.
11) اشرح ما هي المعلمات الأساسية لمصمم الخرائط؟
المعلمات الأساسية لمصمم الخرائط هي
- طويلة للكتابة والنص
- النص وغير قابل للكتابة
12) اشرح ما هي وظيفة مقسم MapReduce؟
وظيفة مقسم MapReduce هي التأكد من أن كل قيمة مفتاح واحد تذهب إلى نفس المخفض، مما يساعد في النهاية على توزيع مخرجات الخريطة بشكل متساوٍ على المخفضات
13) اشرح ما هو الفرق بين تقسيم الإدخال وكتلة HDFS؟
يُعرف التقسيم المنطقي للبيانات باسم Split بينما يُعرف التقسيم الفعلي للبيانات باسم HDFS Block
14) اشرح ماذا يحدث في تنسيق النص؟
في تنسيق إدخال النص، يكون كل سطر في الملف النصي بمثابة سجل. القيمة هي محتوى السطر بينما المفتاح هو إزاحة البايت للسطر. على سبيل المثال، المفتاح: longWritable، القيمة: نص
15) اذكر ما هي معلمات التكوين الرئيسية التي يحتاج المستخدم إلى تحديدها لتشغيل MapReduce Job؟
يحتاج مستخدم إطار عمل MapReduce إلى التحديد
- مواقع إدخال الوظيفة في نظام الملفات الموزعة
- موقع إخراج الوظيفة في نظام الملفات الموزعة
- تنسيق المدخلات
- تنسيق الإخراج
- فئة تحتوي على وظيفة الخريطة
- فئة تحتوي على وظيفة التخفيض
- ملف JAR يحتوي على فئات المخطط والمخفض وبرامج التشغيل
16) اشرح ما هو WebDAV في Hadoop؟
لدعم تحرير وتحديث الملفات، يعد WebDAV عبارة عن مجموعة من الامتدادات لـ HTTP. في معظم أنظمة التشغيل، يمكن تثبيت مشاركات WebDAV كأنظمة ملفات، وبالتالي من الممكن الوصول إلى HDFS كنظام ملفات قياسي من خلال عرض HDFS عبر WebDAV.
17) اشرح ما هو Sqoop في Hadoop؟
لنقل البيانات بين إدارة قواعد البيانات العلائقية (RDBMS) Hadoop HDFS يتم استخدام أداة تعرف باسم Sqoop. باستخدام Sqoop يمكن نقل البيانات من RDMS مثل MySQL or Oracle إلى HDFS وكذلك تصدير البيانات من ملف HDFS إلى RDBMS
18) اشرح كيف يقوم JobTracker بجدولة مهمة؟
يرسل متعقب المهام رسائل نبضات القلب إلى JobTracker عادةً كل بضع دقائق للتأكد من أن JobTracker نشط ويعمل بشكل جيد. كما تُعلم الرسالة JobTracker بعدد الفتحات المتاحة، حتى يتمكن JobTracker من البقاء على اطلاع دائم بالأماكن التي يمكن تفويض عمل المجموعة إليها
19) اشرح ما هو تنسيق إدخال ملف التسلسل؟
يتم استخدام تنسيق Sequencefileinputformat لقراءة الملفات بالتسلسل. إنه تنسيق ملف ثنائي مضغوط محدد تم تحسينه لتمرير البيانات بين مخرجات مهمة MapReduce واحدة إلى مدخلات بعض وظائف MapReduce الأخرى.
20) اشرح ماذا تفعل فئة conf.setMapper؟
يقوم Conf.setMapperclass بتعيين فئة مصمم الخرائط وجميع الأشياء المتعلقة بمهمة الخريطة مثل قراءة البيانات وإنشاء زوج من القيمة الرئيسية من مصمم الخرائط
21) اشرح ما هو Hadoop؟
إنه إطار عمل برمجي مفتوح المصدر لتخزين البيانات وتشغيل التطبيقات على مجموعات من الأجهزة التجارية. وهو يوفر قوة معالجة هائلة وتخزينًا هائلاً لأي نوع من البيانات.
22) اذكر ما الفرق بين نظام RDBMS وHadoop؟
RDBMS | Hadoop |
---|---|
RDBMS هو نظام إدارة قواعد البيانات العلائقية | Hadoop عبارة عن بنية مسطحة قائمة على العقدة |
يتم استخدامه لمعالجة OLTP بينما يستخدم Hadoop | يتم استخدامه حاليًا للتحليل ومعالجة البيانات الضخمة |
في نظام إدارة قواعد البيانات العلائقية، تستخدم مجموعة قواعد البيانات نفس ملفات البيانات المخزنة في وحدة تخزين مشتركة | في Hadoop، يمكن تخزين بيانات التخزين بشكل مستقل في كل عقدة معالجة. |
تحتاج إلى معالجة البيانات مسبقًا قبل تخزينها | لا تحتاج إلى معالجة البيانات مسبقًا قبل تخزينها |
23) اذكر مكونات Hadoop الأساسية؟
تتضمن مكونات Hadoop الأساسية،
- HDFS
- مابريديوس
24) ما هو NameNode في Hadoop؟
NameNode في Hadoop هو المكان الذي يقوم فيه Hadoop بتخزين جميع معلومات موقع الملف في HDFS. إنها العقدة الرئيسية التي يعمل عليها متتبع الوظائف وتتكون من البيانات الوصفية.
25) اذكر ما هي مكونات البيانات التي يستخدمها Hadoop؟
مكونات البيانات التي يستخدمها Hadoop هي
26) اذكر ما هو مكون تخزين البيانات الذي يستخدمه Hadoop؟
مكون تخزين البيانات الذي يستخدمه Hadoop هو HBase.
27) اذكر ما هي تنسيقات الإدخال الأكثر شيوعًا المحددة في Hadoop؟
تنسيقات الإدخال الأكثر شيوعًا المحددة في Hadoop هي:
- تنسيق إدخال النص
- KeyValueInputFormat
- SequenceFileInputFormat
28) ما هو InputSplit في Hadoop؟
يقوم بتقسيم ملفات الإدخال إلى أجزاء ويعين كل تقسيم إلى مخطط للمعالجة.
29) بالنسبة لوظيفة Hadoop، كيف ستكتب قسمًا مخصصًا؟
تكتب مقسمًا مخصصًا لمهمة Hadoop، وتتبع المسار التالي
- قم بإنشاء فئة جديدة تعمل على توسيع فئة Partitioner
- تجاوز طريقة getPartition
- في المجمع الذي يقوم بتشغيل MapReduce
- قم بإضافة المقسم المخصص إلى المهمة باستخدام طريقة تعيين Partitioner Class أو - أضف المقسم المخصص إلى المهمة كملف تكوين
30) بالنسبة لوظيفة في Hadoop، هل من الممكن تغيير عدد مصممي الخرائط الذين سيتم إنشاؤهم؟
لا، ليس من الممكن تغيير عدد مصممي الخرائط المطلوب إنشاؤها. يتم تحديد عدد مصممي الخرائط من خلال عدد تقسيمات الإدخال.
31) اشرح ما هو ملف التسلسل في Hadoop؟
لتخزين أزواج المفاتيح/القيمة الثنائية، يتم استخدام ملف التسلسل. على عكس الملف المضغوط العادي، يدعم الملف التسلسلي التقسيم حتى عند ضغط البيانات الموجودة داخل الملف.
32) عندما يكون Namenode معطلاً، ماذا يحدث لمتعقب الوظائف؟
Namenode هو نقطة الفشل الوحيدة في HDFS، لذا عندما يكون Namenode معطلاً، سيتم إيقاف تشغيل المجموعة الخاصة بك.
33) اشرح كيف تتم الفهرسة في نظام HDFS؟
لدى Hadoop طريقة فريدة للفهرسة. بمجرد تخزين البيانات وفقًا لحجم الكتلة، سيستمر HDFS في تخزين الجزء الأخير من البيانات الذي يوضح مكان الجزء التالي من البيانات.
34) اشرح هل يمكن البحث عن الملفات باستخدام أحرف البدل؟
نعم، من الممكن البحث عن الملفات باستخدام أحرف البدل.
35) قم بإدراج ملفات التكوين الثلاثة لـ Hadoop؟
ملفات التكوين الثلاثة هي
- الموقع الأساسي.xml
- mapred- site.xml
- hdfs-site.xml
36) اشرح كيف يمكنك التحقق مما إذا كان Namenode يعمل بجانب استخدام الأمر jps؟
إلى جانب استخدام الأمر jps، للتحقق مما إذا كان Namenode يعمل، يمكنك أيضًا استخدامه
/etc/init.d/hadoop-0.20-namenode الحالة.
37) اشرح ما هي "الخريطة" وما هو "المخفض" في Hadoop؟
في Hadoop، الخريطة هي مرحلة في حل استعلام HDFS. تقرأ الخريطة البيانات من موقع الإدخال، وتخرج زوجًا من القيمة الرئيسية وفقًا لنوع الإدخال.
في Hadoop، يقوم المخفض بتجميع المخرجات التي تم إنشاؤها بواسطة مصمم الخرائط، ومعالجتها، وإنشاء مخرجات نهائية خاصة به.
38) في Hadoop، ما هو الملف الذي يتحكم في التقارير في Hadoop؟
في Hadoop، يتحكم ملف hadoop-metrics.properties في إعداد التقارير.
39) لاستخدام Hadoop قائمة متطلبات الشبكة؟
لاستخدام Hadoop قائمة متطلبات الشبكة هي:
- اتصال SSH بدون كلمة مرور
- Secure Shell (SSH) لبدء عمليات الخادم
40) اذكر ما هو الوعي الرف؟
الوعي بالحامل هو الطريقة التي يحدد بها رمز الاسم كيفية وضع الكتل بناءً على تعريفات الحامل.
41) اشرح ما هو برنامج تعقب المهام في Hadoop؟
إن Task Tracker في Hadoop عبارة عن خادم تابع في المجموعة يقبل المهام من JobTracker. كما يرسل رسائل نبضات القلب إلى JobTracker، كل بضع دقائق، لتأكيد أن JobTracker لا يزال يعمل.
42) أذكر ما هي الشياطين التي تعمل على العقدة الرئيسية والعقد التابعة؟
- الشياطين التي تعمل على العقدة الرئيسية هي "NameNode"
- يتم تشغيل البرامج الشيطانية على كل عقدة تابعة وهي "Task Tracker" و"Data"
43) اشرح كيف يمكنك تصحيح كود Hadoop؟
الطرق الشائعة لتصحيح أخطاء كود Hadoop هي:
- باستخدام واجهة الويب التي يوفرها إطار عمل Hadoop
- باستخدام العدادات
44) اشرح ما هي عقد التخزين والحوسبة؟
- عقدة التخزين هي الجهاز أو الكمبيوتر الذي يوجد به نظام الملفات الخاص بك لتخزين بيانات المعالجة
- عقدة الحساب هي الكمبيوتر أو الجهاز الذي سيتم تنفيذ منطق عملك الفعلي فيه.
45) اذكر ما فائدة كائن السياق؟
يمكّن كائن السياق مصمم الخرائط من التفاعل مع بقية أجزاء Hadoop
نظام. ويتضمن بيانات التكوين الخاصة بالمهمة، بالإضافة إلى الواجهات التي تسمح لها بإصدار المخرجات.
46) اذكر ما هي الخطوة التالية بعد Mapper أو MapTask؟
الخطوة التالية بعد Mapper أو MapTask هي فرز مخرجات Mapper، وسيتم إنشاء أقسام للإخراج.
47) اذكر ما هو رقم المقسم الافتراضي في Hadoop؟
في Hadoop، المقسم الافتراضي هو مقسم "Hash".
48) اشرح ما هو الغرض من RecordReader في Hadoop؟
في Hadoop، يقوم RecordReader بتحميل البيانات من مصدرها وتحويلها إلى أزواج (مفتاح، قيمة) مناسبة للقراءة بواسطة مصمم الخرائط.
49) اشرح كيف يتم تقسيم البيانات قبل إرسالها إلى المخفض إذا لم يتم تحديد قسم مخصص في Hadoop؟
إذا لم يتم تعريف أي قسم مخصص في Hadoop، فسيقوم المقسم الافتراضي بحساب قيمة التجزئة للمفتاح ويقوم بتعيين القسم بناءً على النتيجة.
50) اشرح ماذا يحدث عندما ينتج Hadoop 50 مهمة لوظيفة واحدة وفشلت إحدى المهام؟
سيتم إعادة تشغيل المهمة مرة أخرى على جهاز TaskTracker آخر إذا فشلت المهمة أكثر من الحد المحدد.
51) اذكر ما هي أفضل طريقة لنسخ الملفات بين مجموعات HDFS؟
أفضل طريقة لنسخ الملفات بين مجموعات HDFS هي استخدام عقد متعددة وأمر distcp، بحيث تتم مشاركة عبء العمل.
52) اذكر ما الفرق بين HDFS و NAS؟
يتم توزيع كتل بيانات HDFS عبر محركات الأقراص المحلية لجميع الأجهزة في مجموعة بينما يتم تخزين بيانات NAS على أجهزة مخصصة.
53) اذكر كيف يختلف Hadoop عن أدوات معالجة البيانات الأخرى؟
في Hadoop، يمكنك زيادة أو تقليل عدد مصممي الخرائط دون القلق بشأن حجم البيانات التي ستتم معالجتها.
54) اذكر ما هي الوظيفة التي يقوم بها فصل conf؟
تفصل فئة Job Conf بين الوظائف المختلفة التي تعمل على نفس المجموعة. وهي تقوم بإعدادات مستوى الوظيفة مثل إعلان وظيفة في بيئة حقيقية.
55) اذكر ما هو عقد Hadoop MapReduce APIs لفئة المفتاح والقيمة؟
بالنسبة لفئة المفتاح والقيمة، يوجد عقدان لواجهات برمجة تطبيقات Hadoop MapReduce
- يجب أن تحدد القيمة الواجهة org.apache.hadoop.io.Writable
- يجب أن يحدد المفتاح الواجهة org.apache.hadoop.io.WritableComparable
56) اذكر ما هي الأوضاع الثلاثة التي يمكن تشغيل Hadoop بها؟
الأوضاع الثلاثة التي يمكن تشغيل Hadoop بها هي
- الوضع الموزع الزائف
- الوضع المستقل (المحلي).
- الوضع الموزع بالكامل
57) اذكر ماذا يفعل تنسيق إدخال النص؟
سيقوم تنسيق إدخال النص بإنشاء كائن سطر يمثل رقمًا سداسيًا عشريًا. تعتبر القيمة بمثابة نص سطر كامل بينما يعتبر المفتاح بمثابة كائن سطر. سيتلقى مصمم الخرائط القيمة كمعلمة "نص" أثناء المفتاح كمعلمة "قابلة للكتابة لفترة طويلة".
58) أذكر كم عدد عمليات InputSplits التي تم إجراؤها بواسطة إطار عمل Hadoop؟
سوف يقوم Hadoop بإجراء 5 انقسامات
- تقسيم واحد لملفات 1 كيلو بايت
- 2 مقسمة لملفات 65 ميجابايت
- 2 تقسيم لملفات 127 ميجا بايت
59) اذكر ما هو ذاكرة التخزين المؤقت الموزعة في Hadoop؟
ذاكرة التخزين المؤقت الموزعة في Hadoop هي وسيلة يوفرها إطار عمل MapReduce. في وقت تنفيذ المهمة، يتم استخدامه للتخزين المؤقت للملف. يقوم Framework بنسخ الملفات الضرورية إلى العقدة التابعة قبل تنفيذ أي مهمة في تلك العقدة.
60) اشرح كيف يلعب Hadoop Classpath دورًا حيويًا في إيقاف أو بدء برامج Hadoop؟
سوف يتكون Classpath من قائمة من الدلائل التي تحتوي على ملفات jar لإيقاف أو بدء تشغيل البرامج الشيطانية.
ستساعد أسئلة المقابلة هذه أيضًا في حياتك (شفهي)