أهم 50 سؤالاً وأجوبة في مقابلات علوم البيانات (PDF)

فيما يلي أسئلة وإجابات مقابلة علوم البيانات للمرشحين الجدد وذوي الخبرة للحصول على وظيفة أحلامهم.

 

أسئلة مقابلة علوم البيانات للطلاب الجدد

1. ما هو علم البيانات؟

علم البيانات هو مجال الدراسة الذي يتضمن استخلاص الأفكار من كميات هائلة من البيانات باستخدام الأساليب والخوارزميات والعمليات العلمية المختلفة. يساعدك على اكتشاف الأنماط المخفية من البيانات الأولية. لقد ظهر مصطلح علم البيانات بسبب تطور الإحصاء الرياضي، وتحليل البيانات، والبيانات الضخمة.


2. ما الفرق بين علم البيانات والتعلم الآلي؟

العلوم البيانات عبارة عن مزيج من الخوارزميات والأدوات وتقنيات التعلم الآلي التي تساعدك في العثور على الأنماط المخفية الشائعة من البيانات الأولية المحددة. في حين أن التعلم الآلي هو فرع من علوم الكمبيوتر، يتعامل مع برمجة النظام للتعلم والتحسين تلقائيًا مع الخبرة.

العلوم البيانات


3. قم بتسمية ثلاثة أنواع من التحيزات التي يمكن أن تحدث أثناء أخذ العينات

في عملية أخذ العينات، هناك ثلاثة أنواع من التحيزات، وهي:

  • الإنحياز في الإختيار
  • تحت التغطية التحيز
  • تحيز البقاء على قيد الحياة

4. ناقش خوارزمية شجرة القرار

شجرة القرار هي خوارزمية شائعة للتعلم الآلي الخاضع للإشراف. يتم استخدامه بشكل رئيسي للانحدار والتصنيف. يسمح بتقسيم مجموعة البيانات إلى مجموعات فرعية أصغر. يمكن لشجرة القرار التعامل مع البيانات الفئوية والرقمية.


5. ما هو الاحتمال والاحتمال المسبق؟

الاحتمال المسبق هو نسبة المتغير التابع في مجموعة البيانات بينما الاحتمال هو احتمال تصنيف ملاحظ معين في وجود متغير آخر.


6. شرح أنظمة التوصية؟

إنها فئة فرعية من تقنيات تصفية المعلومات. يساعدك على التنبؤ بالتفضيلات أو التقييمات التي من المحتمل أن يقدمها المستخدمون للمنتج.


7. اذكر ثلاثة عيوب لاستخدام النموذج الخطي

ثلاثة عيوب للنموذج الخطي هي:

  • افتراض الخطية للأخطاء.
  • لا يمكنك استخدام هذا النموذج للنتائج الثنائية أو العدية
  • هناك الكثير من مشاكل التجهيز التي لا يمكن حلها

8. لماذا تحتاج إلى إجراء إعادة التشكيل؟

تتم إعادة أخذ العينات في الحالات المذكورة أدناه:

  • تقدير دقة إحصائيات العينة بواسطة drawing بشكل عشوائي مع الاستبدال من مجموعة من نقاط البيانات أو استخدامها كمجموعات فرعية من البيانات التي يمكن الوصول إليها
  • استبدال الملصقات على نقاط البيانات عند إجراء الاختبارات اللازمة
  • التحقق من صحة النماذج باستخدام مجموعات فرعية عشوائية

9. قم بإدراج المكتبات في لغة بايثون المستخدمة لتحليل البيانات والحسابات العلمية.


10. ما هو تحليل القوة؟

يعد تحليل الطاقة جزءًا لا يتجزأ من التصميم التجريبي. يساعدك على تحديد حجم العينة المطلوب لمعرفة تأثير حجم معين على سبب بمستوى معين من الضمان. كما يسمح لك بنشر احتمال معين في قيد حجم العينة.


11. شرح التصفية التعاونية

يتم استخدام التصفية التعاونية للبحث عن الأنماط الصحيحة من خلال وجهات النظر المتعاونة ومصادر البيانات المتعددة والوكلاء المختلفين.


12. ما هو التحيز؟

التحيز هو خطأ تم تقديمه في النموذج الخاص بك بسبب الإفراط في تبسيط خوارزمية التعلم الآلي. يمكن أن يؤدي إلى نقص التجهيز.


13. ناقش "السذاجة" في خوارزمية Naive Bayes؟

يعتمد نموذج خوارزمية Naive Bayes على نظرية Bayes. ويصف احتمال وقوع حدث ما. ويستند إلى معرفة مسبقة بالظروف التي قد تكون ذات صلة بهذا الحدث المحدد.


14. ما هو الانحدار الخطي؟

الانحدار الخطي هو أسلوب برمجة إحصائية حيث يتم توقع درجة المتغير "أ" من درجة المتغير الثاني "ب". يشار إلى B كمتغير التوقع و A كمتغير المعيار.


15. اذكر الفرق بين القيمة المتوقعة والقيمة المتوسطة

لا توجد اختلافات كثيرة، ولكن كلا المصطلحين يستخدمان في سياقات مختلفة. تتم الإشارة إلى القيمة المتوسطة عمومًا عند مناقشة التوزيع الاحتمالي بينما تتم الإشارة إلى القيمة المتوقعة في سياق متغير عشوائي.


16. ما الهدف من إجراء اختبار A/B؟

يستخدم اختبار AB لإجراء تجارب عشوائية مع متغيرين، A وB. الهدف من طريقة الاختبار هذه هو اكتشاف التغييرات في صفحة الويب لتعظيم أو زيادة نتائج الإستراتيجية.


17. ما هو التعلم الجماعي؟

المجموعة هي طريقة للجمع بين مجموعة متنوعة من المتعلمين معًا لتحسين استقرار النموذج وقوته التنبؤية. هناك نوعان من أساليب التعلم الجماعي هما:

التعبئة

تساعدك طريقة التعبئة على تنفيذ متعلمين مماثلين على عينات صغيرة من السكان. يساعدك على إجراء تنبؤات أقرب.

تعزيز

التعزيز هو أسلوب تكراري يسمح لك بضبط وزن الملاحظة بناءً على التصنيف الأخير. يؤدي التعزيز إلى تقليل خطأ التحيز ويساعدك على بناء نماذج تنبؤية قوية.


18. شرح القيمة الذاتية والمتجه الذاتي

المتجهات الذاتية مخصصة لفهم التحولات الخطية. يحتاج عالم البيانات إلى حساب المتجهات الذاتية لمصفوفة التغاير أو الارتباط. القيم الذاتية هي الاتجاهات باستخدام عمليات تحويل خطية محددة عن طريق الضغط أو التقليب أو التمدد.


19. تعريف مصطلح التحقق من الصحة

التحقق من الصحة هو أسلوب للتحقق من الصحة لتقييم كيفية تعميم نتائج التحليل الإحصائي لمجموعة بيانات مستقلة. تُستخدم هذه الطريقة في الخلفيات التي يتم فيها التنبؤ بالهدف، ويحتاج المرء إلى تقدير مدى دقة إنجاز النموذج.


20. شرح خطوات مشروع تحليل البيانات

التاليwing هي خطوات مهمة تشارك في مشروع التحليلات:

  • فهم مشكلة الأعمال
  • استكشاف البيانات ودراستها بعناية.
  • قم بإعداد البيانات للنمذجة من خلال إيجاد القيم المفقودة وتحويل المتغيرات.
  • ابدأ في تشغيل النموذج وتحليل نتيجة البيانات الضخمة.
  • التحقق من صحة النموذج مع مجموعة البيانات الجديدة.
  • تنفيذ النموذج وتتبع النتيجة لتحليل أداء النموذج لفترة محددة.

21. مناقشة الشبكات العصبية الاصطناعية

الشبكات العصبية الاصطناعية (ANN) هي مجموعة خاصة من الخوارزميات التي أحدثت ثورة في التعلم الآلي. يساعدك على التكيف وفقًا للمدخلات المتغيرة. وبالتالي فإن الشبكة تولد أفضل نتيجة ممكنة دون إعادة تصميم معايير الإخراج.


22. ما هو الانتشار العكسي؟

الانتشار الخلفي هو جوهر تدريب الشبكة العصبية. وهي طريقة ضبط أوزان الشبكة العصبية اعتماداً على معدل الخطأ الذي تم الحصول عليه في العصر السابق. يساعدك الضبط الصحيح للنموذج على تقليل معدلات الخطأ وجعل النموذج موثوقًا به من خلال زيادة تعميمه.


23. ما هي الغابة العشوائية؟

تعد الغابة العشوائية إحدى طرق التعلم الآلي التي تساعدك على تنفيذ جميع أنواع مهام الانحدار والتصنيف. كما أنها تستخدم لمعالجة القيم المفقودة والقيم الخارجية.


24. ما هي أهمية وجود تحيز في الاختيار؟

يحدث تحيز الاختيار عندما لا يتم تحقيق توزيع عشوائي محدد أثناء اختيار الأفراد أو المجموعات أو البيانات المراد تحليلها. ويشير إلى أن العينة المعطاة لا تمثل بالضبط المجتمع الذي كان من المقرر تحليله.


25. ما هي طريقة التجميع بالوسائل K؟

K-يعني التجميع هو طريقة تعليمية مهمة غير خاضعة للرقابة. إنها تقنية تصنيف البيانات باستخدام مجموعة معينة من المجموعات والتي تسمى مجموعات K. يتم نشره للتجميع لمعرفة التشابه في البيانات.


أسئلة مقابلة عالم البيانات للخبرة

26. اشرح الفرق بين علم البيانات وتحليلات البيانات

يحتاج علماء البيانات إلى تقسيم البيانات لاستخراج رؤى قيمة يمكن لمحلل البيانات تطبيقها على سيناريوهات الأعمال في العالم الحقيقي. والفرق الرئيسي بين الاثنين هو أن علماء البيانات لديهم معرفة تقنية أكثر من محللي الأعمال. علاوة على ذلك، فإنهم لا يحتاجون إلى فهم الأعمال المطلوبة لتصور البيانات.


27. اشرح القيمة الاحتمالية؟

عند إجراء اختبار فرضيات في الإحصائيات، تسمح لك القيمة الاحتمالية بتحديد قوة نتائجك. وهو رقم رقمي يقع بين 0 و1. واستنادًا إلى القيمة، سيساعدك على الإشارة إلى قوة النتيجة المحددة.


28. تعريف مصطلح التعلم العميق

التعلم العميق هو نوع فرعي من التعلم الآلي. تهتم بالخوارزميات المستوحاة من البنية التي تسمى الشبكات العصبية الاصطناعية (ANN).


29. شرح طريقة جمع وتحليل البيانات لاستخدام وسائل التواصل الاجتماعي للتنبؤ بحالة الطقس.

يمكنك جمع بيانات الوسائط الاجتماعية باستخدام واجهات برمجة تطبيقات Facebook وtwitter وInstagram. على سبيل المثال، بالنسبة لمكبر الصوت، يمكننا إنشاء ميزة من كل تغريدة مثل تاريخ التغريد، وإعادة التغريد، وقائمة المتابعين، وما إلى ذلك. ثم يمكنك استخدام نموذج سلسلة زمنية متعدد المتغيرات للتنبؤ بحالة الطقس.


30. متى تحتاج إلى تحديث الخوارزمية في علم البيانات؟

تحتاج إلى تحديث خوارزمية في المتابعةwing موقف:

  • تريد أن يتطور نموذج البيانات الخاص بك كتدفقات بيانات تستخدم البنية التحتية
  • يتغير مصدر البيانات الأساسي إذا كان غير ثابت

31. ما هو التوزيع الطبيعي

التوزيع الطبيعي هو مجموعة من المتغيرات المستمرة المنتشرة عبر منحنى عادي أو على شكل منحنى الجرس. يمكنك اعتباره توزيعًا احتماليًا مستمرًا وهو مفيد في الإحصائيات. من المفيد تحليل المتغيرات وعلاقاتها عندما نستخدم منحنى التوزيع الطبيعي.


32. ما هي اللغة الأفضل لتحليل النص؟ ص أو بايثون؟

ستكون بايثون أكثر ملاءمة لتحليلات النصوص لأنها تتكون من مكتبة غنية تعرف باسم الباندا. يسمح لك باستخدام المستوى العالي أدوات تحليل البيانات وهياكل البيانات، بينما لا يقدم R هذه الميزة.


33. شرح فوائد استخدام الإحصائيات من قبل علماء البيانات

تساعد الإحصائيات عالم البيانات في الحصول على فكرة أفضل عن توقعات العميل. باستخدام الطريقة الإحصائية، يمكن لعلماء البيانات الحصول على المعرفة المتعلقة باهتمامات المستهلك وسلوكه ومشاركته والاحتفاظ به وما إلى ذلك. كما يساعدك أيضًا على بناء نماذج بيانات قوية للتحقق من صحة استنتاجات وتوقعات معينة.


34. تسمية أنواع مختلفة من أطر التعلم العميق

  • بيتورتش
  • Microsoft مجموعة الأدوات المعرفية
  • TensorFlow
  • قهوة
  • Chainer
  • Keras

35.شرح التشفير التلقائي

أجهزة الترميز التلقائي هي شبكات التعلم. يساعدك على تحويل المدخلات إلى مخرجات مع عدد أقل من الأخطاء. هذا يعني أنك ستحصل على المخرجات لتكون قريبة من المدخلات قدر الإمكان.


36. تعريف آلة بولتزمان

آلات بولتزمان هي خوارزمية تعليمية بسيطة. يساعدك على اكتشاف تلك الميزات التي تمثل complex الانتظام في بيانات التدريب تتيح لك هذه الخوارزمية تحسين الأوزان والكمية للمشكلة المحددة.


37. اشرح سبب أهمية تنظيف البيانات والطريقة التي تستخدمها للحفاظ على بيانات نظيفة

غالبًا ما تؤدي البيانات القذرة إلى معلومات غير صحيحة من الداخل، مما قد يؤدي إلى الإضرار بآفاق أي مؤسسة. على سبيل المثال، إذا كنت تريد تشغيل حملة تسويقية مستهدفة. ومع ذلك، فإن بياناتنا تخبرك بشكل غير صحيح أن منتجًا معينًا سيكون مطلوبًا لدى جمهورك المستهدف؛ سوف تفشل الحملة.


38. ما هو التوزيع المنحرف والتوزيع الموحد؟

يحدث التوزيع المنحرف عندما يتم توزيع البيانات على أي جانب من المخطط بينما يتم تحديد التوزيع الموحد عندما تكون البيانات منتشرة في النطاق.


39. متى يحدث النقص في النموذج الثابت؟

يحدث النقص في المطابقة عندما لا يتمكن النموذج الإحصائي أو خوارزمية التعلم الآلي من التقاط الاتجاه الأساسي للبيانات.


40. ما هو التعلم المعزز؟

التعلم المعزز هو آلية تعلم حول كيفية ربط المواقف بالأفعال. يجب أن تساعدك النتيجة النهائية على زيادة إشارة المكافأة الثنائية. في هذه الطريقة، لا يتم إخبار المتعلم بالإجراء الذي يجب اتخاذه، ولكن بدلاً من ذلك يجب عليه اكتشاف الإجراء الذي يقدم الحد الأقصى للمكافأة. حيث أن هذه الطريقة تعتمد على آلية المكافأة/الجزاء.


41. تسمية الخوارزميات شائعة الاستخدام.

الخوارزميات الأربع الأكثر استخدامًا من قبل عالم البيانات هي:

  • الانحدارالخطي
  • الانحدار اللوجستي
  • غابة عشوائية
  • KNN

42. ما هي الدقة؟

الدقة هي مقياس الخطأ الأكثر استخدامًا وهي آلية التصنيف. مداها من 0 إلى 1 حيث 1 يمثل 100%


43. ما هو التحليل وحيد المتغير؟

يُعرف التحليل الذي يتم تطبيقه على لا شيء في وقت واحد بالتحليل أحادي المتغير. Boxيتم استخدام المؤامرة على نطاق واسع، نموذج أحادي المتغير.


44. كيف تتغلب على التحديات التي تواجه نتائجك؟

ومن أجل التغلب على التحديات التي واجهتني في اكتشافي، يجب تشجيع المناقشة وإظهار القيادة واحترام الخيارات المختلفة.


45. شرح تقنية أخذ العينات العنقودية في علم البيانات

يتم استخدام طريقة أخذ العينات العنقودية عندما يكون من الصعب دراسة السكان المستهدفين المنتشرين عبرهم، ولا يمكن تطبيق أخذ عينات عشوائية بسيطة.


46. ​​اذكر الفرق بين مجموعة التحقق ومجموعة الاختبار

تعتبر مجموعة التحقق في الغالب جزءًا من مجموعة التدريب حيث يتم استخدامها لاختيار المعلمات مما يساعدك على تجنب الإفراط في ملاءمة النموذج الذي يتم إنشاؤه.

بينما يتم استخدام مجموعة الاختبار لاختبار أو تقييم أداء نموذج التعلم الآلي المدرب.


47. اشرح مصطلح صيغة الاحتمالية ذات الحدين؟

"يحتوي التوزيع ذو الحدين على احتمالات كل نجاح محتمل في تجارب N للأحداث المستقلة التي لها احتمال حدوث π."


48. ما هو الاستدعاء؟

الاستدعاء هو نسبة المعدل الإيجابي الحقيقي مقابل المعدل الإيجابي الفعلي. يتراوح من 0 إلى 1.


49. ناقش التوزيع الطبيعي

التوزيع الطبيعي موزع بالتساوي على هذا النحو، المتوسط ​​والوسيط والمنوال متساويان.


50. أثناء العمل على مجموعة بيانات، كيف يمكنك تحديد المتغيرات المهمة؟ يشرح

فولوwing طرق اختيار المتغير التي يمكنك استخدامها:

  • قم بإزالة المتغيرات المرتبطة قبل تحديد المتغيرات المهمة
  • استخدم الانحدار الخطي وحدد المتغيرات التي تعتمد على قيم p.
  • استخدم التحديد للخلف والأمام والخطوةwise اختيار
  • استخدم Xgboost وRandom Forest ورسم مخطط الأهمية المتغير.
  • قم بقياس اكتساب المعلومات لمجموعة الميزات المحددة وحدد أهم الميزات وفقًا لذلك.

51. هل من الممكن التعرف على العلاقة الارتباطية بين المتغير المستمر والقاطع؟

نعم، يمكننا استخدام تقنية تحليل التغاير للتعرف على العلاقة بين المتغيرات المستمرة والفئوية.


52. معاملة المتغير الفئوي كمتغير مستمر من شأنه أن يؤدي إلى نموذج تنبؤي أفضل؟

نعم، يجب اعتبار القيمة الفئوية متغيرًا مستمرًا فقط عندما يكون المتغير ترتيبيًا بطبيعته. لذلك فهو نموذج تنبؤي أفضل.

ستساعد أسئلة المقابلة هذه أيضًا في حياتك (شفهي)