التعلم المعزز: ما هو، الخوارزميات، الأنواع والأمثلة

ما هو التعلم المعزز؟

تعزيز التعلم يتم تعريفها على أنها طريقة للتعلم الآلي تهتم بكيفية قيام وكلاء البرامج باتخاذ الإجراءات في البيئة. يعد التعلم المعزز جزءًا من أسلوب التعلم العميق الذي يساعدك على تعظيم جزء من المكافأة التراكمية.

تساعدك طريقة تعلم الشبكة العصبية هذه على تعلم كيفية الوصول إلى complex الهدف أو تعظيم بُعد معين عبر العديد من الخطوات.

مكونات مهمة لطريقة التعلم المعزز العميق

مكونات هامة للتعزيز العميق

فيما يلي بعض المصطلحات المهمة المستخدمة في Reinforcement AI:

  • وكيل: إنه كيان مفترض يقوم بتنفيذ إجراءات في بيئة للحصول على بعض المكافأة.
  • البيئة (هـ): السيناريو الذي يجب على الوكيل مواجهته.
  • المكافأة (ص): عائد فوري يُمنح للوكيل عندما يقوم بإجراء أو مهمة محددة.
  • تنص على): تشير الحالة إلى الوضع الحالي الذي أعادته البيئة.
  • السياسة (π): إنها استراتيجية يطبقها الوكيل لتحديد الإجراء التالي بناءً على الحالة الحالية.
  • القيمة (الخامس): ومن المتوقع عائد طويل الأجل مع خصم، مقارنة بالمكافأة قصيرة الأجل.
  • وظيفة القيمة: ويحدد قيمة الحالة التي تمثل المبلغ الإجمالي للمكافأة. إنه وكيل ينبغي توقعه بدءًا من تلك الحالة.
  • نموذج البيئة: هذا يحاكي سلوك البيئة. يساعدك على عمل استنتاجات وكذلك تحديد كيفية تصرف البيئة.
  • الأساليب القائمة على النموذج: إنها طريقة لحل مشكلات التعلم المعزز التي تستخدم الأساليب القائمة على النموذج.
  • قيمة Q أو قيمة الإجراء (Q): قيمة Q مشابهة تمامًا للقيمة. والفرق الوحيد بين الاثنين هو أنه يأخذ معلمة إضافية كإجراء حالي.

كيف يعمل التعلم المعزز؟

دعونا نرى بعض الأمثلة البسيطة التي تساعدك على توضيح آلية التعلم المعزز.

فكر في سيناريو تعليم حيل جديدة لقطتك

  • نظرًا لأن القطة لا تفهم اللغة الإنجليزية أو أي لغة بشرية أخرى، فلا يمكننا أن نخبرها بشكل مباشر بما يجب أن تفعله. وبدلا من ذلك، نتبع استراتيجية مختلفة.
  • نحن نحاكي الموقف، وتحاول القطة الاستجابة بعدة طرق مختلفة. إذا كانت استجابة القطة بالشكل المطلوب سنعطيها سمكة.
  • الآن كلما تعرضت القطة لنفس الموقف، تقوم القطة بتنفيذ إجراء مماثل بحماس أكبر توقعًا للحصول على المزيد من المكافأة (الطعام).
  • هذا مثل تعلم أن القطة تكتسب من "ما يجب فعله" من التجارب الإيجابية.
  • وفي الوقت نفسه، تتعلم القطة أيضًا ما لا تفعله عندما تواجه تجارب سلبية.

مثال على التعلم المعزز

مثال على التعلم المعزز
كيف يعمل التعلم المعزز

في هذه الحالة،

  • قطتك هي عامل يتعرض للبيئة. في هذه الحالة، هو منزلك. مثال على الحالة يمكن أن تكون قطتك جالسة، وتستخدم كلمة معينة لتمشي القطة.
  • يتفاعل وكيلنا من خلال إجراء انتقال من "حالة" إلى "حالة" أخرى.
  • على سبيل المثال، تنتقل قطتك من الجلوس إلى المشي.
  • رد فعل العامل هو إجراء، والسياسة هي طريقة لاختيار إجراء معين في حالة توقع نتائج أفضل.
  • وبعد النقل، قد يحصلون على مكافأة أو عقوبة في المقابل.

خوارزميات التعلم المعزز

هناك ثلاث طرق لتنفيذ خوارزمية التعلم المعزز.

على أساس القيمة

في أسلوب التعلم المعزز القائم على القيمة، يجب أن تحاول تعظيم دالة القيمة ضد). في هذه الطريقة، يتوقع الوكيل عودة طويلة المدى للحالات الحالية بموجب السياسة π.

على أساس السياسة

في طريقة RL القائمة على السياسة، تحاول التوصل إلى مثل هذه السياسة بحيث يساعدك الإجراء الذي يتم تنفيذه في كل حالة على الحصول على أقصى قدر من المكافأة في المستقبل.

هناك نوعان من الأساليب القائمة على السياسات هما:

  • الحتمية: بالنسبة لأي دولة، يتم إنتاج نفس الإجراء من خلال السياسة π.
  • العشوائية: كل فعل له احتمال معين، والذي يتم تحديده من خلال المتابعةwing المعادلة.السياسة العشوائية :
    n{a\s) = P\A, = a\S, =S]

على أساس النموذج

في طريقة التعلم المعزز هذه، تحتاج إلى إنشاء نموذج افتراضي لكل بيئة. يتعلم الوكيل الأداء في تلك البيئة المحددة.

خصائص التعلم المعزز

فيما يلي خصائص مهمة للتعلم المعزز

  • لا يوجد مشرف، فقط رقم حقيقي أو إشارة مكافأة
  • اتخاذ القرار بشكل تسلسلي
  • يلعب الوقت دورًا حاسمًا في مشاكل التعزيز
  • ردود الفعل تتأخر دائمًا، وليست فوريةneous
  • تحدد إجراءات الوكيل البيانات اللاحقة التي يتلقاها

أنواع التعلم المعزز

هناك نوعان من أساليب التعلم المعزز هما:

الإيجابية:

يتم تعريفه على أنه حدث يحدث بسبب سلوك معين. فهو يزيد من قوة وتكرار السلوك ويؤثر بشكل إيجابي على الإجراء الذي يتخذه الوكيل.

يساعدك هذا النوع من التعزيز على تحقيق أقصى قدر من الأداء والحفاظ على التغيير لفترة أطول. ومع ذلك، فإن الكثير من التعزيز قد يؤدي إلى الإفراط في تحسين الحالة، مما قد يؤثر على النتائج.

نفي:

يتم تعريف التعزيز السلبي على أنه تعزيز السلوك الذي يحدث بسبب حالة سلبية كان يجب إيقافها أو تجنبها. يساعدك على تحديد الحد الأدنى من الأداء. ومع ذلك، فإن عيب هذه الطريقة هو أنها توفر ما يكفي لتلبية الحد الأدنى من السلوك.

نماذج التعلم من التعزيز

هناك نموذجان تعليميان مهمان في التعلم المعزز:

  • عملية اتخاذ القرار ماركوف
  • س التعلم

عملية اتخاذ القرار ماركوف

التاليwing يتم استخدام المعلمات للحصول على الحل:

  • مجموعة من الإجراءات- أ
  • مجموعة الدول -S
  • مكافأة- ر
  • سياسة- ن
  • القيمة- V

يتم إعادة صياغة النهج الرياضي لرسم خريطة للحل في التعلم المعزز باعتباره عملية اتخاذ قرار ماركوف أو (MDP).

عملية اتخاذ القرار ماركوف

Q- التعلم

إن تعلم Q هو طريقة قائمة على القيمة لتوفير المعلومات لتحديد الإجراء الذي يجب على الوكيل اتخاذه.

دعونا نفهم هذه الطريقة من خلال المتابعةwing مثال:

  • توجد خمس غرف في المبنى متصلة بأبواب.
  • كل غرفة مرقمة من 0 إلى 4
  • يمكن أن يكون الجزء الخارجي للمبنى منطقة خارجية واحدة كبيرة (5)
  • يؤدي البابان رقم 1 و4 إلى المبنى من الغرفة رقم 5

Q- التعلم

بعد ذلك، تحتاج إلى ربط قيمة المكافأة بكل باب:

  • الأبواب التي تؤدي مباشرة إلى الهدف لها مكافأة قدرها 100
  • الأبواب غير المتصلة مباشرة بالغرفة المستهدفة لا تمنح أي مكافأة
  • حيث أن الأبواب ذات اتجاهين، ويتم تخصيص سهمين لكل غرفة
  • يحتوي كل سهم في الصورة أعلاه على قيمة مكافأة فورية

التفسير:

في هذه الصورة، يمكنك رؤية تلك الغرفة تمثل دولة

تمثل حركة الوكيل من غرفة إلى أخرى إجراءً

في الصورة الموضحة أدناه، يتم وصف الحالة على أنها عقدة، بينما تظهر الأسهم الإجراء.

Q- التعلم

على سبيل المثال، ينتقل العميل من الغرفة رقم 2 إلى الغرفة رقم 5

  • الحالة الأولية = الحالة 2
  • الحالة 2-> الحالة 3
  • الحالة 3 -> الحالة (2,1,4،XNUMX،XNUMX)
  • الحالة 4-> الحالة (0,5,3)
  • الحالة 1-> الحالة (5,3)
  • الحالة 0-> الحالة 4

التعلم المعزز مقابل التعلم الخاضع للإشراف

المعلمات تعزيز التعلم التعلم تحت الإشراف
أسلوب القرار يساعدك التعلم المعزز على اتخاذ قراراتك بشكل تسلسلي. في هذه الطريقة، يتم اتخاذ قرار بشأن المدخلات المقدمة في البداية.
يعمل على يعمل على التفاعل مع البيئة. يعمل على أمثلة أو بيانات عينة معينة.
التبعية للقرار في طريقة RL يعتمد قرار التعلم. لذلك، يجب عليك إعطاء تسميات لجميع القرارات التابعة. - الإشراف على تعلم القرارات المستقلة عن بعضها البعض، بحيث يتم إعطاء مسميات لكل قرار.
الأنسب يدعم ويعمل بشكل أفضل في مجال الذكاء الاصطناعي، حيث يسود التفاعل البشري. يتم تشغيله في الغالب باستخدام نظام برمجي أو تطبيقات تفاعلية.
مثال لعبة الشطرنج التعرف على الأشياء

تطبيقات التعلم المعزز

فيما يلي تطبيقات التعلم المعزز:

  • الروبوتات للأتمتة الصناعية.
  • تخطيط استراتيجية الأعمال
  • تعلم الآلة ومعالجة البيانات
  • يساعدك على إنشاء أنظمة تدريب توفر تعليمات ومواد مخصصة وفقًا لمتطلبات الطلاب.
  • التحكم في الطائرات والتحكم في حركة الروبوت

لماذا نستخدم التعلم المعزز؟

فيما يلي الأسباب الرئيسية لاستخدام التعلم المعزز:

  • يساعدك على العثور على الموقف الذي يحتاج إلى إجراء
  • يساعدك على اكتشاف الإجراء الذي يحقق أعلى مكافأة على مدى فترة أطول.
  • كما يوفر التعلم المعزز لوكيل التعلم وظيفة المكافأة.
  • كما يسمح لها بمعرفة أفضل طريقة للحصول على مكافآت كبيرة.

متى لا تستخدم التعلم المعزز؟

لا يمكنك تطبيق نموذج التعلم المعزز في كل الوضع. فيما يلي بعض الشروط التي لا يجب عليك فيها استخدام نموذج التعلم المعزز.

  • عندما يكون لديك ما يكفي من البيانات لحل المشكلة باستخدام أسلوب التعلم الخاضع للإشراف
  • عليك أن تتذكر أن التعلم المعزز يتطلب الكثير من الحوسبة ويستغرق وقتًا طويلاً. خاصة عندما تكون مساحة العمل كبيرة.

تحديات التعلم المعزز

فيما يلي التحديات الرئيسية التي ستواجهها أثناء القيام بكسب التعزيز:

  • تصميم الميزة/المكافأة الذي يجب أن يكون مشاركًا للغاية
  • قد تؤثر المعلمات على سرعة التعلم.
  • يمكن أن تتمتع البيئات الواقعية بقابلية ملاحظة جزئية.
  • قد يؤدي الكثير من التعزيز إلى زيادة عدد الحالات مما قد يقلل من النتائج.
  • البيئات الواقعية يمكن أن تكون غير ثابتة.

نبذة عامة

  • التعلم المعزز هو أحد أساليب التعلم الآلي
  • يساعدك على اكتشاف الإجراء الذي يحقق أعلى مكافأة على مدى فترة أطول.
  • ثلاث طرق للتعلم المعزز هي 1) التعلم القائم على القيمة 2) التعلم القائم على السياسات والتعلم القائم على النموذج.
  • الوكيل، الحالة، المكافأة، البيئة، وظيفة القيمة نموذج البيئة، الأساليب القائمة على النموذج، هي بعض المصطلحات المهمة المستخدمة في طريقة تعلم RL
  • مثال على التعلم المعزز هو أن قطتك هي عامل يتعرض للبيئة.
  • أكبر ما يميز هذه الطريقة هو عدم وجود مشرف، بل فقط رقم حقيقي أو إشارة مكافأة
  • هناك نوعان من التعلم المعزز هما 1) إيجابي 2) سلبي
  • نموذجان للتعلم مستخدمان على نطاق واسع هما 1) عملية اتخاذ القرار ماركوف 2) التعلم Q
  • يعمل أسلوب التعلم المعزز على التفاعل مع البيئة التعلم تحت إشراف تعمل الطريقة على بيانات عينة معينة أو مثال.
  • أساليب التعلم التطبيقية أو المعززة هي: الروبوتات للأتمتة الصناعية وتخطيط استراتيجية الأعمال
  • يجب ألا تستخدم هذه الطريقة عندما يكون لديك بيانات كافية لحل المشكلة
  • التحدي الأكبر لهذه الطريقة هو أن المعلمات قد تؤثر على سرعة التعلم