सुदृढीकरण सीखना: क्या है, Algorithms, प्रकार और उदाहरण
सुदृढीकरण सीखना क्या है?
सुदृढीकरण सीखना इसे मशीन लर्निंग विधि के रूप में परिभाषित किया गया है जो इस बात से संबंधित है कि सॉफ़्टवेयर एजेंटों को किसी वातावरण में कैसे कार्य करना चाहिए। सुदृढीकरण सीखना गहन शिक्षण विधि का एक हिस्सा है जो आपको संचयी इनाम के कुछ हिस्से को अधिकतम करने में मदद करता है।
यह तंत्रिका नेटवर्क सीखने की विधि आपको यह सीखने में मदद करती है कि किसी जटिल उद्देश्य को कैसे प्राप्त किया जाए या कई चरणों में किसी विशिष्ट आयाम को कैसे अधिकतम किया जाए।
डीप रीइनफोर्समेंट लर्निंग विधि के महत्वपूर्ण घटक
सुदृढीकरण एआई में प्रयुक्त कुछ महत्वपूर्ण शब्द इस प्रकार हैं:
- एजेंट: यह एक कल्पित इकाई है जो किसी वातावरण में कुछ पुरस्कार प्राप्त करने के लिए क्रियाएं करती है।
- पर्यावरण (ई): एक परिदृश्य जिसका सामना एक एजेंट को करना पड़ता है।
- पुरस्कार (आर): किसी एजेंट को तब दिया जाने वाला तत्काल प्रतिफल जब वह कोई विशिष्ट कार्य या कार्रवाई करता है।
- राज्य: अवस्था से तात्पर्य पर्यावरण द्वारा लौटाई गई वर्तमान स्थिति से है।
- नीति (π): यह एक रणनीति है जो एजेंट द्वारा वर्तमान स्थिति के आधार पर अगली कार्रवाई तय करने के लिए लागू की जाती है।
- मूल्य (वी): इसमें अल्पावधि प्रतिफल की तुलना में छूट के साथ दीर्घावधि प्रतिफल की अपेक्षा की जाती है।
- मूल्य फ़ंक्शन: यह किसी राज्य का मूल्य निर्दिष्ट करता है जो पुरस्कार की कुल राशि है। यह एक एजेंट है जिसकी उस राज्य से शुरुआत होने की उम्मीद की जानी चाहिए।
- पर्यावरण का मॉडल: यह पर्यावरण के व्यवहार की नकल करता है। यह आपको अनुमान लगाने में मदद करता है और यह भी निर्धारित करता है कि पर्यावरण कैसे व्यवहार करेगा।
- मॉडल आधारित विधियाँ: यह सुदृढीकरण सीखने की समस्याओं को हल करने की एक विधि है जो मॉडल-आधारित विधियों का उपयोग करती है।
- क्यू मान या क्रिया मान (Q): क्यू वैल्यू वैल्यू से काफी मिलता-जुलता है। दोनों के बीच एकमात्र अंतर यह है कि यह वर्तमान क्रिया के रूप में एक अतिरिक्त पैरामीटर लेता है।
सुदृढीकरण सीखना कैसे काम करता है?
आइए कुछ सरल उदाहरण देखें जो आपको सुदृढीकरण सीखने की प्रक्रिया को समझाने में मदद करेंगे।
अपनी बिल्ली को नई तरकीबें सिखाने के परिदृश्य पर विचार करें
- चूंकि बिल्ली अंग्रेजी या किसी अन्य मानवीय भाषा को नहीं समझती, इसलिए हम उसे सीधे तौर पर यह नहीं बता सकते कि उसे क्या करना है। इसके बजाय, हम एक अलग रणनीति अपनाते हैं।
- हम एक स्थिति का अनुकरण करते हैं, और बिल्ली कई अलग-अलग तरीकों से प्रतिक्रिया करने की कोशिश करती है। अगर बिल्ली की प्रतिक्रिया वांछित तरीके से होती है, तो हम उसे मछली देंगे।
- अब जब भी बिल्ली को उसी स्थिति का सामना करना पड़ता है, तो वह अधिक पुरस्कार (भोजन) पाने की उम्मीद में और भी अधिक उत्साह के साथ उसी कार्य को अंजाम देती है।
- यह वैसा ही है जैसे बिल्ली को सकारात्मक अनुभवों से यह सीख मिलती है कि उसे क्या करना है।
- साथ ही, बिल्ली यह भी सीखती है कि नकारात्मक अनुभवों का सामना करने पर उसे क्या नहीं करना चाहिए।
सुदृढीकरण सीखने का उदाहरण
इस मामले में,
- आपकी बिल्ली एक एजेंट है जो पर्यावरण के संपर्क में आती है। इस मामले में, यह आपका घर है। एक स्थिति का उदाहरण आपकी बिल्ली का बैठना हो सकता है, और आप बिल्ली को चलने के लिए एक विशिष्ट शब्द का उपयोग करते हैं।
- हमारा एजेंट एक “स्थिति” से दूसरी “स्थिति” में क्रिया संक्रमण करके प्रतिक्रिया करता है।
- उदाहरण के लिए, आपकी बिल्ली बैठने से चलने लगती है।
- किसी एजेंट की प्रतिक्रिया एक क्रिया है, और नीति बेहतर परिणामों की उम्मीद में किसी स्थिति में क्रिया का चयन करने की एक विधि है।
- परिवर्तन के बाद, उन्हें बदले में पुरस्कार या दंड मिल सकता है।
सुदृढीकरण सीखना Algorithms
सुदृढीकरण अधिगम एल्गोरिथ्म को क्रियान्वित करने के तीन तरीके हैं।
मूल्य आधारित
मूल्य-आधारित सुदृढीकरण सीखने की विधि में, आपको मूल्य फ़ंक्शन को अधिकतम करने का प्रयास करना चाहिए वी(एस)इस विधि में, एजेंट पॉलिसी के तहत वर्तमान स्थिति से दीर्घकालिक रिटर्न की उम्मीद कर रहा है π.
नीति के आधार पर
नीति-आधारित आरएल विधि में, आप ऐसी नीति बनाने का प्रयास करते हैं जिससे प्रत्येक अवस्था में की गई कार्रवाई आपको भविष्य में अधिकतम पुरस्कार प्राप्त करने में मदद करे।
नीति-आधारित विधियाँ दो प्रकार की होती हैं:
- नियतात्मक: किसी भी स्थिति के लिए, नीति π द्वारा समान क्रिया उत्पन्न की जाती है।
- स्टोकेस्टिक: प्रत्येक क्रिया की एक निश्चित संभावना होती है, जो निम्नलिखित समीकरण द्वारा निर्धारित होती है।स्टोकेस्टिक नीति:
n{a\s) = P\A, = a\S, =S]
मॉडल के आधार पर
इस सुदृढीकरण सीखने की विधि में, आपको प्रत्येक वातावरण के लिए एक आभासी मॉडल बनाने की आवश्यकता होती है। एजेंट उस विशिष्ट वातावरण में प्रदर्शन करना सीखता है।
सुदृढीकरण सीखने की विशेषताएं
सुदृढीकरण सीखने की महत्वपूर्ण विशेषताएं यहां दी गई हैं
- कोई पर्यवेक्षक नहीं है, केवल एक वास्तविक संख्या या पुरस्कार संकेत है
- अनुक्रमिक निर्णय लेना
- सुदृढीकरण समस्याओं में समय महत्वपूर्ण भूमिका निभाता है
- प्रतिक्रिया हमेशा विलंबित होती है, तुरंत नहीं
- एजेंट की गतिविधियां उसके द्वारा प्राप्त किए जाने वाले आगामी डेटा को निर्धारित करती हैं
सुदृढीकरण सीखने के प्रकार
सुदृढीकरण सीखने के दो प्रकार हैं:
सकारात्मक:
इसे एक ऐसी घटना के रूप में परिभाषित किया जाता है, जो विशिष्ट व्यवहार के कारण घटित होती है। यह व्यवहार की ताकत और आवृत्ति को बढ़ाता है और एजेंट द्वारा की गई कार्रवाई पर सकारात्मक प्रभाव डालता है।
इस प्रकार का सुदृढीकरण आपको प्रदर्शन को अधिकतम करने और अधिक विस्तारित अवधि के लिए परिवर्तन को बनाए रखने में मदद करता है। हालाँकि, बहुत अधिक सुदृढीकरण से राज्य का अति-अनुकूलन हो सकता है, जो परिणामों को प्रभावित कर सकता है।
नकारात्मक:
नकारात्मक सुदृढीकरण को व्यवहार को मजबूत करने के रूप में परिभाषित किया जाता है जो किसी नकारात्मक स्थिति के कारण होता है जिसे रोका जाना चाहिए था या टाला जाना चाहिए था। यह आपको प्रदर्शन के न्यूनतम स्तर को परिभाषित करने में मदद करता है। हालाँकि, इस पद्धति का दोष यह है कि यह न्यूनतम व्यवहार को पूरा करने के लिए पर्याप्त प्रदान करता है।
सुदृढीकरण के मॉडल सीखना
सुदृढीकरण सीखने में दो महत्वपूर्ण शिक्षण मॉडल हैं:
- मार्कोव निर्णय प्रक्रिया
- क्यू सीखना
मार्कोव निर्णय प्रक्रिया
समाधान प्राप्त करने के लिए निम्नलिखित मापदंडों का उपयोग किया जाता है:
- कार्यों का समूह- A
- राज्यों का समूह -S
- इनाम- आर
- नीति- n
- मान- V
सुदृढीकरण अधिगम में समाधान के मानचित्रण के लिए गणितीय दृष्टिकोण को मार्कोव निर्णय प्रक्रिया या (एमडीपी) के रूप में जाना जाता है।
क्यू-लर्निंग
क्यू लर्निंग, सूचना प्रदान करने की एक मूल्य-आधारित विधि है, जो यह बताती है कि एजेंट को क्या कार्रवाई करनी चाहिए।
आइये इस विधि को निम्नलिखित उदाहरण से समझें:
- एक इमारत में पाँच कमरे हैं जो दरवाजों से जुड़े हुए हैं।
- प्रत्येक कमरे को 0 से 4 तक क्रमांकित किया गया है
- इमारत के बाहर एक बड़ा बाहरी क्षेत्र हो सकता है (5)
- दरवाज़ा नंबर 1 और 4 कमरा 5 से इमारत में ले जाते हैं
इसके बाद, आपको प्रत्येक दरवाजे के साथ एक पुरस्कार मूल्य जोड़ना होगा:
- सीधे लक्ष्य तक ले जाने वाले दरवाजों पर 100 का इनाम है
- जो दरवाजे सीधे लक्ष्य कक्ष से जुड़े नहीं हैं, उन्हें शून्य पुरस्कार मिलता है
- चूंकि दरवाजे दो-तरफ़ा हैं, और प्रत्येक कमरे के लिए दो तीर निर्धारित हैं
- उपरोक्त छवि में प्रत्येक तीर में एक त्वरित पुरस्कार मूल्य निहित है
स्पष्टीकरण:
इस छवि में, आप देख सकते हैं कि कमरा एक राज्य का प्रतिनिधित्व करता है
एजेंट का एक कमरे से दूसरे कमरे में जाना एक क्रिया को दर्शाता है
नीचे दी गई छवि में, एक स्थिति को नोड के रूप में वर्णित किया गया है, जबकि तीर क्रिया को दर्शाते हैं।
उदाहरण के लिए, एक एजेंट कमरा नंबर 2 से 5 तक जाता है
- प्रारंभिक अवस्था = अवस्था 2
- राज्य 2-> राज्य 3
- राज्य 3 -> राज्य (2,1,4)
- राज्य 4-> राज्य (0,5,3)
- राज्य 1-> राज्य (5,3)
- राज्य 0-> राज्य 4
सुदृढीकरण सीखना बनाम पर्यवेक्षित सीखना
पैरामीटर्स | सुदृढीकरण सीखना | पर्यवेक्षित अध्ययन |
---|---|---|
निर्णय शैली | सुदृढीकरण सीखना आपको क्रमिक रूप से निर्णय लेने में मदद करता है। | इस पद्धति में, शुरुआत में दिए गए इनपुट के आधार पर निर्णय लिया जाता है। |
पर काम करता है | पर्यावरण के साथ अंतःक्रिया पर काम करता है। | उदाहरणों या दिए गए नमूना डेटा पर काम करता है। |
निर्णय पर निर्भरता | आर.एल. पद्धति में अधिगम निर्णय आश्रित होता है। इसलिए, आपको सभी आश्रित निर्णयों को लेबल देना चाहिए। | पर्यवेक्षित शिक्षण में निर्णय एक दूसरे से स्वतंत्र होते हैं, इसलिए प्रत्येक निर्णय के लिए लेबल दिए जाते हैं। |
सबसे उपयुक्त | जहां मानवीय संपर्क प्रचलित है, वहां एआई का समर्थन करता है और बेहतर ढंग से कार्य करता है। | यह ज्यादातर इंटरैक्टिव सॉफ्टवेयर सिस्टम या अनुप्रयोगों के साथ संचालित होता है। |
उदाहरण | शतरंज का खेल | वस्तु मान्यता |
सुदृढीकरण सीखने के अनुप्रयोग
सुदृढीकरण सीखने के अनुप्रयोग इस प्रकार हैं:
- औद्योगिक स्वचालन के लिए रोबोटिक्स।
- व्यापार रणनीति योजना
- मशीन लर्निंग और डाटा प्रोसेसिंग
- यह आपको प्रशिक्षण प्रणालियां बनाने में मदद करता है जो छात्रों की आवश्यकता के अनुसार कस्टम निर्देश और सामग्री प्रदान करती हैं।
- विमान नियंत्रण और रोबोट गति नियंत्रण
सुदृढीकरण सीखने का उपयोग क्यों करें?
सुदृढीकरण सीखने का उपयोग करने के प्रमुख कारण यहां दिए गए हैं:
- यह आपको यह पता लगाने में मदद करता है कि किस स्थिति में कार्रवाई की आवश्यकता है
- यह आपको यह पता लगाने में मदद करता है कि कौन सा कार्य लंबी अवधि में सबसे अधिक लाभ देता है।
- सुदृढीकरण अधिगम, अधिगमकर्ता को एक पुरस्कार फ़ंक्शन भी प्रदान करता है।
- यह उसे बड़े पुरस्कार प्राप्त करने के लिए सर्वोत्तम विधि का पता लगाने की भी अनुमति देता है।
सुदृढीकरण सीखने का उपयोग कब नहीं करना चाहिए?
आप सभी परिस्थितियों में सुदृढीकरण सीखने के मॉडल को लागू नहीं कर सकते। यहाँ कुछ स्थितियाँ दी गई हैं जब आपको सुदृढीकरण सीखने के मॉडल का उपयोग नहीं करना चाहिए।
- जब आपके पास पर्यवेक्षित शिक्षण पद्धति से समस्या को हल करने के लिए पर्याप्त डेटा हो
- आपको यह याद रखना होगा कि सुदृढीकरण सीखना कंप्यूटिंग-भारी और समय लेने वाला है, विशेष रूप से जब कार्रवाई का स्थान बड़ा हो।
सुदृढीकरण सीखने की चुनौतियाँ
सुदृढीकरण अर्जन करते समय आपको निम्नलिखित प्रमुख चुनौतियों का सामना करना पड़ेगा:
- विशेषता/पुरस्कार डिजाइन जिसमें बहुत अधिक ध्यान दिया जाना चाहिए
- पैरामीटर सीखने की गति को प्रभावित कर सकते हैं।
- यथार्थवादी वातावरण में आंशिक अवलोकनीयता हो सकती है।
- बहुत अधिक सुदृढ़ीकरण से राज्यों पर अधिक भार पड़ सकता है, जिससे परिणाम कम हो सकते हैं।
- यथार्थवादी वातावरण अस्थिर हो सकते हैं।
सारांश
- सुदृढीकरण सीखना एक मशीन लर्निंग विधि है
- यह आपको यह पता लगाने में मदद करता है कि कौन सा कार्य लंबी अवधि में सबसे अधिक लाभ देता है।
- सुदृढीकरण सीखने के तीन तरीके हैं: 1) मूल्य-आधारित 2) नीति-आधारित और मॉडल आधारित सीखना।
- एजेंट, राज्य, पुरस्कार, पर्यावरण, पर्यावरण का मूल्य फ़ंक्शन मॉडल, मॉडल आधारित विधियाँ, आरएल सीखने की विधि में उपयोग किए जाने वाले कुछ महत्वपूर्ण शब्द हैं
- सुदृढीकरण सीखने का उदाहरण यह है कि आपकी बिल्ली एक एजेंट है जो पर्यावरण के संपर्क में है।
- इस पद्धति की सबसे बड़ी विशेषता यह है कि इसमें कोई पर्यवेक्षक नहीं होता, केवल एक वास्तविक संख्या या पुरस्कार संकेत होता है
- सुदृढीकरण सीखने के दो प्रकार हैं 1) सकारात्मक 2) नकारात्मक
- दो व्यापक रूप से प्रयुक्त शिक्षण मॉडल हैं 1) मार्कोव निर्णय प्रक्रिया 2) क्यू लर्निंग
- सुदृढीकरण सीखने की विधि पर्यावरण के साथ बातचीत पर काम करती है, जबकि पर्यवेक्षित अध्ययन विधि दिए गए नमूना डेटा या उदाहरण पर काम करती है।
- अनुप्रयोग या सुदृढ़ीकरण सीखने के तरीके हैं: औद्योगिक स्वचालन और व्यापार रणनीति योजना के लिए रोबोटिक्स
- जब आपके पास समस्या को हल करने के लिए पर्याप्त डेटा हो तो आपको इस पद्धति का उपयोग नहीं करना चाहिए
- इस पद्धति की सबसे बड़ी चुनौती यह है कि पैरामीटर सीखने की गति को प्रभावित कर सकते हैं