การเรียนรู้แบบเสริมกำลัง: คืออะไร Algorithms, ประเภทและตัวอย่าง
การเรียนรู้การเสริมแรงคืออะไร?
การเรียนรู้เสริมแรง ถูกกำหนดให้เป็นวิธีการเรียนรู้ของเครื่องที่เกี่ยวข้องกับวิธีที่ตัวแทนซอฟต์แวร์ควรดำเนินการในสภาพแวดล้อม การเรียนรู้แบบเสริมกำลังเป็นส่วนหนึ่งของวิธีการเรียนรู้เชิงลึกที่ช่วยให้คุณเพิ่มรางวัลสะสมบางส่วนได้สูงสุด
วิธีการเรียนรู้เครือข่ายประสาทนี้ช่วยให้คุณเรียนรู้วิธีการบรรลุวัตถุประสงค์ที่ซับซ้อนหรือขยายมิติที่เฉพาะเจาะจงมากที่สุดในหลายขั้นตอน
องค์ประกอบสำคัญของวิธีการเรียนรู้แบบเสริมกำลังเชิงลึก
ต่อไปนี้เป็นคำศัพท์สำคัญที่ใช้ใน Reinforcement AI:
- ตัวแทน: มันเป็นเอนทิตีสมมติซึ่งดำเนินการในสภาพแวดล้อมเพื่อรับรางวัล
- สิ่งแวดล้อม (จ): สถานการณ์ที่ตัวแทนต้องเผชิญ
- รางวัล (R): ผลตอบแทนทันทีที่มอบให้กับตัวแทนเมื่อเขาหรือเธอดำเนินการหรืองานเฉพาะเจาะจง
- รัฐ: รัฐหมายถึงสถานการณ์ปัจจุบันที่สิ่งแวดล้อมส่งคืน
- นโยบาย (π): เป็นกลยุทธ์ที่ตัวแทนใช้เพื่อตัดสินใจดำเนินการต่อไปตามสถานะปัจจุบัน
- ค่า (V): คาดว่าจะได้รับผลตอบแทนระยะยาวพร้อมส่วนลดเมื่อเปรียบเทียบกับผลตอบแทนระยะสั้น
- ฟังก์ชันค่า: โดยระบุมูลค่าของรัฐที่เป็นจำนวนรางวัลทั้งหมด เป็นตัวแทนที่ควรคาดหวังโดยเริ่มจากสถานะนั้น
- แบบจำลองสภาพแวดล้อม: สิ่งนี้เลียนแบบพฤติกรรมของสิ่งแวดล้อม ช่วยให้คุณทำการอนุมานและกำหนดว่าสภาพแวดล้อมจะทำงานอย่างไร
- วิธีการตามแบบจำลอง: เป็นวิธีการแก้ปัญหาการเรียนรู้แบบเสริมกำลังโดยใช้วิธีแบบจำลอง
- ค่า Q หรือค่าการกระทำ (Q): ค่า Q ค่อนข้างใกล้เคียงกับค่า ข้อแตกต่างระหว่างทั้งสองคือใช้พารามิเตอร์เพิ่มเติมเป็นการกระทำปัจจุบัน
การเรียนรู้แบบเสริมกำลังทำงานอย่างไร
เรามาดูตัวอย่างง่ายๆ ที่จะช่วยให้คุณอธิบายกลไกการเรียนรู้แบบเสริมกำลังกันดีกว่า
ลองพิจารณาสถานการณ์ในการสอนเทคนิคใหม่ๆ ให้กับแมวของคุณ
- เนื่องจากแมวไม่เข้าใจภาษาอังกฤษหรือภาษามนุษย์อื่นๆ เราจึงไม่สามารถบอกเธอได้โดยตรงว่าต้องทำอย่างไร แต่เราทำตามกลยุทธ์อื่นแทน
- เราเลียนแบบสถานการณ์ และแมวก็พยายามตอบสนองด้วยวิธีต่างๆ มากมาย ถ้าแมวตอบสนองแบบที่ต้องการเราจะให้ปลามัน
- ตอนนี้เมื่อใดก็ตามที่แมวตกอยู่ในสถานการณ์เดียวกัน แมวก็จะดำเนินการคล้าย ๆ กันโดยหวังว่าจะได้รับรางวัล (อาหาร) มากขึ้นอย่างกระตือรือร้นมากขึ้น
- นั่นก็เหมือนกับการเรียนรู้ว่าแมวได้มาจาก “สิ่งที่ควรทำ” จากประสบการณ์เชิงบวก
- ในเวลาเดียวกัน แมวยังเรียนรู้สิ่งที่ไม่ควรทำเมื่อต้องเผชิญกับประสบการณ์เชิงลบ
ตัวอย่างการเรียนรู้แบบเสริมกำลัง
ในกรณีนี้,
- แมวของคุณเป็นตัวแทนที่สัมผัสกับสิ่งแวดล้อม ในกรณีนี้คือบ้านของคุณ ตัวอย่างของรัฐอาจเป็นแมวของคุณนั่ง และคุณใช้คำที่เฉพาะเจาะจงในการให้แมวเดิน
- ตัวแทนของเราตอบสนองโดยการดำเนินการเปลี่ยนจาก "สถานะ" หนึ่งไปยัง "สถานะ" อื่น
- ตัวอย่างเช่น แมวของคุณเปลี่ยนจากนั่งเป็นเดิน
- ปฏิกิริยาของตัวแทนคือการกระทำ และนโยบายคือวิธีการเลือกการกระทำโดยคาดหวังผลลัพธ์ที่ดีกว่า
- หลังจากการเปลี่ยนแปลง พวกเขาอาจได้รับรางวัลหรือค่าปรับเป็นการตอบแทน
การเรียนรู้เสริมแรง Algorithms
มีสามวิธีในการใช้อัลกอริธึมการเรียนรู้แบบเสริมกำลัง
ตามมูลค่า
ในวิธีการเรียนรู้การเสริมกำลังตามมูลค่า คุณควรพยายามเพิ่มฟังก์ชันค่าให้สูงสุด วี- ในวิธีนี้ ตัวแทนคาดว่าจะได้รับผลตอบแทนระยะยาวของสถานะปัจจุบันภายใต้นโยบาย π.
ตามนโยบาย
ในวิธี RL ตามนโยบาย คุณพยายามสร้างนโยบายที่การดำเนินการในทุกรัฐช่วยให้คุณได้รับรางวัลสูงสุดในอนาคต
วิธีการตามนโยบายสองประเภท ได้แก่:
- การกำหนด: สำหรับรัฐใดๆ การดำเนินการเดียวกันนี้จะถูกสร้างขึ้นโดยนโยบาย π
- สุ่ม: การกระทำทุกอย่างจะมีความน่าจะเป็นบางอย่าง ซึ่งจะถูกกำหนดโดยสมการต่อไปนี้ นโยบายสุ่ม:
n{a\s) = P\A, = a\S, =S]
ตามรุ่น
ในวิธีการเรียนรู้แบบเสริมแรงนี้ คุณต้องสร้างแบบจำลองเสมือนสำหรับแต่ละสภาพแวดล้อม ตัวแทนเรียนรู้ที่จะดำเนินการในสภาพแวดล้อมเฉพาะนั้น
ลักษณะของการเรียนรู้แบบเสริมกำลัง
ต่อไปนี้เป็นลักษณะสำคัญของการเรียนรู้แบบเสริมกำลัง
- ไม่มีผู้ดูแล มีเพียงตัวเลขจริงหรือสัญญาณรางวัลเท่านั้น
- การตัดสินใจตามลำดับ
- เวลามีบทบาทสำคัญในปัญหาการเสริมกำลัง
- การตอบรับมักล่าช้า ไม่ใช่ทันที
- การดำเนินการของตัวแทนจะกำหนดข้อมูลที่ตามมาที่ได้รับ
ประเภทของการเรียนรู้การเสริมแรง
วิธีการเรียนรู้แบบเสริมกำลังสองประเภทคือ:
บวก:
มันถูกกำหนดให้เป็นเหตุการณ์ที่เกิดขึ้นเนื่องจากพฤติกรรมเฉพาะ จะเพิ่มความแข็งแกร่งและความถี่ของพฤติกรรม และส่งผลเชิงบวกต่อการกระทำของตัวแทน
การเสริมแรงประเภทนี้ช่วยให้คุณเพิ่มประสิทธิภาพสูงสุดและรักษาการเปลี่ยนแปลงไว้ได้เป็นระยะเวลานานขึ้น อย่างไรก็ตาม การเสริมแรงมากเกินไปอาจนำไปสู่การปรับสถานะให้เหมาะสมมากเกินไป ซึ่งอาจส่งผลต่อผลลัพธ์
เชิงลบ:
การเสริมแรงเชิงลบหมายถึงการเสริมสร้างพฤติกรรมที่เกิดขึ้นเนื่องจากสภาวะเชิงลบที่ควรหยุดหรือหลีกเลี่ยง ช่วยให้คุณกำหนดจุดยืนขั้นต่ำของประสิทธิภาพได้ อย่างไรก็ตาม ข้อเสียของวิธีนี้คือให้ผลเพียงพอต่อพฤติกรรมขั้นต่ำ
รูปแบบการเรียนรู้ของการเสริมแรง
มีสองรูปแบบการเรียนรู้ที่สำคัญในการเรียนรู้แบบเสริมกำลัง:
- กระบวนการตัดสินใจของมาร์คอฟ
- การเรียนรู้คิว
กระบวนการตัดสินใจของมาร์คอฟ
พารามิเตอร์ต่อไปนี้ใช้เพื่อรับโซลูชัน:
- ชุดของการกระทำ- A
- ชุดของรัฐ -S
- รางวัล- อาร์
- นโยบาย-n
- ความคุ้มค่า-V
วิธีการทางคณิตศาสตร์สำหรับการทำแผนที่โซลูชันในการเรียนรู้แบบเสริมกำลังจะถูกพิจารณาใหม่เป็นกระบวนการตัดสินใจของมาร์คอฟหรือ (MDP)
Q-การเรียนรู้
การเรียนรู้ Q เป็นวิธีการจัดหาข้อมูลตามมูลค่าเพื่อแจ้งว่าตัวแทนควรดำเนินการใด
มาทำความเข้าใจวิธีการนี้ด้วยตัวอย่างต่อไปนี้:
- ในอาคารมีห้องห้าห้องที่เชื่อมต่อกันด้วยประตู
- แต่ละห้องจะมีหมายเลข 0 ถึง 4
- ภายนอกอาคารสามารถเป็นพื้นที่ภายนอกขนาดใหญ่ได้หนึ่งพื้นที่ (5)
- ประตูหมายเลข 1 และ 4 เดินเข้าไปในอาคารจากห้อง 5
ถัดไป คุณต้องเชื่อมโยงมูลค่ารางวัลให้กับแต่ละประตู:
- ประตูที่นำไปสู่เป้าหมายโดยตรงจะได้รับรางวัล 100
- ประตูที่ไม่ได้เชื่อมต่อโดยตรงกับห้องเป้าหมายจะให้รางวัลเป็นศูนย์
- เนื่องจากประตูเป็นแบบสองทาง และมีลูกศร 2 อันถูกกำหนดไว้สำหรับแต่ละห้อง
- ทุกลูกศรในภาพด้านบนมีมูลค่ารางวัลทันที
คำอธิบาย:
ในภาพนี้ คุณจะเห็นว่าห้องนั้นแสดงถึงรัฐ
การเคลื่อนไหวของเจ้าหน้าที่จากห้องหนึ่งไปอีกห้องหนึ่งแสดงถึงการกระทำ
ในภาพด้านล่าง สถานะจะอธิบายว่าเป็นโหนด ในขณะที่ลูกศรแสดงการทำงาน
ตัวอย่างเช่น เจ้าหน้าที่จะเดินทางจากห้องหมายเลข 2 ถึง 5
- สถานะเริ่มต้น = สถานะ 2
- รัฐ 2 -> รัฐ 3
- สถานะ 3 -> สถานะ (2,1,4)
- สถานะ 4-> สถานะ (0,5,3)
- สถานะ 1-> สถานะ (5,3)
- รัฐ 0 -> รัฐ 4
การเรียนรู้แบบเสริมกำลังกับการเรียนรู้แบบมีผู้สอน
พารามิเตอร์ | การเรียนรู้เสริมแรง | การเรียนรู้ภายใต้การดูแล |
---|---|---|
รูปแบบการตัดสินใจ | การเรียนรู้แบบเสริมกำลังช่วยให้คุณตัดสินใจได้ตามลำดับ | ในวิธีนี้ จะทำการตัดสินใจเกี่ยวกับอินพุตที่ให้ไว้ตั้งแต่ต้น |
ทำงานบน | ทำงานเกี่ยวกับการโต้ตอบกับสิ่งแวดล้อม | ทำงานกับตัวอย่างหรือข้อมูลตัวอย่างที่กำหนด |
ขึ้นอยู่กับการตัดสินใจ | ในการตัดสินใจเรียนรู้วิธี RL นั้นขึ้นอยู่กับ ดังนั้น คุณควรติดป้ายกำกับให้กับการตัดสินใจที่ต้องพึ่งพาทั้งหมด | มีการควบคุมการเรียนรู้ในการตัดสินใจซึ่งเป็นอิสระจากกัน จึงมีป้ายติดไว้สำหรับการตัดสินใจทุกครั้ง |
เหมาะที่สุด | รองรับและทำงานได้ดีขึ้นใน AI ซึ่งมีปฏิสัมพันธ์ของมนุษย์แพร่หลาย | โดยส่วนใหญ่ใช้งานด้วยระบบซอฟต์แวร์หรือแอปพลิเคชันแบบโต้ตอบ |
ตัวอย่าง | เกมหมากรุก | การรับรู้วัตถุ |
การประยุกต์ใช้การเรียนรู้การเสริมแรง
นี่คือการประยุกต์ใช้การเรียนรู้แบบเสริมกำลัง:
- หุ่นยนต์สำหรับระบบอัตโนมัติทางอุตสาหกรรม
- การวางแผนกลยุทธ์ทางธุรกิจ
- การเรียนรู้เครื่อง และการประมวลผลข้อมูล
- ช่วยให้คุณสร้างระบบการฝึกอบรมที่จัดเตรียมการสอนและสื่อการสอนที่กำหนดเองตามความต้องการของนักเรียน
- การควบคุมเครื่องบินและการควบคุมการเคลื่อนไหวของหุ่นยนต์
เหตุใดจึงต้องใช้การเรียนรู้แบบเสริมกำลัง
ต่อไปนี้เป็นเหตุผลสำคัญสำหรับการใช้ Reinforcement Learning:
- ช่วยให้คุณค้นหาสถานการณ์ที่ต้องดำเนินการ
- ช่วยให้คุณค้นพบว่าการกระทำใดให้ผลตอบแทนสูงสุดในช่วงเวลาที่ยาวนานกว่า
- การเรียนรู้แบบเสริมกำลังยังมอบฟังก์ชันการให้รางวัลแก่ตัวแทนการเรียนรู้ด้วย
- นอกจากนี้ยังช่วยให้สามารถค้นหาวิธีที่ดีที่สุดในการรับรางวัลก้อนโตได้
เมื่อใดที่ไม่ควรใช้การเรียนรู้แบบเสริมกำลัง?
คุณไม่สามารถใช้รูปแบบการเรียนรู้แบบเสริมกำลังได้ในทุกสถานการณ์ ต่อไปนี้เป็นเงื่อนไขบางประการเมื่อคุณไม่ควรใช้โมเดลการเรียนรู้แบบเสริมกำลัง
- เมื่อคุณมีข้อมูลเพียงพอที่จะแก้ไขปัญหาด้วยวิธีการเรียนรู้แบบมีผู้สอน
- คุณต้องจำไว้ว่า Reinforcement Learning เป็นการประมวลผลที่หนักหน่วงและใช้เวลานาน โดยเฉพาะเมื่อพื้นที่แอคชั่นมีขนาดใหญ่
ความท้าทายของการเรียนรู้แบบเสริมกำลัง
ต่อไปนี้เป็นความท้าทายหลักที่คุณจะต้องเผชิญขณะทำรายได้เสริม:
- การออกแบบฟีเจอร์/รางวัลที่ควรมีส่วนร่วมอย่างมาก
- พารามิเตอร์อาจส่งผลต่อความเร็วในการเรียนรู้
- สภาพแวดล้อมที่สมจริงสามารถสังเกตได้บางส่วน
- การเสริมแรงมากเกินไปอาจทำให้เกิดสภาวะโอเวอร์โหลดซึ่งอาจส่งผลให้ผลลัพธ์ลดลง
- สภาพแวดล้อมที่สมจริงอาจไม่คงที่
สรุป
- การเรียนรู้แบบเสริมกำลังเป็นวิธีการเรียนรู้ของเครื่อง
- ช่วยให้คุณค้นพบว่าการกระทำใดให้ผลตอบแทนสูงสุดในช่วงเวลาที่ยาวนานกว่า
- วิธีการเรียนรู้แบบเสริมกำลังมี 1 วิธีคือ 2) การเรียนรู้ตามคุณค่า XNUMX) การเรียนรู้ตามนโยบายและแบบจำลอง
- ตัวแทน รัฐ รางวัล สิ่งแวดล้อม ฟังก์ชันค่า โมเดลของสภาพแวดล้อม วิธีที่ใช้โมเดล เป็นคำศัพท์สำคัญบางคำที่ใช้ในวิธีการเรียนรู้ RL
- ตัวอย่างของการเรียนรู้แบบเสริมกำลังคือแมวของคุณเป็นตัวแทนที่ต้องสัมผัสกับสิ่งแวดล้อม
- ลักษณะที่ใหญ่ที่สุดของวิธีนี้คือไม่มีผู้ดูแล มีเพียงตัวเลขจริงหรือสัญญาณรางวัลเท่านั้น
- การเรียนรู้แบบเสริมกำลังสองประเภทคือ 1) เชิงบวก 2) เชิงลบ
- รูปแบบการเรียนรู้ที่ใช้กันอย่างแพร่หลาย 1 รูปแบบคือ 2) กระบวนการตัดสินใจของมาร์คอฟ XNUMX) การเรียนรู้แบบคิว
- วิธีการเรียนรู้แบบเสริมกำลังทำงานเกี่ยวกับการโต้ตอบกับสิ่งแวดล้อม ในขณะที่ การเรียนรู้ภายใต้การดูแล วิธีการทำงานกับข้อมูลหรือตัวอย่างที่กำหนด
- วิธีการเรียนรู้การประยุกต์ใช้หรือการเสริมกำลัง ได้แก่ วิทยาการหุ่นยนต์สำหรับระบบอัตโนมัติทางอุตสาหกรรมและการวางแผนกลยุทธ์ทางธุรกิจ
- คุณไม่ควรใช้วิธีนี้เมื่อคุณมีข้อมูลเพียงพอที่จะแก้ไขปัญหา
- ความท้าทายที่ใหญ่ที่สุดของวิธีนี้คือพารามิเตอร์อาจส่งผลต่อความเร็วในการเรียนรู้