การเรียนรู้แบบเสริมกำลัง: คืออะไร Algorithms, ประเภทและตัวอย่าง

การเรียนรู้การเสริมแรงคืออะไร?

การเรียนรู้เสริมแรง ถูกกำหนดให้เป็นวิธีการเรียนรู้ของเครื่องที่เกี่ยวข้องกับวิธีที่ตัวแทนซอฟต์แวร์ควรดำเนินการในสภาพแวดล้อม การเรียนรู้แบบเสริมกำลังเป็นส่วนหนึ่งของวิธีการเรียนรู้เชิงลึกที่ช่วยให้คุณเพิ่มรางวัลสะสมบางส่วนได้สูงสุด

วิธีการเรียนรู้เครือข่ายประสาทนี้ช่วยให้คุณเรียนรู้วิธีการบรรลุวัตถุประสงค์ที่ซับซ้อนหรือขยายมิติที่เฉพาะเจาะจงมากที่สุดในหลายขั้นตอน

องค์ประกอบสำคัญของวิธีการเรียนรู้แบบเสริมกำลังเชิงลึก

ส่วนประกอบสำคัญของการเสริมแรงแบบลึก

ต่อไปนี้เป็นคำศัพท์สำคัญที่ใช้ใน Reinforcement AI:

  • ตัวแทน: มันเป็นเอนทิตีสมมติซึ่งดำเนินการในสภาพแวดล้อมเพื่อรับรางวัล
  • สิ่งแวดล้อม (จ): สถานการณ์ที่ตัวแทนต้องเผชิญ
  • รางวัล (R): ผลตอบแทนทันทีที่มอบให้กับตัวแทนเมื่อเขาหรือเธอดำเนินการหรืองานเฉพาะเจาะจง
  • รัฐ: รัฐหมายถึงสถานการณ์ปัจจุบันที่สิ่งแวดล้อมส่งคืน
  • นโยบาย (π): เป็นกลยุทธ์ที่ตัวแทนใช้เพื่อตัดสินใจดำเนินการต่อไปตามสถานะปัจจุบัน
  • ค่า (V): คาดว่าจะได้รับผลตอบแทนระยะยาวพร้อมส่วนลดเมื่อเปรียบเทียบกับผลตอบแทนระยะสั้น
  • ฟังก์ชันค่า: โดยระบุมูลค่าของรัฐที่เป็นจำนวนรางวัลทั้งหมด เป็นตัวแทนที่ควรคาดหวังโดยเริ่มจากสถานะนั้น
  • แบบจำลองสภาพแวดล้อม: สิ่งนี้เลียนแบบพฤติกรรมของสิ่งแวดล้อม ช่วยให้คุณทำการอนุมานและกำหนดว่าสภาพแวดล้อมจะทำงานอย่างไร
  • วิธีการตามแบบจำลอง: เป็นวิธีการแก้ปัญหาการเรียนรู้แบบเสริมกำลังโดยใช้วิธีแบบจำลอง
  • ค่า Q หรือค่าการกระทำ (Q): ค่า Q ค่อนข้างใกล้เคียงกับค่า ข้อแตกต่างระหว่างทั้งสองคือใช้พารามิเตอร์เพิ่มเติมเป็นการกระทำปัจจุบัน

การเรียนรู้แบบเสริมกำลังทำงานอย่างไร

เรามาดูตัวอย่างง่ายๆ ที่จะช่วยให้คุณอธิบายกลไกการเรียนรู้แบบเสริมกำลังกันดีกว่า

ลองพิจารณาสถานการณ์ในการสอนเทคนิคใหม่ๆ ให้กับแมวของคุณ

  • เนื่องจากแมวไม่เข้าใจภาษาอังกฤษหรือภาษามนุษย์อื่นๆ เราจึงไม่สามารถบอกเธอได้โดยตรงว่าต้องทำอย่างไร แต่เราทำตามกลยุทธ์อื่นแทน
  • เราเลียนแบบสถานการณ์ และแมวก็พยายามตอบสนองด้วยวิธีต่างๆ มากมาย ถ้าแมวตอบสนองแบบที่ต้องการเราจะให้ปลามัน
  • ตอนนี้เมื่อใดก็ตามที่แมวตกอยู่ในสถานการณ์เดียวกัน แมวก็จะดำเนินการคล้าย ๆ กันโดยหวังว่าจะได้รับรางวัล (อาหาร) มากขึ้นอย่างกระตือรือร้นมากขึ้น
  • นั่นก็เหมือนกับการเรียนรู้ว่าแมวได้มาจาก “สิ่งที่ควรทำ” จากประสบการณ์เชิงบวก
  • ในเวลาเดียวกัน แมวยังเรียนรู้สิ่งที่ไม่ควรทำเมื่อต้องเผชิญกับประสบการณ์เชิงลบ

ตัวอย่างการเรียนรู้แบบเสริมกำลัง

ตัวอย่างการเรียนรู้แบบเสริมกำลัง
การเรียนรู้แบบเสริมกำลังทำงานอย่างไร

ในกรณีนี้,

  • แมวของคุณเป็นตัวแทนที่สัมผัสกับสิ่งแวดล้อม ในกรณีนี้คือบ้านของคุณ ตัวอย่างของรัฐอาจเป็นแมวของคุณนั่ง และคุณใช้คำที่เฉพาะเจาะจงในการให้แมวเดิน
  • ตัวแทนของเราตอบสนองโดยการดำเนินการเปลี่ยนจาก "สถานะ" หนึ่งไปยัง "สถานะ" อื่น
  • ตัวอย่างเช่น แมวของคุณเปลี่ยนจากนั่งเป็นเดิน
  • ปฏิกิริยาของตัวแทนคือการกระทำ และนโยบายคือวิธีการเลือกการกระทำโดยคาดหวังผลลัพธ์ที่ดีกว่า
  • หลังจากการเปลี่ยนแปลง พวกเขาอาจได้รับรางวัลหรือค่าปรับเป็นการตอบแทน

การเรียนรู้เสริมแรง Algorithms

มีสามวิธีในการใช้อัลกอริธึมการเรียนรู้แบบเสริมกำลัง

ตามมูลค่า

ในวิธีการเรียนรู้การเสริมกำลังตามมูลค่า คุณควรพยายามเพิ่มฟังก์ชันค่าให้สูงสุด วี- ในวิธีนี้ ตัวแทนคาดว่าจะได้รับผลตอบแทนระยะยาวของสถานะปัจจุบันภายใต้นโยบาย π.

ตามนโยบาย

ในวิธี RL ตามนโยบาย คุณพยายามสร้างนโยบายที่การดำเนินการในทุกรัฐช่วยให้คุณได้รับรางวัลสูงสุดในอนาคต

วิธีการตามนโยบายสองประเภท ได้แก่:

  • การกำหนด: สำหรับรัฐใดๆ การดำเนินการเดียวกันนี้จะถูกสร้างขึ้นโดยนโยบาย π
  • สุ่ม: การกระทำทุกอย่างจะมีความน่าจะเป็นบางอย่าง ซึ่งจะถูกกำหนดโดยสมการต่อไปนี้ นโยบายสุ่ม:
    n{a\s) = P\A, = a\S, =S]

ตามรุ่น

ในวิธีการเรียนรู้แบบเสริมแรงนี้ คุณต้องสร้างแบบจำลองเสมือนสำหรับแต่ละสภาพแวดล้อม ตัวแทนเรียนรู้ที่จะดำเนินการในสภาพแวดล้อมเฉพาะนั้น

ลักษณะของการเรียนรู้แบบเสริมกำลัง

ต่อไปนี้เป็นลักษณะสำคัญของการเรียนรู้แบบเสริมกำลัง

  • ไม่มีผู้ดูแล มีเพียงตัวเลขจริงหรือสัญญาณรางวัลเท่านั้น
  • การตัดสินใจตามลำดับ
  • เวลามีบทบาทสำคัญในปัญหาการเสริมกำลัง
  • การตอบรับมักล่าช้า ไม่ใช่ทันที
  • การดำเนินการของตัวแทนจะกำหนดข้อมูลที่ตามมาที่ได้รับ

ประเภทของการเรียนรู้การเสริมแรง

วิธีการเรียนรู้แบบเสริมกำลังสองประเภทคือ:

บวก:

มันถูกกำหนดให้เป็นเหตุการณ์ที่เกิดขึ้นเนื่องจากพฤติกรรมเฉพาะ จะเพิ่มความแข็งแกร่งและความถี่ของพฤติกรรม และส่งผลเชิงบวกต่อการกระทำของตัวแทน

การเสริมแรงประเภทนี้ช่วยให้คุณเพิ่มประสิทธิภาพสูงสุดและรักษาการเปลี่ยนแปลงไว้ได้เป็นระยะเวลานานขึ้น อย่างไรก็ตาม การเสริมแรงมากเกินไปอาจนำไปสู่การปรับสถานะให้เหมาะสมมากเกินไป ซึ่งอาจส่งผลต่อผลลัพธ์

เชิงลบ:

การเสริมแรงเชิงลบหมายถึงการเสริมสร้างพฤติกรรมที่เกิดขึ้นเนื่องจากสภาวะเชิงลบที่ควรหยุดหรือหลีกเลี่ยง ช่วยให้คุณกำหนดจุดยืนขั้นต่ำของประสิทธิภาพได้ อย่างไรก็ตาม ข้อเสียของวิธีนี้คือให้ผลเพียงพอต่อพฤติกรรมขั้นต่ำ

รูปแบบการเรียนรู้ของการเสริมแรง

มีสองรูปแบบการเรียนรู้ที่สำคัญในการเรียนรู้แบบเสริมกำลัง:

  • กระบวนการตัดสินใจของมาร์คอฟ
  • การเรียนรู้คิว

กระบวนการตัดสินใจของมาร์คอฟ

พารามิเตอร์ต่อไปนี้ใช้เพื่อรับโซลูชัน:

  • ชุดของการกระทำ- A
  • ชุดของรัฐ -S
  • รางวัล- อาร์
  • นโยบาย-n
  • ความคุ้มค่า-V

วิธีการทางคณิตศาสตร์สำหรับการทำแผนที่โซลูชันในการเรียนรู้แบบเสริมกำลังจะถูกพิจารณาใหม่เป็นกระบวนการตัดสินใจของมาร์คอฟหรือ (MDP)

กระบวนการตัดสินใจของมาร์คอฟ

Q-การเรียนรู้

การเรียนรู้ Q เป็นวิธีการจัดหาข้อมูลตามมูลค่าเพื่อแจ้งว่าตัวแทนควรดำเนินการใด

มาทำความเข้าใจวิธีการนี้ด้วยตัวอย่างต่อไปนี้:

  • ในอาคารมีห้องห้าห้องที่เชื่อมต่อกันด้วยประตู
  • แต่ละห้องจะมีหมายเลข 0 ถึง 4
  • ภายนอกอาคารสามารถเป็นพื้นที่ภายนอกขนาดใหญ่ได้หนึ่งพื้นที่ (5)
  • ประตูหมายเลข 1 และ 4 เดินเข้าไปในอาคารจากห้อง 5

Q-การเรียนรู้

ถัดไป คุณต้องเชื่อมโยงมูลค่ารางวัลให้กับแต่ละประตู:

  • ประตูที่นำไปสู่เป้าหมายโดยตรงจะได้รับรางวัล 100
  • ประตูที่ไม่ได้เชื่อมต่อโดยตรงกับห้องเป้าหมายจะให้รางวัลเป็นศูนย์
  • เนื่องจากประตูเป็นแบบสองทาง และมีลูกศร 2 อันถูกกำหนดไว้สำหรับแต่ละห้อง
  • ทุกลูกศรในภาพด้านบนมีมูลค่ารางวัลทันที

คำอธิบาย:

ในภาพนี้ คุณจะเห็นว่าห้องนั้นแสดงถึงรัฐ

การเคลื่อนไหวของเจ้าหน้าที่จากห้องหนึ่งไปอีกห้องหนึ่งแสดงถึงการกระทำ

ในภาพด้านล่าง สถานะจะอธิบายว่าเป็นโหนด ในขณะที่ลูกศรแสดงการทำงาน

Q-การเรียนรู้

ตัวอย่างเช่น เจ้าหน้าที่จะเดินทางจากห้องหมายเลข 2 ถึง 5

  • สถานะเริ่มต้น = สถานะ 2
  • รัฐ 2 -> รัฐ 3
  • สถานะ 3 -> สถานะ (2,1,4)
  • สถานะ 4-> สถานะ (0,5,3)
  • สถานะ 1-> สถานะ (5,3)
  • รัฐ 0 -> รัฐ 4

การเรียนรู้แบบเสริมกำลังกับการเรียนรู้แบบมีผู้สอน

พารามิเตอร์ การเรียนรู้เสริมแรง การเรียนรู้ภายใต้การดูแล
รูปแบบการตัดสินใจ การเรียนรู้แบบเสริมกำลังช่วยให้คุณตัดสินใจได้ตามลำดับ ในวิธีนี้ จะทำการตัดสินใจเกี่ยวกับอินพุตที่ให้ไว้ตั้งแต่ต้น
ทำงานบน ทำงานเกี่ยวกับการโต้ตอบกับสิ่งแวดล้อม ทำงานกับตัวอย่างหรือข้อมูลตัวอย่างที่กำหนด
ขึ้นอยู่กับการตัดสินใจ ในการตัดสินใจเรียนรู้วิธี RL นั้นขึ้นอยู่กับ ดังนั้น คุณควรติดป้ายกำกับให้กับการตัดสินใจที่ต้องพึ่งพาทั้งหมด มีการควบคุมการเรียนรู้ในการตัดสินใจซึ่งเป็นอิสระจากกัน จึงมีป้ายติดไว้สำหรับการตัดสินใจทุกครั้ง
เหมาะที่สุด รองรับและทำงานได้ดีขึ้นใน AI ซึ่งมีปฏิสัมพันธ์ของมนุษย์แพร่หลาย โดยส่วนใหญ่ใช้งานด้วยระบบซอฟต์แวร์หรือแอปพลิเคชันแบบโต้ตอบ
ตัวอย่าง เกมหมากรุก การรับรู้วัตถุ

การประยุกต์ใช้การเรียนรู้การเสริมแรง

นี่คือการประยุกต์ใช้การเรียนรู้แบบเสริมกำลัง:

  • หุ่นยนต์สำหรับระบบอัตโนมัติทางอุตสาหกรรม
  • การวางแผนกลยุทธ์ทางธุรกิจ
  • การเรียนรู้เครื่อง และการประมวลผลข้อมูล
  • ช่วยให้คุณสร้างระบบการฝึกอบรมที่จัดเตรียมการสอนและสื่อการสอนที่กำหนดเองตามความต้องการของนักเรียน
  • การควบคุมเครื่องบินและการควบคุมการเคลื่อนไหวของหุ่นยนต์

เหตุใดจึงต้องใช้การเรียนรู้แบบเสริมกำลัง

ต่อไปนี้เป็นเหตุผลสำคัญสำหรับการใช้ Reinforcement Learning:

  • ช่วยให้คุณค้นหาสถานการณ์ที่ต้องดำเนินการ
  • ช่วยให้คุณค้นพบว่าการกระทำใดให้ผลตอบแทนสูงสุดในช่วงเวลาที่ยาวนานกว่า
  • การเรียนรู้แบบเสริมกำลังยังมอบฟังก์ชันการให้รางวัลแก่ตัวแทนการเรียนรู้ด้วย
  • นอกจากนี้ยังช่วยให้สามารถค้นหาวิธีที่ดีที่สุดในการรับรางวัลก้อนโตได้

เมื่อใดที่ไม่ควรใช้การเรียนรู้แบบเสริมกำลัง?

คุณไม่สามารถใช้รูปแบบการเรียนรู้แบบเสริมกำลังได้ในทุกสถานการณ์ ต่อไปนี้เป็นเงื่อนไขบางประการเมื่อคุณไม่ควรใช้โมเดลการเรียนรู้แบบเสริมกำลัง

  • เมื่อคุณมีข้อมูลเพียงพอที่จะแก้ไขปัญหาด้วยวิธีการเรียนรู้แบบมีผู้สอน
  • คุณต้องจำไว้ว่า Reinforcement Learning เป็นการประมวลผลที่หนักหน่วงและใช้เวลานาน โดยเฉพาะเมื่อพื้นที่แอคชั่นมีขนาดใหญ่

ความท้าทายของการเรียนรู้แบบเสริมกำลัง

ต่อไปนี้เป็นความท้าทายหลักที่คุณจะต้องเผชิญขณะทำรายได้เสริม:

  • การออกแบบฟีเจอร์/รางวัลที่ควรมีส่วนร่วมอย่างมาก
  • พารามิเตอร์อาจส่งผลต่อความเร็วในการเรียนรู้
  • สภาพแวดล้อมที่สมจริงสามารถสังเกตได้บางส่วน
  • การเสริมแรงมากเกินไปอาจทำให้เกิดสภาวะโอเวอร์โหลดซึ่งอาจส่งผลให้ผลลัพธ์ลดลง
  • สภาพแวดล้อมที่สมจริงอาจไม่คงที่

สรุป

  • การเรียนรู้แบบเสริมกำลังเป็นวิธีการเรียนรู้ของเครื่อง
  • ช่วยให้คุณค้นพบว่าการกระทำใดให้ผลตอบแทนสูงสุดในช่วงเวลาที่ยาวนานกว่า
  • วิธีการเรียนรู้แบบเสริมกำลังมี 1 วิธีคือ 2) การเรียนรู้ตามคุณค่า XNUMX) การเรียนรู้ตามนโยบายและแบบจำลอง
  • ตัวแทน รัฐ รางวัล สิ่งแวดล้อม ฟังก์ชันค่า โมเดลของสภาพแวดล้อม วิธีที่ใช้โมเดล เป็นคำศัพท์สำคัญบางคำที่ใช้ในวิธีการเรียนรู้ RL
  • ตัวอย่างของการเรียนรู้แบบเสริมกำลังคือแมวของคุณเป็นตัวแทนที่ต้องสัมผัสกับสิ่งแวดล้อม
  • ลักษณะที่ใหญ่ที่สุดของวิธีนี้คือไม่มีผู้ดูแล มีเพียงตัวเลขจริงหรือสัญญาณรางวัลเท่านั้น
  • การเรียนรู้แบบเสริมกำลังสองประเภทคือ 1) เชิงบวก 2) เชิงลบ
  • รูปแบบการเรียนรู้ที่ใช้กันอย่างแพร่หลาย 1 รูปแบบคือ 2) กระบวนการตัดสินใจของมาร์คอฟ XNUMX) การเรียนรู้แบบคิว
  • วิธีการเรียนรู้แบบเสริมกำลังทำงานเกี่ยวกับการโต้ตอบกับสิ่งแวดล้อม ในขณะที่ การเรียนรู้ภายใต้การดูแล วิธีการทำงานกับข้อมูลหรือตัวอย่างที่กำหนด
  • วิธีการเรียนรู้การประยุกต์ใช้หรือการเสริมกำลัง ได้แก่ วิทยาการหุ่นยนต์สำหรับระบบอัตโนมัติทางอุตสาหกรรมและการวางแผนกลยุทธ์ทางธุรกิจ
  • คุณไม่ควรใช้วิธีนี้เมื่อคุณมีข้อมูลเพียงพอที่จะแก้ไขปัญหา
  • ความท้าทายที่ใหญ่ที่สุดของวิธีนี้คือพารามิเตอร์อาจส่งผลต่อความเร็วในการเรียนรู้