Pembelajaran Penguatan: Apa itu, Algorithms, Jenis & Contoh
Apa itu Pembelajaran Penguatan?
Pembelajaran Penguatan didefinisikan sebagai metode Pembelajaran Mesin yang berkaitan dengan bagaimana agen perangkat lunak harus mengambil tindakan dalam suatu lingkungan. Pembelajaran Penguatan adalah bagian dari metode pembelajaran mendalam yang membantu Anda memaksimalkan sebagian dari imbalan kumulatif.
Metode pembelajaran jaringan saraf ini membantu Anda mempelajari cara mencapai tujuan kompleks atau memaksimalkan dimensi tertentu melalui banyak langkah.
Komponen Penting Metode Pembelajaran Penguatan Mendalam
Berikut beberapa istilah penting yang digunakan dalam Reinforcement AI:
- Agen: Ini adalah entitas yang diasumsikan yang melakukan tindakan dalam suatu lingkungan untuk mendapatkan imbalan.
- Lingkungan (e): Skenario yang harus dihadapi seorang agen.
- Hadiah (kanan): Pengembalian langsung yang diberikan kepada agen ketika dia melakukan tindakan atau tugas tertentu.
- Negara bagian: Keadaan mengacu pada situasi saat ini yang dihasilkan oleh lingkungan.
- Kebijakan (π): Ini adalah strategi yang diterapkan oleh agen untuk memutuskan tindakan selanjutnya berdasarkan keadaan saat ini.
- Nilai (V): Pengembalian jangka panjang diharapkan dengan diskon, dibandingkan dengan imbalan jangka pendek.
- Fungsi Nilai: Ini menentukan nilai suatu negara yang merupakan jumlah total hadiah. Ini adalah agen yang diharapkan mulai dari keadaan itu.
- Model lingkungan: Hal ini meniru perilaku lingkungan. Ini membantu Anda membuat kesimpulan dan juga menentukan bagaimana lingkungan akan berperilaku.
- Metode berbasis model: Merupakan metode penyelesaian masalah pembelajaran penguatan yang menggunakan metode berbasis model.
- Nilai Q atau nilai tindakan (Q): Nilai Q sangat mirip dengan nilai. Satu-satunya perbedaan antara keduanya adalah dibutuhkan parameter tambahan sebagai tindakan saat ini.
Bagaimana Pembelajaran Penguatan bekerja?
Mari kita lihat beberapa contoh sederhana yang membantu Anda mengilustrasikan mekanisme pembelajaran penguatan.
Pertimbangkan skenario mengajarkan trik baru kepada kucing Anda
- Karena kucing tidak mengerti bahasa Inggris atau bahasa manusia lainnya, kita tidak bisa memberitahunya secara langsung apa yang harus dilakukan. Sebaliknya, kami mengikuti strategi yang berbeda.
- Kita meniru suatu situasi, dan kucing mencoba merespons dengan berbagai cara. Jika respon kucing sesuai keinginan, kami akan memberikan ikannya.
- Kini, setiap kali kucing dihadapkan pada situasi yang sama, kucing tersebut melakukan tindakan serupa dengan lebih antusias dengan harapan mendapat lebih banyak hadiah (makanan).
- Itu seperti belajar bahwa kucing mendapat “apa yang harus dilakukan” dari pengalaman positif.
- Pada saat yang sama, kucing juga belajar apa yang tidak boleh dilakukan saat menghadapi pengalaman negatif.
Contoh Pembelajaran Penguatan
Dalam hal ini,
- Kucing Anda adalah agen yang terpapar pada lingkungan. Dalam hal ini, itu adalah rumah Anda. Contoh keadaannya adalah kucing Anda sedang duduk, dan Anda menggunakan kata tertentu untuk kucing berjalan.
- Agen kami bereaksi dengan melakukan transisi tindakan dari satu “negara bagian” ke “negara bagian” lainnya.
- Misalnya, kucing Anda beralih dari duduk ke berjalan.
- Reaksi seorang agen adalah suatu tindakan, dan kebijakan adalah metode pemilihan tindakan yang diberikan suatu negara dengan harapan mendapatkan hasil yang lebih baik.
- Setelah transisi, mereka mungkin mendapatkan hadiah atau penalti sebagai imbalannya.
Pembelajaran Penguatan Algorithms
Ada tiga pendekatan untuk mengimplementasikan algoritma Reinforcement Learning.
Berbasis Nilai
Dalam metode Reinforcement Learning berbasis nilai, Anda harus mencoba memaksimalkan fungsi nilai V(s). Dalam metode ini, agen mengharapkan pengembalian jangka panjang dari kondisi saat ini berdasarkan kebijakan π.
Berbasis kebijakan
Dalam metode RL berbasis kebijakan, Anda mencoba membuat kebijakan sedemikian rupa sehingga tindakan yang dilakukan di setiap negara bagian membantu Anda mendapatkan imbalan maksimal di masa depan.
Dua jenis metode berbasis kebijakan adalah:
- Deterministik: Untuk negara bagian mana pun, tindakan yang sama dihasilkan oleh kebijakan π.
- Stokastik: Setiap tindakan memiliki probabilitas tertentu, yang ditentukan oleh persamaan berikut.Kebijakan Stokastik:
n{a\s) = P\A, = a\S, =S]
Berbasis Model
Dalam metode Reinforcement Learning ini, Anda perlu membuat model virtual untuk setiap lingkungan. Agen belajar untuk bekerja di lingkungan spesifik tersebut.
Karakteristik Pembelajaran Penguatan
Berikut adalah karakteristik penting dari pembelajaran penguatan
- Tidak ada supervisor, yang ada hanyalah angka nyata atau sinyal hadiah
- Pengambilan keputusan berurutan
- Waktu memainkan peran penting dalam masalah Penguatan
- Umpan balik selalu tertunda, tidak instan
- Tindakan agen menentukan data selanjutnya yang diterimanya
Jenis Pembelajaran Penguatan
Dua jenis metode pembelajaran penguatan adalah:
Positif:
Ini didefinisikan sebagai suatu peristiwa yang terjadi karena perilaku tertentu. Hal ini meningkatkan kekuatan dan frekuensi perilaku dan berdampak positif pada tindakan yang diambil oleh agen.
Jenis Penguatan ini membantu Anda memaksimalkan kinerja dan mempertahankan perubahan untuk jangka waktu yang lebih lama. Namun, terlalu banyak Penguatan dapat mengakibatkan optimalisasi status yang berlebihan, sehingga dapat memengaruhi hasil.
Negatif:
Penguatan Negatif diartikan sebagai penguatan perilaku yang terjadi karena suatu kondisi negatif yang seharusnya dihentikan atau dihindari. Ini membantu Anda menentukan standar kinerja minimum. Namun, kelemahan metode ini adalah metode ini menyediakan cukup banyak untuk memenuhi perilaku minimum.
Model Pembelajaran Penguatan
Ada dua model pembelajaran penting dalam pembelajaran penguatan:
- Proses Keputusan Markov
- pembelajaran Q
Proses Keputusan Markov
Parameter berikut digunakan untuk mendapatkan solusi:
- Serangkaian tindakan- A
- Himpunan negara bagian -S
- Hadiah- R
- Kebijakan- n
- Nilai- V
Pendekatan matematis untuk memetakan solusi dalam pembelajaran penguatan adalah pengintaian sebagai Markov Decision Process atau (MDP).
Q-Belajar
Pembelajaran Q adalah metode berbasis nilai dalam menyediakan informasi untuk menginformasikan tindakan mana yang harus diambil agen.
Mari kita pahami metode ini melalui contoh berikut:
- Terdapat lima ruangan dalam sebuah bangunan yang dihubungkan dengan pintu.
- Setiap ruangan diberi nomor 0 sampai 4
- Bagian luar bangunan bisa menjadi area luar yang besar (5)
- Pintu nomor 1 dan 4 mengarah ke gedung dari kamar 5
Selanjutnya, Anda perlu mengaitkan nilai hadiah ke setiap pintu:
- Pintu yang mengarah langsung ke tujuan mendapat hadiah 100
- Pintu yang tidak terhubung langsung ke ruangan target tidak memberikan imbalan apa pun
- Karena pintunya dua arah, dan dua anak panah ditugaskan untuk setiap ruangan
- Setiap panah pada gambar di atas mengandung nilai hadiah instan
Penjelasan:
Dalam gambar ini, Anda dapat melihat bahwa ruangan mewakili suatu negara bagian
Pergerakan agen dari satu ruangan ke ruangan lain mewakili suatu tindakan
Pada gambar di bawah, suatu keadaan digambarkan sebagai sebuah node, sedangkan panah menunjukkan tindakannya.
Misalnya seorang agen melintasi dari ruangan nomor 2 sampai 5
- Keadaan awal = keadaan 2
- Negara bagian 2-> negara bagian 3
- Negara bagian 3 -> negara bagian (2,1,4)
- Negara bagian 4-> negara bagian (0,5,3)
- Negara bagian 1-> negara bagian (5,3)
- Negara bagian 0-> negara bagian 4
Pembelajaran Penguatan vs. Pembelajaran yang Diawasi
Parameter Teknis | Pembelajaran Penguatan | Pembelajaran yang Diawasi |
---|---|---|
Gaya pengambilan keputusan | pembelajaran penguatan membantu Anda mengambil keputusan secara berurutan. | Dalam metode ini, keputusan dibuat berdasarkan masukan yang diberikan di awal. |
bekerja pada | Berfungsi berinteraksi dengan lingkungan. | Bekerja pada contoh atau data sampel yang diberikan. |
Ketergantungan pada keputusan | Dalam metode RL, keputusan belajar bergantung. Oleh karena itu, Anda harus memberi label pada semua keputusan yang bergantung. | Diawasi mempelajari keputusan-keputusan yang independen satu sama lain, sehingga label diberikan untuk setiap keputusan. |
Paling cocok | Mendukung dan bekerja lebih baik dalam AI, di mana interaksi manusia lazim terjadi. | Sebagian besar dioperasikan dengan sistem perangkat lunak atau aplikasi interaktif. |
Example | Permainan catur | Pengakuan objek |
Aplikasi Pembelajaran Penguatan
Berikut adalah aplikasi Reinforcement Learning :
- Robotika untuk otomasi industri.
- Perencanaan strategi bisnis
- Pembelajaran mesin dan pengolahan data
- Ini membantu Anda membuat sistem pelatihan yang menyediakan instruksi dan materi khusus sesuai dengan kebutuhan siswa.
- Kontrol pesawat dan kontrol gerak robot
Mengapa menggunakan Pembelajaran Penguatan?
Berikut adalah alasan utama untuk menggunakan Reinforcement Learning:
- Ini membantu Anda menemukan situasi mana yang memerlukan tindakan
- Membantu Anda menemukan tindakan mana yang menghasilkan imbalan tertinggi dalam jangka waktu yang lebih lama.
- Reinforcement Learning juga memberi agen pembelajaran fungsi penghargaan.
- Hal ini juga memungkinkannya untuk menemukan metode terbaik untuk mendapatkan hadiah besar.
Kapan Tidak Menggunakan Pembelajaran Penguatan?
Anda tidak dapat menerapkan model pembelajaran penguatan dalam semua situasi. Berikut beberapa kondisi sebaiknya tidak menggunakan model pembelajaran penguatan.
- Ketika Anda memiliki cukup data untuk menyelesaikan masalah dengan metode pembelajaran terawasi
- Anda harus ingat bahwa Reinforcement Learning membutuhkan banyak komputasi dan memakan waktu. khususnya ketika ruang tindakannya besar.
Tantangan Pembelajaran Penguatan
Berikut adalah tantangan utama yang akan Anda hadapi saat melakukan perolehan Reinforcement:
- Desain fitur/hadiah yang harus sangat terlibat
- Parameter dapat mempengaruhi kecepatan belajar.
- Lingkungan yang realistis dapat memiliki observasi parsial.
- Penguatan yang terlalu banyak dapat menyebabkan kelebihan negara bagian yang dapat mengurangi hasil.
- Lingkungan yang realistis bisa jadi tidak stasioner.
Ringkasan
- Pembelajaran Penguatan adalah metode Pembelajaran Mesin
- Membantu Anda menemukan tindakan mana yang menghasilkan imbalan tertinggi dalam jangka waktu yang lebih lama.
- Tiga metode pembelajaran penguatan adalah 1) Pembelajaran berbasis nilai 2) Pembelajaran berbasis kebijakan dan berbasis Model.
- Agen, Negara, Hadiah, Lingkungan, Fungsi Nilai Model lingkungan, Metode berbasis model, adalah beberapa istilah penting yang digunakan dalam metode pembelajaran RL
- Contoh pembelajaran penguatan adalah kucing Anda adalah agen yang terpapar pada lingkungan.
- Ciri terbesar dari metode ini adalah tidak ada pengawas, yang ada hanya angka nyata atau sinyal hadiah
- Dua jenis pembelajaran penguatan adalah 1) Positif 2) Negatif
- Dua model pembelajaran yang banyak digunakan adalah 1) Proses Keputusan Markov 2) Pembelajaran Q
- Metode Reinforcement Learning bekerja pada interaksi dengan lingkungan, sedangkan pembelajaran yang diawasi metode bekerja pada data sampel atau contoh yang diberikan.
- Metode penerapan atau penguatan pembelajaran adalah: Robotika untuk otomasi industri dan perencanaan strategi bisnis
- Anda sebaiknya tidak menggunakan metode ini ketika Anda memiliki cukup data untuk menyelesaikan masalah
- Tantangan terbesar dari metode ini adalah parameter dapat mempengaruhi kecepatan belajar