Takviyeli Öğrenme: Nedir, Algorithms, Türler ve Örnekler
Pekiştirmeli Öğrenme Nedir?
Takviye Öğrenme yazılım aracılarının bir ortamda nasıl eylemde bulunması gerektiğiyle ilgilenen bir Makine Öğrenimi yöntemi olarak tanımlanır. Takviyeli Öğrenme, kümülatif ödülün bir kısmını en üst düzeye çıkarmanıza yardımcı olan derin öğrenme yönteminin bir parçasıdır.
Bu sinir ağı öğrenme yöntemi, karmaşık bir hedefe nasıl ulaşılacağını veya belirli bir boyutun birçok adımda nasıl en üst düzeye çıkarılacağını öğrenmenize yardımcı olur.
Derin Güçlendirmeli Öğrenme Yönteminin Önemli Bileşenleri
Güçlendirme Yapay Zekasında kullanılan bazı önemli terimler şunlardır:
- Ajan: Bir ödül kazanmak için bir ortamda eylemler gerçekleştiren varsayılan bir varlıktır.
- Çevre (e): Bir temsilcinin yüzleşmesi gereken bir senaryo.
- Ödül (R): Bir temsilci belirli bir eylemi veya görevi gerçekleştirdiğinde ona anında verilen geri dönüş.
- Eyalet (ler): Durum, çevrenin döndürdüğü mevcut durumu ifade eder.
- Politika (π): Ajanın mevcut duruma göre bir sonraki eyleme karar vermek için uyguladığı bir stratejidir.
- Değer (V): Kısa vadeli ödülle karşılaştırıldığında, indirimle birlikte uzun vadeli getiri bekleniyor.
- Değer Fonksiyonu: Toplam ödül miktarı olan bir durumun değerini belirtir. Bu durumdan itibaren beklenmesi gereken bir ajandır.
- Ortam modeli: Bu çevrenin davranışını taklit eder. Yapılacak çıkarımları yapmanıza ve aynı zamanda ortamın nasıl davranacağını belirlemenize yardımcı olur.
- Model bazlı yöntemler: Takviyeli öğrenme problemlerini çözmek için model tabanlı yöntemler kullanan bir yöntemdir.
- Q değeri veya eylem değeri (Q): Q değeri değere oldukça benzer. İkisi arasındaki tek fark güncel eylem olarak ek bir parametre almasıdır.
Takviyeli Öğrenme nasıl çalışır?
Takviyeli öğrenme mekanizmasını göstermenize yardımcı olacak bazı basit örnekleri görelim.
Kedinize yeni numaralar öğretme senaryosunu düşünün
- Kedi İngilizceyi veya başka bir insan dilini anlamadığından ona ne yapması gerektiğini doğrudan söyleyemeyiz. Bunun yerine farklı bir strateji izliyoruz.
- Bir durumu taklit ediyoruz ve kedi birçok farklı şekilde yanıt vermeye çalışıyor. Eğer kedinin tepkisi istenilen yönde olursa ona balık vereceğiz.
- Artık kedi aynı duruma maruz kaldığında, daha fazla ödül (yiyecek) alma beklentisiyle benzer bir eylemi daha da büyük bir şevkle gerçekleştirir.
- Bu, kedinin "ne yapması gerektiğini" olumlu deneyimlerden öğrendiğini öğrenmek gibidir.
- Kedi aynı zamanda olumsuz deneyimlerle karşılaştığında ne yapmaması gerektiğini de öğrenir.
Takviyeli Öğrenme Örneği
Bu durumda,
- Kediniz çevreye maruz kalan bir ajandır. Bu durumda burası sizin eviniz. Bir durumun örneği, kedinizin oturması olabilir ve kedinin yürümesi için belirli bir kelime kullanırsınız.
- Temsilcimiz bir "durum"dan başka bir "duruma" eylem geçişi gerçekleştirerek tepki verir.
- Örneğin kediniz oturmaktan yürümeye geçiyor.
- Bir temsilcinin tepkisi bir eylemdir ve politika, daha iyi sonuçlar beklentisiyle belirli bir durum için bir eylemi seçme yöntemidir.
- Geçiş sonrasında karşılığında ödül ya da ceza alabilirler.
Takviye Öğrenme Algorithms
Takviyeli Öğrenme algoritmasını uygulamaya yönelik üç yaklaşım vardır.
Değer Bazlı
Değere dayalı Takviyeli Öğrenme yönteminde, bir değer fonksiyonunu en üst düzeye çıkarmaya çalışmalısınız. Vs). Bu yöntemde ajan, politika kapsamındaki mevcut durumların uzun vadede geri dönmesini beklemektedir. π.
Politika tabanlı
Politika tabanlı RL yönteminde öyle bir politika oluşturmaya çalışırsınız ki, her durumda gerçekleştirilen eylem gelecekte maksimum ödül kazanmanıza yardımcı olur.
İki tür politikaya dayalı yöntem şunlardır:
- Deterministik: Herhangi bir durum için aynı eylem π politikası tarafından üretilir.
- Stokastik: Her eylemin belirli bir olasılığı vardır ve bu olasılık aşağıdaki denklemle belirlenir. Stokastik Politikası:
n{a\s) = P\A, = a\S, =S]
Model Tabanlı
Bu Güçlendirmeli Öğrenme yönteminde her ortam için sanal bir model oluşturmanız gerekir. Temsilci bu spesifik ortamda performans göstermeyi öğrenir.
Takviyeli Öğrenmenin Özellikleri
Takviyeli öğrenmenin önemli özellikleri şunlardır:
- Yönetici yok, yalnızca gerçek sayı veya ödül sinyali var
- Sıralı karar verme
- Güçlendirme problemlerinde zaman çok önemli bir rol oynar
- Geri bildirim her zaman gecikmeli olur, anında olmaz
- Aracının eylemleri, alacağı sonraki verileri belirler
Takviyeli Öğrenme Türleri
İki tür takviyeli öğrenme yöntemi şunlardır:
Pozitif:
Belirli bir davranış nedeniyle ortaya çıkan bir olay olarak tanımlanır. Davranışın gücünü ve sıklığını arttırır ve temsilcinin yaptığı eylemi olumlu yönde etkiler.
Bu tür Takviye, performansı en üst düzeye çıkarmanıza ve değişimi daha uzun bir süre sürdürmenize yardımcı olur. Ancak çok fazla Güçlendirme, durumun aşırı optimizasyonuna yol açabilir ve bu da sonuçları etkileyebilir.
Negatif:
Olumsuz Pekiştirme, durdurulması veya kaçınılması gereken olumsuz bir durum nedeniyle ortaya çıkan davranışın güçlendirilmesi olarak tanımlanır. Minimum performans standardını tanımlamanıza yardımcı olur. Ancak bu yöntemin dezavantajı minimum davranışı karşılamaya yetecek kadar sağlamasıdır.
Güçlendirmenin Öğrenme Modelleri
Takviyeli öğrenmede iki önemli öğrenme modeli vardır:
- Markov Karar Süreci
- Q öğrenme
Markov Karar Süreci
Çözüm elde etmek için aşağıdaki parametreler kullanılır:
- Eylem kümesi-A
- Durum kümesi -S
- Ödül-R
- Politika- n
- Değer-V
Takviyeli Öğrenmede bir çözümün haritalandırılmasına yönelik matematiksel yaklaşım, Markov Karar Süreci veya (MDP) olarak yeniden yapılandırılır.
Q-Öğrenme
Q öğrenme, bir aracının hangi eylemi gerçekleştirmesi gerektiğini bildirmek için bilgi sağlamanın değer temelli bir yöntemidir.
Bu yöntemi aşağıdaki örnekle anlayalım:
- Bir binada birbirine kapılarla bağlanan beş oda bulunmaktadır.
- Her oda 0'dan 4'e kadar numaralandırılmıştır
- Binanın dışı büyük bir dış alan olabilir (5)
- 1 ve 4 numaralı kapılar 5 numaralı odadan binaya açılmaktadır.
Daha sonra, her kapıyla bir ödül değeri ilişkilendirmeniz gerekir:
- Doğrudan hedefe giden kapıların ödülü 100'dür.
- Hedef odaya doğrudan bağlantısı olmayan kapılar sıfır ödül verir
- Kapılar çift yönlü olduğundan ve her oda için iki ok atandığından
- Yukarıdaki görseldeki her ok, anlık bir ödül değeri içeriyor
Açıklama:
Bu resimde odanın bir durumu temsil ettiğini görebilirsiniz
Ajanın bir odadan diğerine hareketi bir eylemi temsil eder
Aşağıdaki görüntüde bir durum bir düğüm olarak tanımlanırken, oklar eylemi göstermektedir.
Örneğin, bir temsilci 2 numaralı odadan 5 numaralı odaya geçiyor
- Başlangıç durumu = durum 2
- Durum 2-> durum 3
- Durum 3 -> durum (2,1,4)
- Durum 4-> durum (0,5,3)
- Durum 1-> durum (5,3)
- Durum 0-> durum 4
Takviyeli Öğrenme ve Denetimli Öğrenme
parametreler | Takviye Öğrenme | Denetimli Öğrenme |
---|---|---|
Karar stili | Takviyeli öğrenme, kararlarınızı sırayla almanıza yardımcı olur. | Bu yöntemde başlangıçta verilen girdiye göre bir karar verilir. |
Eserleri | Çevreyle etkileşim üzerinde çalışır. | Örnekler veya verilen örnek veriler üzerinde çalışır. |
Karara bağlılık | RL yönteminde öğrenme kararı bağımlıdır. Bu nedenle bağımlı kararların tümüne etiket vermelisiniz. | Birbirinden bağımsız olan kararlar denetlenerek öğrenilir, böylece her karar için etiketler verilir. |
en uygun | İnsan etkileşiminin yaygın olduğu yapay zekayı destekler ve daha iyi çalışır. | Çoğunlukla etkileşimli bir yazılım sistemi veya uygulamalarıyla çalıştırılır. |
Örnek E-posta | Satranç oyunu | Nesne tanıma |
Takviyeli Öğrenme Uygulamaları
Takviyeli Öğrenmenin uygulamaları şunlardır:
- Endüstriyel otomasyon için robotik.
- İş stratejisi planlaması
- Makine öğrenme ve veri işleme
- Öğrencilerin gereksinimlerine göre özel öğretim ve materyaller sağlayan eğitim sistemleri oluşturmanıza yardımcı olur.
- Uçak kontrolü ve robot hareket kontrolü
Neden Takviyeli Öğrenmeyi kullanmalısınız?
Takviyeli Öğrenmeyi kullanmanın başlıca nedenleri şunlardır:
- Hangi durumun eyleme geçmesi gerektiğini bulmanıza yardımcı olur
- Hangi eylemin uzun süre boyunca en yüksek ödülü getirdiğini keşfetmenize yardımcı olur.
- Takviyeli Öğrenme ayrıca öğrenme aracısına bir ödül işlevi sağlar.
- Aynı zamanda büyük ödüller elde etmenin en iyi yöntemini bulmasına da olanak tanır.
Takviyeli Öğrenme Ne Zaman Kullanılmamalı?
Takviyeli öğrenme modelini uygulayamazsınız, tüm durum budur. Takviyeli öğrenme modelini kullanmamanız gereken bazı durumlar şunlardır.
- Sorunu denetimli öğrenme yöntemiyle çözmek için yeterli veriye sahip olduğunuzda
- Takviyeli Öğrenmenin hesaplama açısından yoğun ve zaman alıcı olduğunu hatırlamanız gerekir. özellikle eylem alanı büyük olduğunda.
Takviyeli Öğrenmenin Zorlukları
Takviye kazancı yaparken karşılaşacağınız başlıca zorluklar şunlardır:
- Çok dahil olması gereken özellik/ödül tasarımı
- Parametreler öğrenme hızını etkileyebilir.
- Gerçekçi ortamlar kısmi gözlemlenebilirliğe sahip olabilir.
- Çok fazla Güçlendirme durumların aşırı yüklenmesine neden olabilir ve bu da sonuçları azaltabilir.
- Gerçekçi ortamlar durağan olmayabilir.
ÖZET
- Takviyeli Öğrenme bir Makine Öğrenimi yöntemidir
- Hangi eylemin uzun süre boyunca en yüksek ödülü getirdiğini keşfetmenize yardımcı olur.
- Takviyeli öğrenmenin üç yöntemi şunlardır: 1) Değere dayalı 2) Politikaya dayalı ve Modele dayalı öğrenme.
- Aracı, Durum, Ödül, Çevre, Çevrenin Değer Fonksiyonu Modeli, Model tabanlı yöntemler, RL öğrenme yönteminde kullanılan bazı önemli terimlerdir.
- Takviyeli öğrenmeye örnek olarak kedinizin çevreye maruz kalan bir ajan olmasıdır.
- Bu yöntemin en büyük özelliği, bir yöneticinin olmaması, yalnızca gerçek sayı veya ödül sinyalinin olmasıdır.
- Takviyeli öğrenmenin iki türü vardır: 1) Olumlu 2) Olumsuz
- Yaygın olarak kullanılan iki öğrenme modeli şunlardır: 1) Markov Karar Süreci 2) Q öğrenme
- Takviyeli Öğrenme yöntemi çevreyle etkileşim üzerinde çalışır, oysa denetimli öğrenme yöntem verilen örnek veriler veya örnek üzerinde çalışır.
- Uygulama veya takviyeli öğrenme yöntemleri şunlardır: Endüstriyel otomasyon ve iş stratejisi planlaması için robotik
- Sorunu çözmek için yeterli veriye sahip olduğunuzda bu yöntemi kullanmamalısınız.
- Bu yöntemin en büyük zorluğu parametrelerin öğrenme hızını etkileyebilmesidir.