Ενισχυτική μάθηση: Τι είναι, Algorithms, Τύποι & Παραδείγματα
Τι είναι η Ενισχυτική Μάθηση;
Μάθηση Ενίσχυσης ορίζεται ως μέθοδος Μηχανικής Μάθησης που ασχολείται με τον τρόπο με τον οποίο οι πράκτορες λογισμικού πρέπει να αναλαμβάνουν ενέργειες σε ένα περιβάλλον. Η Ενισχυτική Μάθηση είναι μέρος της μεθόδου βαθιάς μάθησης που σας βοηθά να μεγιστοποιήσετε κάποιο μέρος της αθροιστικής ανταμοιβής.
Αυτή η μέθοδος εκμάθησης νευρωνικών δικτύων σάς βοηθά να μάθετε πώς να επιτύχετε έναν σύνθετο στόχο ή να μεγιστοποιήσετε μια συγκεκριμένη διάσταση σε πολλά βήματα.
Σημαντικά στοιχεία της μεθόδου μάθησης βαθιάς ενίσχυσης
Ακολουθούν ορισμένοι σημαντικοί όροι που χρησιμοποιούνται στο Reinforcement AI:
- Μέσο: Είναι μια υποθετική οντότητα που εκτελεί ενέργειες σε ένα περιβάλλον για να κερδίσει κάποια ανταμοιβή.
- Περιβάλλον (ε): Ένα σενάριο που πρέπει να αντιμετωπίσει ένας πράκτορας.
- Ανταμοιβή (R): Μια άμεση επιστροφή που δίνεται σε έναν πράκτορα όταν αυτός ή αυτή εκτελεί συγκεκριμένη ενέργεια ή εργασία.
- Πολιτεία (ες): Το κράτος αναφέρεται στην τρέχουσα κατάσταση που επιστρέφει το περιβάλλον.
- Πολιτική (π): Είναι μια στρατηγική που εφαρμόζεται από τον πράκτορα για να αποφασίσει την επόμενη ενέργεια με βάση την τρέχουσα κατάσταση.
- Τιμή (V): Αναμένεται μακροπρόθεσμη απόδοση με έκπτωση, σε σύγκριση με τη βραχυπρόθεσμη ανταμοιβή.
- Συνάρτηση τιμής: Καθορίζει την αξία μιας κατάστασης που είναι το συνολικό ποσό της ανταμοιβής. Είναι ένας παράγοντας που θα πρέπει να αναμένεται ξεκινώντας από αυτή την κατάσταση.
- Μοντέλο περιβάλλοντος: Αυτό μιμείται τη συμπεριφορά του περιβάλλοντος. Σας βοηθά να βγάλετε συμπεράσματα και επίσης να καθορίσετε πώς θα συμπεριφέρεται το περιβάλλον.
- Μέθοδοι βάσει μοντέλου: Είναι μια μέθοδος για την επίλυση προβλημάτων ενίσχυσης μάθησης που χρησιμοποιούν μεθόδους που βασίζονται σε μοντέλα.
- Τιμή Q ή τιμή ενέργειας (Q): Η τιμή Q είναι αρκετά παρόμοια με την τιμή. Η μόνη διαφορά μεταξύ των δύο είναι ότι παίρνει μια πρόσθετη παράμετρο ως τρέχουσα ενέργεια.
Πώς λειτουργεί η Ενισχυτική Μάθηση;
Ας δούμε ένα απλό παράδειγμα που σας βοηθά να επεξηγήσετε τον μηχανισμό ενισχυτικής μάθησης.
Σκεφτείτε το σενάριο να διδάξετε νέα κόλπα στη γάτα σας
- Καθώς η γάτα δεν καταλαβαίνει αγγλικά ή οποιαδήποτε άλλη ανθρώπινη γλώσσα, δεν μπορούμε να της πούμε απευθείας τι να κάνει. Αντίθετα, ακολουθούμε μια διαφορετική στρατηγική.
- Μιμούμε μια κατάσταση και η γάτα προσπαθεί να ανταποκριθεί με πολλούς διαφορετικούς τρόπους. Εάν η απάντηση της γάτας είναι η επιθυμητή, θα της δώσουμε ψάρι.
- Τώρα, κάθε φορά που η γάτα εκτίθεται στην ίδια κατάσταση, η γάτα εκτελεί μια παρόμοια ενέργεια με ακόμη πιο ενθουσιασμό προσδοκώντας να πάρει περισσότερη ανταμοιβή (τροφή).
- Αυτό είναι σαν να μαθαίνεις ότι η γάτα παίρνει από το «τι να κάνει» από θετικές εμπειρίες.
- Ταυτόχρονα, η γάτα μαθαίνει επίσης τι δεν πρέπει να κάνει όταν αντιμετωπίζει αρνητικές εμπειρίες.
Παράδειγμα Ενισχυτικής Μάθησης
Στην περίπτωση αυτή,
- Η γάτα σας είναι ένας παράγοντας που εκτίθεται στο περιβάλλον. Σε αυτή την περίπτωση, είναι το σπίτι σας. Ένα παράδειγμα κατάστασης θα μπορούσε να είναι η γάτα σας να κάθεται και να χρησιμοποιείτε μια συγκεκριμένη λέξη για να περπατάει η γάτα.
- Ο αντιπρόσωπός μας αντιδρά εκτελώντας μια μετάβαση ενέργειας από μια "κατάσταση" σε μια άλλη "κατάσταση".
- Για παράδειγμα, η γάτα σας πηγαίνει από το να κάθεται στο περπάτημα.
- Η αντίδραση ενός πράκτορα είναι μια ενέργεια και η πολιτική είναι μια μέθοδος επιλογής μιας ενέργειας δεδομένης μιας κατάστασης με προσδοκία καλύτερων αποτελεσμάτων.
- Μετά τη μετάβαση, μπορεί να λάβουν ανταμοιβή ή ποινή σε αντάλλαγμα.
Μάθηση Ενίσχυσης Algorithms
Υπάρχουν τρεις προσεγγίσεις για την εφαρμογή ενός αλγόριθμου Ενισχυτικής Μάθησης.
Βάσει αξίας
Σε μια μέθοδο Reinforcement Learning που βασίζεται σε τιμές, θα πρέπει να προσπαθήσετε να μεγιστοποιήσετε μια συνάρτηση τιμής V(α). Σε αυτή τη μέθοδο, ο πράκτορας αναμένει μια μακροπρόθεσμη επιστροφή των τρεχουσών καταστάσεων υπό πολιτική π.
Με βάση την πολιτική
Σε μια μέθοδο RL που βασίζεται σε πολιτικές, προσπαθείτε να δημιουργήσετε μια τέτοια πολιτική ώστε η ενέργεια που εκτελείται σε κάθε κατάσταση να σας βοηθά να κερδίσετε τη μέγιστη ανταμοιβή στο μέλλον.
Δύο τύποι μεθόδων που βασίζονται σε πολιτικές είναι:
- Ντετερμινιστικό: Για κάθε κράτος, η ίδια ενέργεια παράγεται από την πολιτική π.
- Στοχαστική: Κάθε ενέργεια έχει μια ορισμένη πιθανότητα, η οποία καθορίζεται από την ακόλουθη εξίσωση. Στοχαστική πολιτική :
n{a\s) = P\A, = a\S, =S]
Με βάση το μοντέλο
Σε αυτήν τη μέθοδο Reinforcement Learning, πρέπει να δημιουργήσετε ένα εικονικό μοντέλο για κάθε περιβάλλον. Ο πράκτορας μαθαίνει να αποδίδει σε αυτό το συγκεκριμένο περιβάλλον.
Χαρακτηριστικά της Ενισχυτικής Μάθησης
Ακολουθούν σημαντικά χαρακτηριστικά της ενισχυτικής μάθησης
- Δεν υπάρχει επόπτης, μόνο πραγματικός αριθμός ή σήμα ανταμοιβής
- Διαδοχική λήψη αποφάσεων
- Ο χρόνος παίζει καθοριστικό ρόλο στα προβλήματα Ενίσχυσης
- Η ανατροφοδότηση είναι πάντα καθυστερημένη, όχι στιγμιαία
- Οι ενέργειες του πράκτορα καθορίζουν τα επόμενα δεδομένα που λαμβάνει
Τύποι Ενισχυτικής Μάθησης
Δύο τύποι μεθόδων ενισχυτικής μάθησης είναι:
Θετικός:
Ορίζεται ως ένα γεγονός, που συμβαίνει λόγω συγκεκριμένης συμπεριφοράς. Αυξάνει τη δύναμη και τη συχνότητα της συμπεριφοράς και επηρεάζει θετικά τη δράση που αναλαμβάνει ο πράκτορας.
Αυτός ο τύπος Ενίσχυσης σάς βοηθά να μεγιστοποιήσετε την απόδοση και να διατηρήσετε την αλλαγή για μεγαλύτερο χρονικό διάστημα. Ωστόσο, η υπερβολική ενίσχυση μπορεί να οδηγήσει σε υπερβολική βελτιστοποίηση της κατάστασης, η οποία μπορεί να επηρεάσει τα αποτελέσματα.
Αρνητικός:
Η Αρνητική Ενίσχυση ορίζεται ως η ενίσχυση της συμπεριφοράς που εμφανίζεται λόγω μιας αρνητικής κατάστασης που θα έπρεπε να είχε σταματήσει ή να αποφευχθεί. Σας βοηθά να ορίσετε την ελάχιστη βάση απόδοσης. Ωστόσο, το μειονέκτημα αυτής της μεθόδου είναι ότι παρέχει αρκετά για να καλύψει την ελάχιστη συμπεριφορά.
Μαθησιακά Μοντέλα Ενίσχυσης
Υπάρχουν δύο σημαντικά μοντέλα μάθησης στην ενισχυτική μάθηση:
- Διαδικασία απόφασης Markov
- Q εκμάθηση
Διαδικασία απόφασης Markov
Οι ακόλουθες παράμετροι χρησιμοποιούνται για τη λήψη μιας λύσης:
- Σύνολο ενεργειών - Α
- Σύνολο καταστάσεων -S
- Επιβράβευση - R
- Πολιτική- ν
- Αξία- V
Η μαθηματική προσέγγιση για τη χαρτογράφηση μιας λύσης στην ενισχυτική μάθηση επαναπροσδιορίζεται ως διαδικασία απόφασης Markov ή (MDP).
Q-Εκμάθηση
Η μάθηση Q είναι μια μέθοδος που βασίζεται στην αξία για την παροχή πληροφοριών για την ενημέρωση της δράσης που πρέπει να κάνει ένας πράκτορας.
Ας κατανοήσουμε αυτή τη μέθοδο με το ακόλουθο παράδειγμα:
- Υπάρχουν πέντε δωμάτια σε ένα κτίριο που συνδέονται με πόρτες.
- Κάθε δωμάτιο αριθμείται από 0 έως 4
- Το εξωτερικό του κτιρίου μπορεί να είναι ένας μεγάλος εξωτερικός χώρος (5)
- Οι πόρτες 1 και 4 οδηγούν στο κτίριο από το δωμάτιο 5
Στη συνέχεια, πρέπει να συσχετίσετε μια τιμή ανταμοιβής σε κάθε πόρτα:
- Οι πόρτες που οδηγούν απευθείας στον στόχο έχουν ανταμοιβή 100
- Οι πόρτες που δεν συνδέονται απευθείας με το δωμάτιο-στόχο δίνουν μηδενική ανταμοιβή
- Καθώς οι πόρτες είναι αμφίδρομες και εκχωρούνται δύο βέλη για κάθε δωμάτιο
- Κάθε βέλος στην παραπάνω εικόνα περιέχει μια τιμή άμεσης ανταμοιβής
Επεξήγηση:
Σε αυτήν την εικόνα, μπορείτε να δείτε ότι το δωμάτιο αντιπροσωπεύει μια κατάσταση
Η κίνηση του πράκτορα από το ένα δωμάτιο στο άλλο αντιπροσωπεύει μια ενέργεια
Στην παρακάτω εικόνα, μια κατάσταση περιγράφεται ως κόμβος, ενώ τα βέλη δείχνουν την ενέργεια.
Για παράδειγμα, ένας πράκτορας περνάει από το δωμάτιο νούμερο 2 στο 5
- Αρχική κατάσταση = κατάσταση 2
- Κατάσταση 2-> κατάσταση 3
- Κατάσταση 3 -> κατάσταση (2,1,4)
- Κατάσταση 4-> κατάσταση (0,5,3)
- Κατάσταση 1-> κατάσταση (5,3)
- Κατάσταση 0-> κατάσταση 4
Ενισχυτική μάθηση έναντι εποπτευόμενης μάθησης
παράμετροι | Μάθηση Ενίσχυσης | Εποπτευόμενη μάθηση |
---|---|---|
Στυλ απόφασης | Η ενισχυτική μάθηση σάς βοηθά να παίρνετε τις αποφάσεις σας διαδοχικά. | Σε αυτή τη μέθοδο, λαμβάνεται μια απόφαση σχετικά με την είσοδο που δίνεται στην αρχή. |
Λειτουργεί | Εργάζεται στην αλληλεπίδραση με το περιβάλλον. | Λειτουργεί σε παραδείγματα ή δεδομένα δείγματος. |
Εξάρτηση από την απόφαση | Στη μέθοδο RL η απόφαση μάθησης εξαρτάται. Επομένως, θα πρέπει να δίνετε ετικέτες σε όλες τις εξαρτημένες αποφάσεις. | Εποπτευόμενη εκμάθηση των αποφάσεων που είναι ανεξάρτητες μεταξύ τους, έτσι δίνονται ετικέτες για κάθε απόφαση. |
καλυτερα suited | Υποστηρίζει και λειτουργεί καλύτερα στην τεχνητή νοημοσύνη, όπου κυριαρχεί η ανθρώπινη αλληλεπίδραση. | Λειτουργεί κυρίως με ένα διαδραστικό σύστημα λογισμικού ή εφαρμογές. |
Παράδειγμα | Παιχνίδι σκακιού | Αναγνώριση αντικειμένων |
Εφαρμογές Ενισχυτικής Μάθησης
Ακολουθούν οι εφαρμογές της Ενισχυτικής Μάθησης:
- Ρομποτική για βιομηχανικούς αυτοματισμούς.
- Σχεδιασμός επιχειρηματικής στρατηγικής
- Εκμάθηση μηχανών και επεξεργασία δεδομένων
- Σας βοηθά να δημιουργήσετε συστήματα εκπαίδευσης που παρέχουν προσαρμοσμένες οδηγίες και υλικά σύμφωνα με τις απαιτήσεις των μαθητών.
- Έλεγχος αεροσκαφών και έλεγχος κίνησης ρομπότ
Γιατί να χρησιμοποιήσετε την Ενισχυτική Μάθηση;
Ακολουθούν οι κύριοι λόγοι για τη χρήση της Ενισχυτικής Μάθησης:
- Σας βοηθά να βρείτε ποια κατάσταση χρειάζεται δράση
- Σας βοηθά να ανακαλύψετε ποια ενέργεια αποφέρει την υψηλότερη ανταμοιβή για μεγαλύτερο χρονικό διάστημα.
- Το Reinforcement Learning παρέχει επίσης στον εκπαιδευτικό παράγοντα μια λειτουργία ανταμοιβής.
- Του επιτρέπει επίσης να βρει την καλύτερη μέθοδο για την απόκτηση μεγάλων ανταμοιβών.
Πότε να μην χρησιμοποιείτε την Ενισχυτική Μάθηση;
Δεν μπορείτε να εφαρμόσετε το μοντέλο ενίσχυσης μάθησης είναι όλη η κατάσταση. Ακολουθούν ορισμένες προϋποθέσεις κατά τις οποίες δεν πρέπει να χρησιμοποιείτε το μοντέλο ενισχυτικής μάθησης.
- Όταν έχετε αρκετά δεδομένα για να λύσετε το πρόβλημα με μια εποπτευόμενη μέθοδο εκμάθησης
- Πρέπει να θυμάστε ότι η Ενισχυτική Μάθηση είναι βαριά υπολογιστική και χρονοβόρα. ιδιαίτερα όταν ο χώρος δράσης είναι μεγάλος.
Προκλήσεις της Ενισχυτικής Μάθησης
Ακολουθούν οι κύριες προκλήσεις που θα αντιμετωπίσετε ενώ κάνετε Reinforcement κέρδη:
- Σχεδιασμός χαρακτηριστικών/ανταμοιβής που θα πρέπει να εμπλέκεται πολύ
- Οι παράμετροι μπορεί να επηρεάσουν την ταχύτητα εκμάθησης.
- Τα ρεαλιστικά περιβάλλοντα μπορούν να έχουν μερική παρατηρησιμότητα.
- Η υπερβολική ενίσχυση μπορεί να οδηγήσει σε υπερφόρτωση καταστάσεων που μπορεί να μειώσει τα αποτελέσματα.
- Τα ρεαλιστικά περιβάλλοντα μπορεί να είναι μη ακίνητα.
Σύνοψη
- Η Ενισχυτική Μάθηση είναι μια μέθοδος Μηχανικής Μάθησης
- Σας βοηθά να ανακαλύψετε ποια ενέργεια αποφέρει την υψηλότερη ανταμοιβή για μεγαλύτερο χρονικό διάστημα.
- Τρεις μέθοδοι για ενισχυτική μάθηση είναι 1) Βασισμένη στην αξία 2) Εκμάθηση βάσει πολιτικής και μάθηση βάσει μοντέλου.
- Πράκτορας, Κατάσταση, Ανταμοιβή, Περιβάλλον, Συνάρτηση Αξίας Μοντέλο περιβάλλοντος, Μέθοδοι που βασίζονται σε μοντέλα, είναι μερικοί σημαντικοί όροι που χρησιμοποιούνται στη μέθοδο εκμάθησης RL
- Το παράδειγμα της ενισχυτικής μάθησης είναι ότι η γάτα σας είναι ένας παράγοντας που εκτίθεται στο περιβάλλον.
- Το μεγαλύτερο χαρακτηριστικό αυτής της μεθόδου είναι ότι δεν υπάρχει επόπτης, παρά μόνο πραγματικός αριθμός ή σήμα ανταμοιβής
- Δύο τύποι ενισχυτικής μάθησης είναι 1) Θετικός 2) Αρνητικός
- Δύο ευρέως χρησιμοποιούμενα μοντέλα μάθησης είναι 1) Διαδικασία απόφασης Markov 2) μάθηση Q
- Η μέθοδος Reinforcement Learning λειτουργεί στην αλληλεπίδραση με το περιβάλλον, ενώ η εποπτευόμενη μάθηση Η μέθοδος λειτουργεί σε δεδομένα δείγματος ή παραδείγματος.
- Οι μέθοδοι μάθησης εφαρμογής ή ενίσχυσης είναι: Ρομποτική για βιομηχανικούς αυτοματισμούς και σχεδιασμό επιχειρηματικής στρατηγικής
- Δεν πρέπει να χρησιμοποιείτε αυτήν τη μέθοδο όταν έχετε αρκετά δεδομένα για να λύσετε το πρόβλημα
- Η μεγαλύτερη πρόκληση αυτής της μεθόδου είναι ότι οι παράμετροι μπορεί να επηρεάσουν την ταχύτητα μάθησης