Học tăng cường: là gì, Algorithms, Các loại và ví dụ

Học tăng cường là gì?

Học tăng cường được định nghĩa là một phương pháp Machine Learning liên quan đến cách các tác nhân phần mềm nên thực hiện các hành động trong một môi trường. Học tăng cường là một phần của phương pháp học sâu giúp bạn tối đa hóa một phần phần thưởng tích lũy.

Phương pháp học mạng nơ-ron này giúp bạn học cách đạt được mục tiêu phức tạp hoặc tối đa hóa một chiều cụ thể qua nhiều bước.

Các thành phần quan trọng của phương pháp học tăng cường sâu

Các thành phần quan trọng của cốt thép sâu

Dưới đây là một số thuật ngữ quan trọng được sử dụng trong AI cốt thép:

  • Đại lý: Nó là một thực thể giả định thực hiện các hành động trong môi trường để đạt được một số phần thưởng.
  • Môi trường (e): Một tình huống mà một đặc vụ phải đối mặt.
  • Phần thưởng (R): Khoản tiền hoàn lại ngay lập tức được trả cho người đại diện khi người đó thực hiện hành động hoặc nhiệm vụ cụ thể.
  • Những trạng thái): Trạng thái đề cập đến tình hình hiện tại được môi trường trả về.
  • Chính sách (π): Đó là một chiến lược được tác nhân áp dụng để quyết định hành động tiếp theo dựa trên trạng thái hiện tại.
  • Giá trị (V): Đó là lợi nhuận dài hạn dự kiến ​​có chiết khấu so với phần thưởng ngắn hạn.
  • Hàm giá trị: Nó chỉ định giá trị của trạng thái là tổng số tiền thưởng. Nó là một tác nhân cần được mong đợi bắt đầu từ trạng thái đó.
  • Mô hình môi trường: Điều này bắt chước hành vi của môi trường. Nó giúp bạn đưa ra những suy luận cần thiết và cũng xác định môi trường sẽ hoạt động như thế nào.
  • Phương pháp dựa trên mô hình: Đây là một phương pháp giải quyết các vấn đề học tăng cường sử dụng các phương pháp dựa trên mô hình.
  • Giá trị Q hoặc giá trị hành động (Q): Giá trị Q khá giống với giá trị. Sự khác biệt duy nhất giữa hai điều này là nó lấy một tham số bổ sung làm hành động hiện tại.

Học tăng cường hoạt động như thế nào?

Hãy xem một số ví dụ đơn giản giúp bạn minh họa cơ chế học tăng cường.

Hãy xem xét kịch bản dạy những thủ thuật mới cho con mèo của bạn

  • Vì mèo không hiểu tiếng Anh hoặc bất kỳ ngôn ngữ nào khác của con người nên chúng ta không thể trực tiếp bảo nó phải làm gì. Thay vào đó, chúng tôi theo đuổi một chiến lược khác.
  • Chúng ta mô phỏng một tình huống và con mèo cố gắng phản ứng theo nhiều cách khác nhau. Nếu phản ứng của mèo đúng như mong muốn, chúng tôi sẽ cho cô ấy con cá.
  • Bây giờ, bất cứ khi nào con mèo gặp phải tình huống tương tự, con mèo sẽ thực hiện một hành động tương tự với sự nhiệt tình hơn nữa với mong muốn nhận được nhiều phần thưởng (thức ăn).
  • Điều đó giống như việc học rằng con mèo nhận được “việc phải làm” từ những trải nghiệm tích cực.
  • Đồng thời, mèo cũng học được những điều không nên làm khi gặp phải trải nghiệm tiêu cực.

Ví dụ về học tăng cường

Ví dụ về học tăng cường
Học tăng cường hoạt động như thế nào

Trong trường hợp này,

  • Con mèo của bạn là một tác nhân tiếp xúc với môi trường. Trong trường hợp này, đó là ngôi nhà của bạn. Một ví dụ về trạng thái có thể là con mèo của bạn đang ngồi và bạn sử dụng một từ cụ thể để chỉ con mèo đi bộ.
  • Tác nhân của chúng tôi phản ứng bằng cách thực hiện chuyển đổi hành động từ “trạng thái” này sang “trạng thái” khác.
  • Ví dụ, con mèo của bạn chuyển từ ngồi sang đi.
  • Phản ứng của một tác nhân là một hành động và chính sách là một phương pháp lựa chọn hành động trong một trạng thái với kỳ vọng mang lại kết quả tốt hơn.
  • Sau khi chuyển đổi, họ có thể nhận được phần thưởng hoặc hình phạt.

Học tăng cường Algorithms

Có ba cách tiếp cận để triển khai thuật toán Học tăng cường.

Dựa trên giá trị

Trong phương pháp Học tăng cường dựa trên giá trị, bạn nên cố gắng tối đa hóa hàm giá trị (Các) V. Trong phương pháp này, tác nhân mong đợi lợi nhuận dài hạn của trạng thái hiện tại theo chính sách π.

Dựa trên chính sách

Trong phương pháp RL dựa trên chính sách, bạn cố gắng đưa ra một chính sách sao cho hành động được thực hiện ở mọi trạng thái sẽ giúp bạn đạt được phần thưởng tối đa trong tương lai.

Hai loại phương pháp dựa trên chính sách là:

  • Có tính xác định: Đối với bất kỳ trạng thái nào, hành động tương tự được tạo ra bởi chính sách π.
  • Ngẫu nhiên: Mỗi hành động đều có một xác suất nhất định, được xác định theo phương trình sau. Chính sách ngẫu nhiên:
    n{a\s) = P\A, = a\S, =S]

Dựa trên mô hình

Trong phương pháp Học tăng cường này, bạn cần tạo mô hình ảo cho từng môi trường. Tác nhân học cách thực hiện trong môi trường cụ thể đó.

Đặc điểm của học tăng cường

Dưới đây là những đặc điểm quan trọng của học tăng cường

  • Không có người giám sát, chỉ có số thực hoặc tín hiệu khen thưởng
  • Ra quyết định tuần tự
  • Thời gian đóng vai trò quan trọng trong bài toán Cốt thép
  • Phản hồi luôn bị chậm trễ, không phải ngay lập tức
  • Hành động của tác nhân xác định dữ liệu tiếp theo mà nó nhận được

Các loại hình học tăng cường

Hai loại phương pháp học tăng cường là:

Tích cực:

Nó được định nghĩa là một sự kiện xảy ra do hành vi cụ thể. Nó làm tăng sức mạnh và tần suất của hành vi và tác động tích cực đến hành động của tác nhân.

Loại Củng cố này giúp bạn tối đa hóa hiệu suất và duy trì sự thay đổi trong thời gian dài hơn. Tuy nhiên, quá nhiều Gia cố có thể dẫn đến việc tối ưu hóa trạng thái quá mức, điều này có thể ảnh hưởng đến kết quả.

Tiêu cực:

Củng cố tiêu cực được định nghĩa là việc củng cố hành vi xảy ra do một điều kiện tiêu cực đáng lẽ phải dừng hoặc tránh. Nó giúp bạn xác định mức hiệu suất tối thiểu. Tuy nhiên, nhược điểm của phương pháp này là nó cung cấp đủ để đáp ứng các hành vi tối thiểu.

Mô hình học tập củng cố

Có hai mô hình học tập quan trọng trong học tập tăng cường:

  • Quy trình quyết định Markov
  • Q học

Quy trình quyết định Markov

Các thông số sau đây được sử dụng để có được giải pháp:

  • Tập hợp các hành động- A
  • Tập hợp các trạng thái -S
  • Phần thưởng-R
  • Chính sách- n
  • Giá trị- V

Phương pháp toán học để lập bản đồ giải pháp trong Học tăng cường được điều chỉnh lại dưới dạng Quy trình Quyết định Markov hoặc (MDP).

Quy trình quyết định Markov

Q-Học

Q learning là một phương pháp cung cấp thông tin dựa trên giá trị để thông báo hành động nào mà tác nhân nên thực hiện.

Chúng ta hãy hiểu phương pháp này qua ví dụ sau:

  • Có năm phòng trong một tòa nhà được nối với nhau bằng cửa.
  • Mỗi phòng được đánh số từ 0 đến 4
  • Bên ngoài tòa nhà có thể là một khu vực bên ngoài lớn (5)
  • Cửa số 1 và 4 dẫn vào tòa nhà từ phòng 5

Q-Học

Tiếp theo, bạn cần liên kết giá trị phần thưởng cho mỗi cửa:

  • Cửa dẫn thẳng đến mục tiêu có phần thưởng 100
  • Cửa không kết nối trực tiếp với phòng mục tiêu sẽ không nhận được phần thưởng
  • Vì cửa là hai chiều và có hai mũi tên được chỉ định cho mỗi phòng
  • Mỗi mũi tên trong hình trên đều chứa giá trị phần thưởng tức thì

Giải thích:

Trong hình ảnh này, bạn có thể thấy căn phòng đó đại diện cho một trạng thái

Sự di chuyển của Agent từ phòng này sang phòng khác tượng trưng cho một hành động

Trong hình ảnh bên dưới, trạng thái được mô tả dưới dạng nút, trong khi các mũi tên hiển thị hành động.

Q-Học

Ví dụ: một đại lý đi từ phòng số 2 đến phòng 5

  • Trạng thái ban đầu = trạng thái 2
  • Trạng thái 2-> trạng thái 3
  • Trạng thái 3 -> trạng thái (2,1,4)
  • Trạng thái 4-> trạng thái (0,5,3)
  • Trạng thái 1-> trạng thái (5,3)
  • Trạng thái 0-> trạng thái 4

Học tăng cường so với học có giám sát

Thông số Học tăng cường Học tập có giám sát
Phong cách quyết định học tăng cường giúp bạn đưa ra quyết định một cách tuần tự. Trong phương pháp này, quyết định được đưa ra dựa trên đầu vào được đưa ra ngay từ đầu.
Hoạt động trên Hoạt động dựa trên sự tương tác với môi trường. Hoạt động trên các ví dụ hoặc dữ liệu mẫu đã cho.
Sự phụ thuộc vào quyết định Trong phương pháp RL, quyết định học tập là phụ thuộc. Vì vậy, bạn nên dán nhãn cho tất cả các quyết định phụ thuộc. Học có giám sát các quyết định độc lập với nhau, do đó các nhãn được đưa ra cho mọi quyết định.
Phu hợp nhât Hỗ trợ và hoạt động tốt hơn trong AI, nơi phổ biến sự tương tác của con người. Nó chủ yếu được vận hành với một hệ thống phần mềm hoặc ứng dụng tương tác.
Ví dụ Trò chơi cờ vua Nhận dạng đối tượng

Các ứng dụng của học tăng cường

Dưới đây là các ứng dụng của Học tăng cường:

  • Robotics cho tự động hóa công nghiệp.
  • Lập kế hoạch chiến lược kinh doanh
  • học máy và xử lý dữ liệu
  • Nó giúp bạn tạo ra các hệ thống đào tạo cung cấp hướng dẫn và tài liệu tùy chỉnh theo yêu cầu của học viên.
  • Điều khiển máy bay và điều khiển chuyển động robot

Tại sao nên sử dụng Học tăng cường?

Dưới đây là những lý do chính để sử dụng Học tăng cường:

  • Nó giúp bạn tìm ra tình huống nào cần hành động
  • Giúp bạn khám phá hành động nào mang lại phần thưởng cao nhất trong thời gian dài hơn.
  • Học tăng cường cũng cung cấp cho tác nhân học một chức năng khen thưởng.
  • Nó cũng cho phép nó tìm ra phương pháp tốt nhất để nhận được phần thưởng lớn.

Khi nào không nên sử dụng Học tăng cường?

Bạn không thể áp dụng mô hình học tăng cường trong mọi tình huống. Dưới đây là một số điều kiện bạn không nên sử dụng mô hình học tăng cường.

  • Khi bạn có đủ dữ liệu để giải quyết vấn đề bằng phương pháp học có giám sát
  • Bạn cần nhớ rằng Học tăng cường nặng về tính toán và tốn thời gian. đặc biệt khi không gian hành động lớn.

Những thách thức của việc học tăng cường

Dưới đây là những thách thức lớn mà bạn sẽ phải đối mặt khi thực hiện kiếm tiền Tăng cường:

  • Thiết kế tính năng/phần thưởng cần được tham gia nhiều
  • Các thông số có thể ảnh hưởng đến tốc độ học tập.
  • Môi trường thực tế có thể có khả năng quan sát một phần.
  • Quá nhiều Tăng cường có thể dẫn đến tình trạng quá tải và có thể làm giảm kết quả.
  • Môi trường thực tế có thể không cố định.

Tổng kết

  • Học tăng cường là một phương pháp Học máy
  • Giúp bạn khám phá hành động nào mang lại phần thưởng cao nhất trong thời gian dài hơn.
  • Ba phương pháp học tăng cường là 1) Dựa trên giá trị 2) Học tập dựa trên chính sách và dựa trên mô hình.
  • Tác nhân, Nhà nước, Phần thưởng, Môi trường, Chức năng giá trị Mô hình môi trường, Phương pháp dựa trên mô hình là một số thuật ngữ quan trọng được sử dụng trong phương pháp học RL
  • Ví dụ về học tăng cường là con mèo của bạn là một tác nhân tiếp xúc với môi trường.
  • Đặc điểm lớn nhất của phương pháp này là không có người giám sát, chỉ có số thực hoặc tín hiệu thưởng
  • Hai loại học tăng cường là 1) Tích cực 2) Tiêu cực
  • Hai mô hình học tập được sử dụng rộng rãi là 1) Quá trình ra quyết định Markov 2) Học tập Q
  • Phương pháp Học tăng cường hoạt động dựa trên sự tương tác với môi trường, trong khi học có giám sát phương pháp hoạt động trên dữ liệu mẫu hoặc ví dụ nhất định.
  • Các phương pháp học ứng dụng hoặc củng cố là: Robot cho tự động hóa công nghiệp và hoạch định chiến lược kinh doanh
  • Bạn không nên sử dụng phương pháp này khi đã có đủ dữ liệu để giải quyết vấn đề
  • Thách thức lớn nhất của phương pháp này là các thông số có thể ảnh hưởng đến tốc độ học