Không mô hình (học tăng cường)

Trong học tăng cường (RL), một thuật toán không mô hình (trái ngược với một thuật toán dựa trên mô hình) là một thuật toán mà không sử dụng các phân bố xác suất chuyển tiếp (và các hàm phần thưởng) được gắn liền với quá trình quyết định Markov (MDP) ^[1],cái mà trong RL dùng để biểu diễn cho vấn đề cần giải quyết. Phân phối xác suất chuyển tiếp (hoặc mô hình chuyển tiếp) và hàm phần thưởng thường được gọi chung là "mô hình" của môi trường (hoặc MDP), do đó có tên "không mô hình". Một thuật toán RL không mô hình có thể được coi là một thuật toán thử và lỗi "rõ ràng" ^[1]. Một ví dụ về thuật toán không mô hình là Q-learning.

Tham khảo

^ ^a ^b Sutton, Richard S.; Barto, Andrew G. (ngày 13 tháng 11 năm 2018). Reinforcement Learning: An Introduction (PDF) . A Bradford Book. tr. 552. ISBN 0262039249. Truy cập ngày 18 tháng 2 năm 2019.

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

[sutton2018-1] Sutton, Richard S.; Barto, Andrew G. (ngày 13 tháng 11 năm 2018). Reinforcement Learning: An Introduction (PDF) . A Bradford Book. tr. 552. ISBN 0262039249. Truy cập ngày 18 tháng 2 năm 2019.

[1]