强化学习

强化学习 (Reinforcement Learning)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

算法

（1）通过价值选行为

Q Learning
Sarsa
Deep Q Network

（2）直接选行为

Police Gradients

（3）想象环境并从中学习

Model based RL

分类

分类一

不理解环境 Model-Free RL
理解环境 Model-Based RL

分类二

基于概率（Police-Based RL）
基于价值（Value-Based RL）

分类三

回合更新（Monte-Carlo update）
单步更新（Temporal-Difference update）

分类四

在线学习（On-Police）
离线学习（Off-Police）

博客内容用于记录自己学习后的收获，如有侵权请联系我删除

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/ptxiaochen/p/13602210.html