强化学习（1）----简

强化学习（1）----简

1、介绍：强化学习是什么？

假定一个智能体（agent），在一个未知的环境（environment）中处于当前状态（state），采取了一个行动（action），然后收获了一个回报（reward），并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

解决实际问题：明天去打球还是学习？（分类问题）

如果打球（惩罚 -1），如果学习（奖励 +1）。

2、强化学习方法汇总：

3、强化学习包含：

智能体（agent）
状态（state）
行为（action）
奖励（reward）
策略（policy）

4、马尔科夫链（MDP）：

5、强化学习：

当前价值Q = r【当前奖励】+γ【折扣因子】*max(下一步价值)

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/Lee-yl/p/9649247.html