强化学习基本概念

在强化学习中，有这样几个概念：

　　智能体（Agent）:我们要操控的对象

　　状态（State）:当前智能体在环境中所处状态

　　行为（Action）:当前智能体在当前状态下要进行的下一个动作

　　奖励（Reward）:当智能体进行某一个操作时，对其该操作给出的评价

　　策略（Policy）:为达到目标（最大化奖励）所制定的一系列动作的组合

需要注意的是，强化学习和机器学习的不同之处在于，机器学习只需要将数据准备好就可以让机器开始学习了，而强化学习过程中是一边决策一边学习，并且每一个动作都能影响智能体将来的状态，需要通过一个标量的奖励信号来衡量成功，从而达到最大化未来奖励的目标。

强化学习的流程如图所示：

现假设经验experience是observations、actions、rewards的一个集合（o1,a1,r1,……,ot,at,rt），那么，state就可以表示为state = f(experience);

上图流程可理解为，一个智能体agent在执行完某个动作action之后，达到一个新的环境，并据此给出reward，从而形成新的状态state，agent再根据新的state进行下一个action，不断循环，达到学习的目的。