强化学习基本概念

在强化学习中,有这样几个概念:

  智能体(Agent):我们要操控的对象

  状态(State):当前智能体在环境中所处状态

  行为(Action):当前智能体在当前状态下要进行的下一个动作

  奖励(Reward):当智能体进行某一个操作时,对其该操作给出的评价

  策略(Policy):为达到目标(最大化奖励)所制定的一系列动作的组合

需要注意的是,强化学习和机器学习的不同之处在于,机器学习只需要将数据准备好就可以让机器开始学习了,而强化学习过程中是一边决策一边学习,并且每一个动作都能影响智能体将来的状态,需要通过一个标量的奖励信号来衡量成功,从而达到最大化未来奖励的目标。

强化学习的流程如图所示:

现假设经验experience是observations、actions、rewards的一个集合(o1,a1,r1,……,ot,at,rt),那么,state就可以表示为state = f(experience);

上图流程可理解为,一个智能体agent在执行完某个动作action之后,达到一个新的环境,并据此给出reward,从而形成新的状态state,agent再根据新的state进行下一个action,不断循环,达到学习的目的。

原文地址:https://www.cnblogs.com/zdm-code/p/13872321.html