强化学习实战(四):Sarsa and Q-learning

下面显示的插图是标准的网格世界,具有开始状态和目标状态,但有一个区别:在网格的中间向上有一个侧风。 这些动作是标准的四个动作-上,下,右和左-但在中间区域,结果产生的下一个状态通过“风”向上移动,其强度随列的不同而变化。 风的强度在每列下方给出,以向上移动的单元数为单位。例如,如果您位于目标右侧的一个单元格中,那么左侧的动作会将您带到目标上方的单元格。这是一项不折不扣的情节任务,在达到目标状态之前,奖励为-1。
右图显示了将 $varepsilon (-greedy Sarsa应用于此任务的结果,其中)varepsilon = 0.1,alpha = 0.5$

原文地址:https://www.cnblogs.com/feifanrensheng/p/13460132.html