强化学习实战（四）：Sarsa and Q-learning

下面显示的插图是标准的网格世界，具有开始状态和目标状态，但有一个区别：在网格的中间向上有一个侧风。这些动作是标准的四个动作-上，下，右和左-但在中间区域，结果产生的下一个状态通过“风”向上移动，其强度随列的不同而变化。风的强度在每列下方给出，以向上移动的单元数为单位。例如，如果您位于目标右侧的一个单元格中，那么左侧的动作会将您带到目标上方的单元格。这是一项不折不扣的情节任务，在达到目标状态之前，奖励为-1。
右图显示了将 $varepsilon (-greedy Sarsa应用于此任务的结果,其中)varepsilon = 0.1,alpha = 0.5$