强化学习笔记（一） Qlearning & Sarsa

我的理解:

Q learning

Sarsa

在一个回合内：

初始化s

1. choose(s, Q) => action ( $epsilon-greedy$ 策略)

2. move(action, s, Q) => s_ , R

3. Q_fresh(action, s, Q, s_, R) => new_Q （最大值策略）

4. 更新 s = s_

5. 重复步骤1-5

在一个回合内：

初始化s , 并选择一个动作action choose(s, Q) => action ( $epsilon-greedy$ 策略)

1. move(action, s, Q) => s_, R

2. choose(s_, Q) => action_ ( $epsilon-greedy$ 策略)

3. Q_fresh(action, s, Q, action_, s_, R) => new_Q

4. 更新 s=s_, action=action_

5. 重复步骤1-5

帮助理解：