强化学习笔记(一) Qlearning & Sarsa

image

image

我的理解:

Q learning

Sarsa

在一个回合内:

初始化s

1. choose(s, Q) => action  (epsilon-greedy策略)

2. move(action, s, Q) => s_ , R 

3. Q_fresh(action, s, Q, s_, R) => new_Q (最大值策略)

4. 更新 s = s_

5. 重复步骤1-5

在一个回合内:

初始化s , 并选择一个动作action   choose(s, Q) => action       (epsilon-greedy策略)

1. move(action, s, Q) => s_, R 

2. choose(s_, Q) => action_    (epsilon-greedy策略)

3. Q_fresh(action, s, Q, action_, s_, R) => new_Q

4. 更新 s=s_,  action=action_

5. 重复步骤1-5

帮助理解:

c5401065a62913a3113a261c15ea4cd

原文地址:https://www.cnblogs.com/btschang/p/11131014.html