Q-learning和Sarsa的区别

Q-learning是off-policy，而Sarsa是on-policy学习。

Q-learning在更新Q table时，它只会需要Q值最大，但是不一定会选择使这个Q值最大的动作，因为选择哪个动作是由其他的策略决定的，但是Sarsa在更新Q table时，不一定是Q最大的那个，而且接下来会选择此Q对应的action。Q-learning属于勇敢型，无论前方的路上有什么危险，它都会直接走过去，而Sarsa比较保守，一般只是会远远的躲过危险。