增强学习笔记第八章表格类方法的规划与学习

8.1 模型与规划

规划，指利用已有经历对环境提炼模型，减少对环境交互的依赖。

8.2 Dyna框架

8.3 当模型不对时

第一种情况，原路已经行不通，在堵塞处往返多次后，value会被慢慢修正，并找到正确的路

第二种情况，发现新的短路，这种情况吧Dyna-Q几乎找不到这条路，但是Dyna-Q+作了改进，对很久没更新的(s,a)，reward会附加上$ksqrt t$。

8.4 Prioritized Sweeping

通过价值发生变化的程度来进行规划，变化大的优先规划，变化过小的略过规划

8.5 规划的另一种理解

对规划通常的理解是改善策略，也可以理解为为决定下一个action作准备。

对于象棋这种不需要太快响应的应用来说，花更多时间在规划上可以使下一步下的更好。

8.6 启发式搜索

传统的启发式搜索并不保存action value，但实际上可以和backup结合，用来高效地改进action value。

如果我们有一个完美的模型（例如棋类游戏），但是价值函数不完美，那么我们用较深的启发式搜索可以获得更好的策略。

8.7 蒙特卡洛树搜索

首先，并发出一大堆等概率随机的trajactories，然后，根据每个路径上的赢率，选择赢率最大的。

（略）