增量式离策略每次拜访蒙特卡洛评价算法

增量式离策略每次拜访蒙特卡洛评价算法

网络课程上看到的内容:

无限探索下的极限贪婪 (Greedy in the Limit with Infinite Exploration (GLIE))

算法1是同策略,   算法2 是异策略

====================================================================== 

主要感觉到神奇的就是这个算法2 ,   增量式离策略每次拜访蒙特卡洛评价方法

最看不太懂的,也是核心的步骤如下:

很是怀疑这个算法的正确性,由于没有找到原始出处就先如此了。

=========================

原文地址:https://www.cnblogs.com/devilmaycry812839668/p/11224207.html