增量式离策略每次拜访蒙特卡洛评价算法

网络课程上看到的内容：

无限探索下的极限贪婪 (Greedy in the Limit with Infinite Exploration (GLIE))

算法1是同策略，算法2 是异策略

======================================================================

主要感觉到神奇的就是这个算法2 ，增量式离策略每次拜访蒙特卡洛评价方法

最看不太懂的，也是核心的步骤如下：

很是怀疑这个算法的正确性，由于没有找到原始出处就先如此了。

=========================