【转载】深度强化学习处理cartpole为什么reward很难超过200?

原贴地址：

https://www.zhihu.com/question/266493753

一直在看强化学习方面的内容，cartpole是最简单的入门实验环境，最原始的评判标准是连续100次episode的奖励均值在195以上即可认定是到达最优，说明此问题得以解决，（但是有很多的研究是没有采用这个条件的，也就是按照训练的次数固定，在一定的训练次数后看测试时的奖励均值和方差）。如果我们不按照这个评价标准来运行该环境的话，那么我们需要对gym中的某些原始设定进行修改。

----------------------------------------------------------------------------------------

在文件gym/envs/__init__.py 中，限定了max_episode_steps

id='CartPole-v0',

entry_point='gym.envs.classic_control:CartPoleEnv',

max_episode_steps=200,

reward_threshold=195.0,

)

作者：冰璐
链接：https://www.zhihu.com/question/266493753/answer/317795225
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

------------------------------------------------------------------------------------------------

【转载】 深度强化学习处理cartpole为什么reward很难超过200?

【转载】深度强化学习处理cartpole为什么reward很难超过200?