【转载】 深度强化学习处理cartpole为什么reward很难超过200?

原贴地址:

https://www.zhihu.com/question/266493753

一直在看强化学习方面的内容,cartpole是最简单的入门实验环境,最原始的评判标准是连续100次episode的奖励均值在195以上即可认定是到达最优,说明此问题得以解决,(但是有很多的研究是没有采用这个条件的,也就是按照训练的次数固定,在一定的训练次数后看测试时的奖励均值和方差)。如果我们不按照这个评价标准来运行该环境的话,那么我们需要对gym中的某些原始设定进行修改。

----------------------------------------------------------------------------------------

 

在文件gym/envs/__init__.py 中,限定了max_episode_steps

register(

id='CartPole-v0',

entry_point='gym.envs.classic_control:CartPoleEnv',

max_episode_steps=200,

reward_threshold=195.0,

)

 
 
 
 
 
 
 


作者:冰璐
链接:https://www.zhihu.com/question/266493753/answer/317795225
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 
 
 
------------------------------------------------------------------------------------------------
 
 
 
 
 
 
 
 
 
 
 
原文地址:https://www.cnblogs.com/devilmaycry812839668/p/10582421.html