RL算法解决gym中的LunarLander-v2游戏(可用的资料)

  参考资料:

  https://github.com/ranjitation/DQN-for-LunarLander/

  https://github.com/XinliYu/Reinforcement_Learning-Projects/tree/master/LunarLander

  https://stanford-cs221.github.io/autumn2019-extra/posters/113.pdf

  https://github.com/openai/gym/wiki/Leaderboard#lunarlander-v2

  https://www.researchgate.net/publication/333145451_Deep_Q-Learning_on_Lunar_Lander_Game?enrichId=rgreq-97106d655a4f7c18eb0cd40c05fdbb59-XXX&enrichSource=Y292ZXJQYWdlOzMzMzE0NTQ1MTtBUzo3NTkyMDY2NzYyNzExMTRAMTU1ODAyMDM4NTg5MA%3D%3D&el=1_x_3&_esc=publicationCoverPdf   本人使用上图所示的算法,即DQN解决了OpenAI-gym中LunarLander-v2游戏。

  我仅仅列出了可用的资料,害怕遗忘所以记在这里。写的代码就不放了,主要是follow参考资料一,按照上图算法一步一步来就好。最后的结果的话平均分数能够达到281分,但是仍然有机率降落在停机坪外,只不过可以保证降落过程100%平稳。然而网上最强的结果是能够达到284多分,这意味着每次小火箭都基本能精确、平稳(缓慢)的降落在停机坪。可能和超参数有关,还需要多多尝试。虽然如此,成功解决问题的标准是连续100次的平均分数大于200,所以达到这个目标之后再精益求精就可。

  下面放两个效果图,一个是迭代20次的结果,一个是最好分数的结果(大概6、700个episode)。

  迭代20次:

  

  最好模型:

  

原文地址:https://www.cnblogs.com/chester-cs/p/12944781.html