强化学习:马尔可夫决策过程(贝尔曼最优方程)

                       贝尔曼最优方程推导(来源:B站up主:shuhuai008)

1.明确一下概念间的关系

2.反证法证明 v*(s)=max(a)_q*(s,a)

3.“套娃”得到贝尔曼最优方程

参考资料:

1.https://www.bilibili.com/video/BV1RA411q7wt?p=5,B站UP主:shuhuai008

原文地址:https://www.cnblogs.com/feynmania/p/13389845.html