强化学习----动态规划

对于马尔可夫决策过程,环境的知识是已知的,各种转移概率是知道,在有限的策略空间和状态空间下是可以求解的。

本处提供了两种优化策略的通用方式,主要还是迭代策略在该场景中的应用,并无太多特殊之处。

原文地址:https://www.cnblogs.com/wdmx/p/10107071.html