强化学习----动态规划

强化学习----动态规划

对于马尔可夫决策过程，环境的知识是已知的，各种转移概率是知道，在有限的策略空间和状态空间下是可以求解的。

本处提供了两种优化策略的通用方式，主要还是迭代策略在该场景中的应用，并无太多特殊之处。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/wdmx/p/10107071.html