强化学习第2版第4章笔记—

　　动态规划(DP)是一类优化方法，在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下，其可以计算最优的策略。对于强化学习问题，传统的DP算法的作用有限。其原因有二：一是完备的环境模型只是一个假设

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/lucifer1997/p/14367476.html