强化学习A2C

强化学习A2C

策略函数梯度：

　　

状态价值函数梯度：
　　

整体训练：

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/cxhzy/p/15547747.html