强化学习A2C

策略函数梯度:

  

 状态价值函数梯度:
  

整体训练:

原文地址:https://www.cnblogs.com/cxhzy/p/15547747.html