Policy Gradient

Policy Gradient是区别于Q-Learning为代表的value based的方法。policy gradient又可以叫reinforce算法(Williams, 1992)。

如今的ACTOR-CRITIC也就是基于policy gradient。该方法不能制表，只能对policy进行参数化。

然后它能处理连续action输出的问题。

DDPG似乎又不太一样，难道DDPG的任务都要求policy网络参数初始化很好，以便action不会陷入局部最优？所以要多训练几个policy网络？

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/huangshiyu13/p/8655072.html