Actor Critic

Actor Critic(演员评判家),它合并了以值为基础(比如Q learning)和以动作概率为基础(比如 Policy Gradients)两类强化学习算法。

博客内容用于记录自己学习后的收获,如有侵权请联系我删除
原文地址:https://www.cnblogs.com/ptxiaochen/p/13603234.html