RL-Adventure: Policy Gradients

2、Soft Actor-Critic（SAC）(旧版)，(新版)

　　原始论文中伪代码有状态价值函数V：

　　后续为什么没有了 $V$ 函数？在初版的SAC中，作者表示同时维持两个值函数，可以使训练更加稳定，不过在第二版中，作者引入了自动调整温度系数 $alpha$ 的方法，使得SAC更加稳定，于是就只保留了 $Q$ 函数。