Improvements since Nature DQN / 2014~2016

Intro

如果想省时间，建议直接看：Rainbow

抓两个点：

更新evaluate-network的损失函数：
(Loss = (r + gamma * max_{a' in A}Q(s',a'| heta^{-})-Q(s,a| heta))^2)

较Vanilla DQN只修改了TD target计算方法，它的损失函数是：

(Loss = (r+ gamma * Q(s',argmax_{a'}Q(s',a'| heta)| heta^{-})-Q(s,a| heta))^2)

针对DQN的模型构造作出修改，将最后一层分出两个channel，然后对两个channel合并作为输出。

结构图对比：

正如其名“七色彩虹”，这个算法就是多个算法的糅合。

将Double DQN的TD Target, Prioritied Replay Buffer, Duelling DQN的模型结构，Multi-step Learning，Distribution RL，NoisyNet组合到一起，就成了结合体Rainbow。