Human-level control through deep reinforcement learning

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

NATURE, no. 7540 (2015): 529-533

Abstract

　　强化学习理论在动物行为上，深入到心理和神经科学的角度，关于在一个环境中如何使得智能体优化他们的控制，提供了一个正式的规范。为了利用强化学习成功的接近现实世界的复杂度的环境中，然而，智能体遇到了一个难题：他们必须从高维感知输入中得到环境的有效表征，然后利用这些来将过去的经验应用到新的场景中去。显著地，人类和其他动物看起来可以通过一个和谐的智能体和层次感知处理系统的有效组合进而解决这个问题。前者通过丰富的神经数据解释了由多巴胺能神经产生的相位信号和时序差分强化学习算法之间的显著并行得到验证。于此同时，强化学习智能体在一些领域已经取得了很多的成果，之前他们的应用基本上被限制在领域内，即：手工设计的有用的特征，全部观测到的领域，低维的状态空间等等。此处，我们利用最近发展迅速的深度神经网络来开发一种新颖的智能体，即深度Q网络, 利用端到端的强化学习, 可以直接从高维感知输入中学习到成功的策略。我们在具有挑战性的经典Atari 2600游戏，测试了该智能体。实验证明，该深度Q网络智能体，仅仅接收像素和游戏得分作为输入，利用相同的算法，网络设计和超参数可以超过之前任何的算法，达到和专业游戏玩家的水平。该工作建立了高维感知输入和动作之前的连接，能够处理各种具有挑战性的任务。

Text

　　正文参考链接：论文笔记之：Human-level control through deep reinforcement learning - AHU-WangXiao - 博客园 (cnblogs.com)

METHODS

Preprocessing. 直接处理原始的Atari 2600帧(图片像素为210 x 160，调色板有128个颜色)，可能在计算和内存需求方面要求很高。我们为了降低输入的维度，采取了一个基础的预处理步骤，用Atari 2600仿真器来进行人为处理。首先，为了编码单张图像，我们采用当前编码帧和前一帧每一个像素点色彩值的最大值。移除闪烁是很有必要的，因为一些物体仅仅出现在奇数帧，而有一些则只出现在偶数帧，由于有限数量的sprites Atari 2600导致的artefact会立马显现。其次，我们然后从RGB帧中提取Y通道，也就是经常说的亮度，并将其重新缩放为84 x 84。下面描述的算法1中的函数Φ将此预处理应用于m个最近的帧并将它们堆叠起来以生成Q函数的输入，其中m = 4，尽管该算法对m的不同值鲁棒(例如，3或5)。

Code availability. 源代码可以在以下网址获得：https://sites.google.com/a/deepmind.com/dqn (仅用于非商业用途)。

Model architecture. 利用神经网络，有好几种不同的方法来参数化Q。因为Q映射了历史-动作对到它们的Q值，历史和动作已经在之前的方法中被用于神经网络的输入。这种结构的主要缺点是：一个单独的前向传播需要计算每一个动作的Q值，导致计算代价和动作的数量成比例上升。我们则使用这样的一个结构，即：每一个可能的动作有一个单独的输出，仅仅将状态表征输入给神经网络。输出对应了每一个动作为每一个状态预测的Q值。这种结构的优势是：在一个给定的状态下，对于所有可能动作的Q值的计算，在网络中仅仅需要一个前向传播即可。

　　图1中展示的结构，给出如下的描述：传入给神经网络的输入是预处理映射完毕后的84 x 84 x 4的图像。第一个隐层：卷积核大小为8 x 8，然后有32个filter，步长为4，后面跟一个非线性整流器。第二个隐层：卷积核大小为4 x 4，然后有64个filter，步长为2，后面跟一个非线性整流器。第三个卷积层：64个filter，卷积核大小为3 x 3，步长为1，后面也跟着一个非线性整流器。最后的隐层：一个全连接层，由512个整流单元构成。输出层：一个全连接层，每一个有效地动作对应一个输出。在我们考虑的游戏中，有效动作的数量从4~18之间变换。

Training details.

Evaluation procedure.

Algorithm.

Training algorithm for deep Q-networks. 算法1给出了训练深度Q网络的完整算法。智能体根据基于Q的ε-贪婪策略选择和执行动作。因为使用任意长度的历史作为神经网络的输入可能很困难，我们的Q函数取代由上述函数Φ产生的历史的固定长度表征工作。该算法通过两种方式修改了标准在线Q学习，使其适用于训练大型神经网络而不会发散。

（待续）