Unsupervised Predictive Memory in a Goal-Directed Agent

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

arXiv: Learning, (2018)

　　尽管传感器的幅度和范围有限，动物仍会执行目标导向的行为。为了应对，他们探索环境并存储记忆，以维护对当前尚不可用的重要信息的估计(1)。最近，通过将RL算法与深度神经网络(2, 3)融合在一起，AI智能体已经获得进步，并学会了从感官输入中执行任务，甚至达到人类水平。这些结果导致人们对相关思想的追求作为对非人类动物学习的解释(4, 5)。但是，我们证明，当智能体的传感器中隐藏了足够多的信息时，当代的RL算法很难解决简单的任务，这种属性称为“部分可观察性”。处理部分观察到的任务的一个明显要求是访问大量记忆，但我们证明记忆不够用。正确的信息以正确的格式存储至关重要。我们开发了一个模型，即“记忆，RL和推理网络(MERLIN)”，其中的记忆形成是由预测建模过程指导的。MERLIN有助于解决3D虚拟现实环境(6)中的任务，在这些环境中，部分可观察性很强，并且必须长时间保存记忆。我们的模型演示了一个单一的学习智能体架构，该架构可以解决心理学和神经生物学中的规范行为任务，而无需大力简化有关感官输入维数或经验持续时间的假设。