Unsupervised Predictive Memory in a Goal-Directed Agent

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

arXiv: Learning, (2018) 

  尽管传感器的幅度和范围有限,动物仍会执行目标导向的行为。为了应对,他们探索环境并存储记忆,以维护对当前尚不可用的重要信息的估计(1)。最近,通过将RL算法与深度神经网络(2, 3)融合在一起,AI智能体已经获得进步,并学会了从感官输入中执行任务,甚至达到人类水平。这些结果导致人们对相关思想的追求作为对非人类动物学习的解释(4, 5)。但是,我们证明,当智能体的传感器中隐藏了足够多的信息时,当代的RL算法很难解决简单的任务,这种属性称为“部分可观察性”。处理部分观察到的任务的一个明显要求是访问大量记忆,但我们证明记忆不够用。正确的信息以正确的格式存储至关重要。我们开发了一个模型,即“记忆,RL和推理网络(MERLIN)”,其中的记忆形成是由预测建模过程指导的。MERLIN有助于解决3D虚拟现实环境(6)中的任务,在这些环境中,部分可观察性很强,并且必须长时间保存记忆。我们的模型演示了一个单一的学习智能体架构,该架构可以解决心理学和神经生物学中的规范行为任务,而无需大力简化有关感官输入维数或经验持续时间的假设。

原文地址:https://www.cnblogs.com/lucifer1997/p/13587058.html