论文阅读：Review of Deep Reinforcement Learning for Robot Manipulation

Review of Deep Reinforcement Learning for Robot Manipulation

Abstract—Reinforcement learning combined with neural net-

works has recently led to a wide range of successes in learning policies in different domains. For robot manipulation, reinforce- ment learning algorithms bring the hope for machines to have the human-like abilities by directly learning dexterous manipulation from raw pixels. In this review paper, we address the current status of reinforcement learning algorithms used in the field. We also cover essential theoretical background and main issues with current algorithms, which are limiting their applications of reinforcement learning algorithms in solving practical problems in robotics. We also share our thoughts on a number of future directions for reinforcement learning research.

0.摘要

摘要—强化学习与神经网络相结合，最近在不同领域的学习策略方面取得了广泛的成功。对于机器人操纵，强化学习算法通过直接从原始像素中学习灵巧操纵，为机器具有类似人的能力带来了希望。在这篇综述文章中，我们介绍了该领域中使用的强化学习算法的当前状况。我们还将介绍当前算法的基本理论背景和主要问题，这些问题限制了强化学习算法在解决机器人技术实际问题中的应用。我们还就加强学习研究的许多未来方向分享了我们的想法。

1.介绍

近年来，强化学习（RL）引起了很多关注[1] – [3]，在多个领域取得了令人兴奋的成果，例如在Atari游戏[4]和围棋[5]方面超过了人类专家。在机器人操作环境中，RL提供了一个框架和一组工具，可直接从原始像素端到端学习灵巧操作。该领域的最初成功是有希望的，但是，它们揭示了应用RL解决实际机器人挑战的一些固有困难。我们的调查旨在提供我们在机器人操作中使用RL的感知图。我们尝试涵盖背景知识，有趣的研究成果，未解决的问题，并提供我们对未来方向的见识。

我们决定从2013年开始进行审核。我们之所以选择今年，是因为今年之前在机器人技术中使用的大多数RL算法已经在[6]中进行了全面介绍。据我们所知，从今年开始，尽管有许多有趣的结果，但在机器人操纵方面对RL并没有进行重大审查。我们试图通过本文的回顾来弥合差距，重点是针对机器人操纵器的RL应用。我们在包括IEEE Xplore，Google Scholar和arVix在内的著名电子数据库中进行了广泛的文献搜索。符合以下条件的文章将包括在内：a）用英语撰写； b）从2013年起出版； c）仅在与会议文件有重大差异时才包括期刊出版物； d）内容与用于机器人操纵的深层RL有关。用于搜索的关键字是强化学习，深度强化学习和机器人操纵。我们使用这些关键字及其组合来过滤掉42篇具有相关内容的论文。

我们的论文安排如下：从第二部分开始，我们将在和术语中描述关键的RL概念。接下来，第三节继续介绍RL算法，然后是第四节，重点关注机器人操作的上下文。我们在第五节中描述了我们对未来方向的观点，第六节总结了本次审查。

2.关键概念和术语

主要介绍强化学习的基本知识，就不展开讨论了。

3.RL算法的分类法

介绍RL算法的分类

4.用于机器人操纵的RL算法

通常，在机器人技术中，RL通常以连续的高维动作和状态空间表示。对于机器人操纵而言，收集样本通常是昂贵且费时的。经验也对各种噪音敏感并且难以再现。要收集单个训练样本，机器人可能需要几分钟才能走动或执行任务。机器人RL通常被建模为部分可观察的MDP，因为状态不可观察或部分可观察是常见的。因此，成功的算法（尤其是基于模型的方法）需要对模型中的大量不确定性具有鲁棒性。在本节中，我们从角度讨论三个主要问题，这些问题限制了RL在实际机器人问题中的应用。我们包括样本效率低下，勘探和开发以及归纳和可重复性。

A.样本效率低下

样品效率低下是严重限制RL在机器人操作中的应用的主要原因之一。由于样本效率低下，即使是目前最好的一些RL算法也可能不切实际。有多个原因导致此问题。首先，许多算法试图从头开始学习执行任务，因此，它们需要大量数据来学习。其次，算法在利用当前数据中的有用信息方面仍然不够好。有些策略策略甚至在每个更新步骤都需要新数据。最后，机器人技术中的数据收集通常非常耗时。

1) 简要回顾:进化算法的采样效率最低，因为它们不使用梯度进行优化，但它们可能具有可比的性能。 [8]中使用的进化策略能够将[9]中Atari游戏的性能与3-10倍的数据相匹配。演员评论家A3C [10]的异步版本具有更高的数据效率，仅通过在多核CPU而非GPU上进行训练就可以在Atari域上超过[9]。接下来是基于样本效率的策略梯度方法，例如[11]，其次是使用重播缓冲区估算Q值的方法，例如深度确定性策略梯度（DDPG）[12]和归一化优势函数（NAF）[13]。 ]。基于模型的算法在数据效率方面处于领先地位，因为它们试图导出环境模型并使用该模型来训练策略，而不是来自实际交互的数据。指导策略搜索[14]的数据效率很高，因为它使用轨迹优化来指导策略学习并避免不良的局部最优。目前的获奖者是基于模型的“浅层”算法，例如学习控制的概率推理（PILCO）[15]。 [16]使用PILCO，只需要大约4分钟就可以学习一个复杂的任务，例如块堆叠任务，并且在使用知识转移时，时间可以减少到90秒。

2) 未解决的问题：为了提高数据效率，我们需要收集更多数据并更有效地使用我们当前拥有的数据。获得更多数据的一种方法是使用多个机器人同时收集数据，如图3所示。真实数据也可以通过合成数据（可能来自模拟器）进行扩充，并且这种方法已在许多研究中采用[17]-[ 19]。在这种方法中，需要减少合成数据和真实机器人数据之间的差距，以便模拟数据很有用。差距在[20]中的一个抓紧任务中被量化，从而在学习过程中差异也将被最小化。 [21]使用深度学习架构将合成图像映射到真实图像。为了弥合现实差距，[18]使用渐进式网络，通过迁移学习在新任务中从低级视觉功能重用到高级功能。我们还需要一种机制来与许多有用的公共数据集共享受监管域中的数据。但是，在机器人技术中，数据特定于某些机器人和配置。如果我们有一种转换数据的机制，以使其可以广泛分布并在多个平台和配置中使用，它将非常有用。最后，我们将需要可以更有效地使用数据的新颖算法。基于模型的方法可能是释放样品效率的最潜在方法之一。

B.探索与开发

由于RL代理商需要根据当前状态和行动不断采取行动，因此每次探究都会发生探究或利用的根本问题。尽管探索可以提供有关环境的更多知识，这可能会导致做出更好的未来决策，但剥削会根据我们所拥有的当前信息选择最佳的行动，从而将我们的范围缩小到当前最有希望的方向。最佳策略将包括牺牲短期奖励以在将来获得更多奖励，这意味着需要在勘探与开发之间取得平衡。

1) 简要回顾:深度Q网络（DQN）[4]使用贪婪[23]来平衡勘探和开发。使用这种策略，代理将要么以概率采取随机行动？或执行以1-概率将Q值最大化的操作。还存在其他变体，例如衰减的？-贪婪还原?？随着时间的推移，自适应版本[24]带有？根据时间差异进行调整。 Vanilla策略梯度法，信任区域策略优化（TRPO）[25]和近端策略优化（PPO）[26]通过根据最新版本的随机策略对操作进行采样来进行探索。 DDPG [12]以偏离策略的方式训练确定性策略，并在训练时将噪声添加到操作中。软Actor-Critic（SAC）[27]用熵正则化进行探索。其他探索方法包括对抗性自演[28]和参数噪声[29]。

2) 未解决的问题：在诸如机器人技术的连续高维动作空间中寻找有效的探索方法的方法仍然具有挑战性。尽管？-greedy [24]是最常用的探索方法之一，但它有几个缺点。一个问题是，它平等地对待所有动作（随机动作时）。因此，贪婪策略是无指导性的，过于幼稚的，并且不会探索有前途的行动领域。对于按策略算法，随机性在很大程度上取决于初始条件和训练过程。在训练过程中，由于支持更多利用的更新策略规则减少了随机性的规模。结果，该策略可能会陷入局部最优状态。对于确定性策略，在训练期间将噪声添加到其操作中，并且可以减小噪声的规模以获取更多高质量的训练时间。当面对稀疏和欺骗性的奖励问题时，这种方法将变得不足。我们还缺乏可用于评估不同勘探方法性能的有用基准。此外，勘探策略的性能随环境和配置的不同而不同，因此很难量化出真正的改进。真正的机器人进行探索时的安全性是另一个问题。例如，对于脆弱的机器人来说，诸如面对不确定性进行探索之类的探索策略是非常不安全的。

C.泛化和可重复性

泛化是许多研究人员希望RL算法可以实现的关键的垫脚石。对于未来面对各种复杂现实环境的机器人，可以在各种环境中发挥作用。不幸的是，大多数RL算法都是使用针对特定任务或一小组任务的经过调整的超参数进行训练的，并且它们经常因新颖的任务或环境而失败。另一方面，在RL中，可重复性是一个被低估的问题，而且没有多少研究人员试图对此问题进行深入研究。要从许多最新的论文中复制结果并不容易，因为实现细节可能丢失或不完整。当加上RL算法当前遭受的不稳定性时，情况甚至更糟。

1) 简要回顾:当前有两个主要方向用于研究RL算法的泛化。第一种方法类似于设计策略时的控制理论中的鲁棒控制，以使它们仍然可以通过消除其他环境中的性能来适应环境变化。在这个方向上，[30]学会了一种在环境分布中最大化风险条件值的策略，[31]在具有最低预期回报的环境子集中最大化了预期回报。 [32]使用对抗训练来学习强有力的政策。第二种方法类似于自适应控制，试图适应当前的环境，例如[33]。许多算法[34] [35]使用从进行中的环境中采样的轨迹作为识别环境的机制，从而触发了策略的自主调整。关于RL的可再现性，深入探讨此问题的最佳论文之一是[36]，其中分析了性能对许多因素的依赖性。网络结构是可能严重影响RL算法性能的因素之一，例如与TRPO和DDPG一样[37]。随机种子是另一个对性能有很大影响的因素。如果仅对少量随机种子进行测试，则报告的性能将不可靠。如图4所示，当TRPO在相同的超参数集上运行并且具有两个不同的随机种子时，两种情况下的性能显着不同。 [36]还比较了许多其他因素的性能，例如环境，实现（代码库），奖励等级。对于所有测试的因素，性能差异很大。为了提高鲁棒性，一些研究试图通过视觉反馈来闭合控制回路[38]，或者使用遗传算法来优化超参数[39]。

2) 未解决的问题：我们目前没有有效的基准来评估RL算法的推广。 RL算法需要在监督学习中使用诸如ImageNet数据集之类的东西，以测试各种任务中的概括性。对于此类用于度量泛化的测试平台，我们还需要明确定义一组任务，比较指标和基线，以便我们可以公平地量化RL算法的泛化。为了量化RL算法中的泛化，OpenAI最近发布了CoinRun（图5），这是衡量泛化的初始基准。文献[40]中还显示，监督学习中常用的针对过度拟合的技术（如辍学，正则化和批处理规范化）可以改善RL的生成。通常，很难在机器学习中与可重复性相抗衡，并且由于不稳定性较高，对于连续环境（例如机器人），在RL中甚至更具挑战性。除了需要针对超参数的更健壮的RL算法外，我们可能还需要就正确的实验方法，正确的评估方法和度量标准达成共识。用于记录实验设置过程中的更改的有效工具也有助于提高可重复性。还必须具有一组标准环境，以便可以公平地验证可重复性。

5.未来发展方向

该领域未来发展的最大动力可能是如何有效地将深度RL算法带入现实世界，以解决实际应用。因此，我们需要知道解决实际问题需要做什么。从我们的角度来看，代理/机器人必须学习得更快，更有效。未来的研究领域具有广阔的潜力，包括基于模型的学习，从先前受过训练的任务中学习以及转移学习和/或领域适应[41]。

基于模型的学习最大的优势是样本效率高，并且在这个方向上已有有趣的研究来预测未来。在Atari游戏的背景下，[43]使用深层网络架构成功预测了未来100多个步骤。由于这种方法是基于视觉的，因此有可能推广到其他视觉上丰富的RL问题。另一项研究[44]使用递归神经网络为未来数百个时间步做出时间和空间相干的预测，以改善Atari和某些3D游戏的探索性。在机器人操纵的背景下，最近的一篇论文[45]引入了随机对抗视频预测（SAVP）-生成对抗网络（GAN）[46]和变异自动编码器（VAE）[47]变体，可以预测数百种尽管经过培训可以预测10个未来帧。在[48]中引入了另一个有趣的想法，当模型学习和计划集成在一起形成一个端到端的培训过程时。当估算的模型与实际模型不一致时，此方法解决了先前的问题，从而导致规划性能不佳。但是，在我们看来，这些最近的基于模型方法的研究才刚刚开始在丰富的环境中工作，并且还有很长的路要走。

对于当前的RL算法，从其他任务中学习的能力仍然非常困难。在学习新技能时，即使是最先进的RL算法与人类之间，在采样效率方面仍然存在很大差距。人类之所以更快地学习，可能是因为我们没有从头开始学习。相反，我们可以重用过去的知识来更有效地学习新技能。基于模型的学习方法由于具有更大的潜在可移植性和通用性，因此在这种情况下也可以提供帮助。环境模型可以重用于各种任务，这些任务可能受相同的物理定律支配。 [49]使用中型神经网络来近似动力学，然后使用模型预测控制（MPC）来产生稳定的性能，以完成MuJoCo中的各种复杂的运动任务[50]。在本文中，他们还通过使用学习过的基于模型的控制器将基于模型的方法与无模型方法相结合，以使用无模型学习生成用于微调的展开。这种结合可以加快学习速度，并提高3-5倍的采样效率。不同于近似动态的一种方法是使用多任务学习来重用技能[51]。这项工作中有趣的是，与在单任务设置中学习相比，在各种任务上进行学习实际上具有更好的性能。通过对多个任务使用相同的大型神经网络，而不是对每个任务使用较小的网络，对于多个任务，性能显着提高。

转移学习试图利用一组任务中的经验来更快地学习并在新任务上获得更好的性能。从模拟器上训练的任务中转移学习尤其吸引人，因为它需要相对便宜的资源。最近的另一种方法是使用域自适应来执行相关Atari游戏之间的转移学习[42]。这个想法是首先以行为者批评的方式在源游戏中训练策略，并在此域中转移状态表示，以初始化目标域的策略网络。这种方法大大提高了样品效率。 [52]通过引入额外的对齐奖励来鼓励模拟和真实机器人之间的并行学习，这些奖励鼓励两个域中的两个代理在访问状态上具有相似的分布。

逆RL [53]也是一个有希望的未来方向，它可以解决设计合理奖励功能的噩梦。通过卷积神经网络自主学习的功能彻底改变了计算机视觉的世界，我们也可以期望从专家策略中学习奖励功能。

6.总结

在本文中，我们描述了用于机器人操纵的RL算法的当前情况。尽管RL在模拟领域（例如游戏）中取得了显着进步，但它对实际机器人应用的潜在巨大影响仍然有限。目前，最好的RL算法可以通过棋盘游戏（围棋，国际象棋）等简单且已知的规则来提高领域的熟练度。当面对动态未知的新领域时，机器人只能执行足够的样本来学习简单的操作任务。与人类可以在更短的时间内高效学习和执行的各种任务相比，要构建真正的智能机器人还有很长的路要走。该社区目前分为多个研究方向，但是我们相信可以通过结合其中一些或全部优点，甚至是新颖的算法类型，来找到解决方案。但是，从我们的角度来看，机器人操纵中的RL将拥有光明的未来。我们相信，为了在将来构建真正的智能机器人，我们需要诸如RL算法之类的东西。

参考文献

[1] H. M. La, R. Lim, and W. Sheng, “Multirobot cooperative learning for predator avoidance,” IEEE Transactions on Control Systems Technology, vol. 23, no. 1, pp. 52–63, 2015.
[2] M. Rahimi, S. Gibb, Y. Shen, and H. M. La, “A comparison of various approaches to reinforcement learning algorithms for multi-robot box pushing,” in Intern. Conf. on Engineering Research and Applications. Springer, 2018, pp. 16–30.
[3] H. X. Pham, H. M. La, D. Feil-Seifer, and A. Nefian, “Cooperative and distributed reinforcement learning of drones for field coverage,” 2018.

[4] V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wier- stra, and M. Riedmiller, “Playing atari with deep reinforcement learn- ing,” in NIPS Deep Learning Workshop, 2013.
[5] D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton et al., “Mastering the game of go without human knowledge,” Nature, vol. 550, no. 7676, p. 354, 2017.
[6] J. Kober, J. A. Bagnell, and J. Peters, “Reinforcement learning in robotics: A survey,” The Intern. J. of Robotics Research, vol. 32, no. 11, pp. 1238–1274, 2013.
[7] R. S. Sutton and A. G. Barto, Reinforcement learning: An introduction. MIT press, 2018.
[8] T. Salimans, J. Ho, X. Chen, S. Sidor, and I. Sutskever, “Evolution strategies as a scalable alternative to reinforcement learning,” arXiv preprint arXiv:1703.03864, 2017.
[9] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski et al., “Human-level control through deep reinforcement learning,” Nature, vol. 518, no. 7540, p. 529, 2015.
[10] V. Mnih, A. P. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, and K. Kavukcuoglu, “Asynchronous methods for deep reinforcement learning,” in Intern. Conf. on Machine Learning, 2016, pp. 1928–1937.
[11] J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, “Trust region policy optimization,” in Intern. Conf. on Machine Learning, 2015, pp. 1889–1897.
[12] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, “Continuous control with deep reinforcement learning,” arXiv preprint arXiv:1509.02971, 2015.
[13] S. Gu, T. Lillicrap, I. Sutskever, and S. Levine, “Continuous deep q- learning with model-based acceleration,” in Intern. Conf. on Machine Learning, 2016, pp. 2829–2838.
[14] S. Levine and V. Koltun, “Guided policy search,” in Intern. Conf. on Machine Learning, 2013, pp. 1–9.

[15] M. Deisenroth and C. Edward Rasmussen, “Pilco: A model-based and data-efficient approach to policy search.” 01 2011, pp. 465–472.
[16] M. P. Deisenroth, C. E. Rasmussen, and D. Fox, “Learning to control a low-cost manipulator using data-efficient reinforcement learning,” in Robotics: Science and Systems, 2011.
[17] J. Tan, T. Zhang, E. Coumans, A. Iscen, Y. Bai, D. Hafner, S. Bohez, and V. Vanhoucke, “Learning to control a low-cost manipulator using data-efficient reinforcement learning,” in Robotics: Science and Systems, 2018.
[18] A. A. Rusu, M. Vecerik, T. Roth¨orl, N. Heess, R. Pascanu, and R. Hadsell, “Sim-to-real robot learning from pixels with progressive nets,” arXiv preprint arXiv:1610.04286, 2016.
[19] X. B. Peng, M. Andrychowicz, W. Zaremba, and P. Abbeel, “Sim-to-real transfer of robotic control with dynamics randomization,” in 2018 IEEE Intern. Conf. on Robotics and Automation (ICRA). IEEE, 2018, pp. 1–8.
[20] U. Viereck, A. t. Pas, K. Saenko, and R. Platt, “Learning a visuomotor controller for real world robotic grasping using simulated depth images,” arXiv preprint arXiv:1706.04652, 2017.
[21] E. Tzeng, C. Devin, J. Hoffman, C. Finn, X. Peng, S. Levine, K. Saenko, and T. Darrell, “Towards adapting deep visuomotor representations from simulated to real environments,” CoRR, abs/1511.07111, 2015.
[22] S. Levine, P. Pastor, A. Krizhevsky, J. Ibarz, and D. Quillen, “Learning hand-eye coordination for robotic grasping with deep learning and large- scale data collection,” The Intern. J. of Robotics Research, vol. 37, no. 4-5, pp. 421–436, 2018.
[23] C. J. C. H. Watkins, “Learning from delayed rewards,” Ph.D. disserta- tion, King’s College, Cambridge, 1989.
[24] M. Tokic, “Adaptive ε-greedy exploration in reinforcement learning based on value differences,” in Annual Conf. on Artificial Intelligence. Springer, 2010, pp. 203–210.
[25] J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, “Trust region policy optimization,” in Intern. Conf. on Machine Learning, 2015, pp. 1889–1897.
[26] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Prox- imal policy optimization algorithms,” arXiv preprint arXiv:1707.06347, 2017.

[27] T. Haarnoja, A. Zhou, P. Abbeel, and S. Levine, “Soft actor-critic: Off- policy maximum entropy deep reinforcement learning with a stochastic actor,” arXiv preprint arXiv:1801.01290, 2018.
[28] S. Sukhbaatar, Z. Lin, I. Kostrikov, G. Synnaeve, A. Szlam, and R. Fergus, “Intrinsic motivation and automatic curricula via asymmetric self-play,” arXiv preprint arXiv:1703.05407, 2017.
[29] M. Plappert, R. Houthooft, P. Dhariwal, S. Sidor, R. Y. Chen, X. Chen, T. Asfour, P. Abbeel, and M. Andrychowicz, “Parameter space noise for exploration,” arXiv preprint arXiv:1706.01905, 2017.
[30] A. Tamar, Y. Glassner, and S. Mannor, “Optimizing the cvar via sampling.” in AAAI, 2015, pp. 2993–2999.
[31] A. Rajeswaran, K. Lowrey, E. V. Todorov, and S. M. Kakade, “Towards generalization and simplicity in continuous control,” in Advances in Neural Information Processing Systems, 2017, pp. 6550–6561.
[32] L. Pinto, J. Davidson, R. Sukthankar, and A. Gupta, “Robust adversarial reinforcement learning,” arXiv preprint arXiv:1703.02702, 2017.
[33] W. Yu, J. Tan, C. K. Liu, and G. Turk, “Preparing for the unknown: Learning a universal policy with online system identification,” arXiv preprint arXiv:1702.02453, 2017.
[34] N. Mishra, M. Rohaninejad, X. Chen, and P. Abbeel, “Meta-learning with temporal convolutions,” arXiv preprint arXiv:1707.03141, 2017.
[35] F. Sung, L. Zhang, T. Xiang, T. Hospedales, and Y. Yang, “Learning to learn: Meta-critic networks for sample efficient learning,” arXiv preprint arXiv:1706.09529, 2017.
[36] P. Henderson, R. Islam, P. Bachman, J. Pineau, D. Precup, and D. Meger, “Deep reinforcement learning that matters,” arXiv preprint arXiv:1709.06560, 2017.
[37] R. Islam, P. Henderson, M. Gomrokchi, and D. Precup, “Reproducibil- ity of benchmarked deep reinforcement learning tasks for continuous control,” arXiv preprint arXiv:1708.04133, 2017.
[38] H. Nguyen, H. M. La, and M. Deans, “Deep learning with experience ranking convolutional neural network for robot manipulator,” arXiv preprint arXiv:1809.05819, 2018.
[39] A. Sehgal, H. M. La, S. J. Louis, and H. Nguyen, “Deep reinforcement learning using genetic algorithm for parameter optimization,” Submitted for Intern. Conf. on Robotic Computing (IRC), 2019.
[40] K. Cobbe, O. Klimov, C. Hesse, T. Kim, and J. Schulman, “Quantifying generalization in reinforcement learning,” arXiv preprint arXiv:1812.02341, 2018.
[41] H.-J. Ye, X.-R. Sheng, D.-C. Zhan, and P. He, “Distance metric facil- itated transportation between heterogeneous domains.” in IJCAI, 2018, pp. 3012–3018.
[42] T. Carr, M. Chli, and G. Vogiatzis, “Domain adaptation for reinforcement learning on the atari,” arXiv preprint arXiv:1812.07452, 2018.
[43] J. Oh, X. Guo, H. Lee, R. L. Lewis, and S. Singh, “Action-conditional video prediction using deep networks in atari games,” in Advances in neural information processing systems, 2015, pp. 2863–2871.
[44] S. Chiappa, S. Racaniere, D. Wierstra, and S. Mohamed, “Recurrent environment simulators,” arXiv preprint arXiv:1704.02254, 2017.
[45] A. X. Lee, R. Zhang, F. Ebert, P. Abbeel, C. Finn, and S. Levine, “Stochastic adversarial video prediction,” arXiv preprint arXiv:1804.01523, 2018.
[46] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, 2014, pp. 2672– 2680.
[47] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013.
[48] D. Silver, H. van Hasselt, M. Hessel, T. Schaul, A. Guez, T. Harley, G. Dulac-Arnold, D. Reichert, N. Rabinowitz, A. Barreto et al., “The predictron: End-to-end learning and planning,” arXiv preprint arXiv:1612.08810, 2016.
[49] A. Nagabandi, G. Kahn, R. S. Fearing, and S. Levine, “Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning,” in 2018 IEEE Intern. Conf. on Robotics and Automation (ICRA). IEEE, 2018, pp. 7559–7566.
[50] E. Todorov, T. Erez, and Y. Tassa, “Mujoco: A physics engine for model- based control,” in Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ Intern. Conf. on. IEEE, 2012, pp. 5026–5033.
[51] R. Rahmatizadeh, P. Abolghasemi, L. B¨ol¨oni, and S. Levine, “Vision- based multi-task manipulation for inexpensive robots using end-to-end learning from demonstration,” in 2018 IEEE Intern. Conf. on Robotics and Automation (ICRA). IEEE, 2018, pp. 3758–3765.
[52] M. Wulfmeier, I. Posner, and P. Abbeel, “Mutual alignment transfer learning,” arXiv preprint arXiv:1707.07907, 2017.
[53] A. Y. Ng, S. J. Russell et al., “Algorithms for inverse reinforcement learning.” in ICML, 2000, pp. 663–670.