hh

3.5.1 终生学习(Lifelong Learning)

让姆 (1996) 提出了终生学习(Lifelong Learning, LL)的概念, 其中一个代理人可能会经历一系列任务。其他 (cf, 萨顿等 al., 2007) 后来把这个想法扩展到了 RL 的设置, 建议比一个代理在一个长时间内与世界互动, 在一系列任务中都必须执行。另外, 代理可能会发现一系列空间的, 而不是世俗的, 分离的任务。转移将是任何此类系统的一个关键组成部分, 但 LL 框架比 TL 更有挑战性。

TL 算法可以合理地集中于单对相关任务之间的传输, 而不试图考虑代理可能遇到的任何未来任务;
当新任务开始时, 通常会告知 TL 算法; 而在 LL 中, 代理可能会被合理地期望在全局MDP(真实世界) 自动识别新的任务.
3.5.2 模仿学习(Imitation Learning)

https://zhuanlan.zhihu.com/p/25688750

模仿学习(Imitation Learning, IL)的目的是允许 Agents 通过观察他人学习:

一个具有类似能力的Agent(Price and Boutilier, 2003; Syed and Schapier, 2007)
一个执行任务的人类 (Abbeel and Ng, 2005; Kolter et al., 2008)
这种算法试图通过观察外部行为者来学习策略, 这可能会改进推断出的策略.

与此相反, 我们对迁移学习的定义侧重于代理成功地重用了内部知识的新问题.

3.5.3 人的建议(Human Advice)

有越来越多的工作将人的建议(Human Advice)整合到 RL 学习者身上:

人可以向Agent提供行动建议 (cf., Maclin 和 Shavlik, 1996; Maclin et al., 2005)
引导Agent通过 on-line 反馈 (cf., Knox and Stone, 2008)
利用人的背景和任务特定的知识可以显著提高代理的学习能力, 但它依赖于一个人紧密地融入到学习循环中, 以 on-line 的方式提供反馈。

本文的重点是转移的方法, 其中人不允许持续提供且Agent必须学习自主.