强化学习多任务&多智能体文章整理

多任务强化学习

Multi-Task Reinforcement Learning with Soft Modularization

软模块化多任务强化学习

Abstract：

联合训练多个任务时，允许策略在不同的任务间共享参数。

我们在策略表示上引入了一种显式的模块化技术来缓解这个优化问题，而不是简单地在任务之间共享参数。在给定一个基本策略网络的情况下，我们设计了一个路由网络来估计不同的路由策略，从而为每个任务重新配置基本网络。我们的任务特定策略没有直接为每个任务选择路由，而是使用一种称为软模块化的方法来软组合所有可能的路由，这使得它适合于连续任务。通过对各种机器人操作任务的仿真实验表明，该方法在强基线条件下，大大提高了采样效率和性能。

link
Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms

多智能体强化学习：理论和算法的选择性概述

Abstract:

近年来，强化学习取得了长足的进步，尽管从经验上讲是成功的，但文献中相对缺乏MARL的理论基础。在本章中，我们提供了MARL的选择性概述，重点是理论分析支持的算法。更具体地说，我们根据其处理的任务类型，即完全合作，完全竞争以及混合的任务，主要在两个代表性框架（马尔可夫/随机博弈和扩展形式博弈）中回顾了MARL算法的理论结果。本章的总体目标是，除了对领域的当前状况进行评估之外，还要为MARL的理论研究确定富有成果的未来研究方向。

link

未完待续>>>>>