AlphaStar

自以围棋为代表的完全信息博弈/游戏被 AlphaGo 攻克、取得超出人类顶尖棋手的水平之后，研究人员们立刻向非完全信息博弈发起更加猛烈的进攻。典型的非完全信息博弈比如德州扑克，玩家需要在看不到对手的牌面的状况下做出决策，CMU 的德扑 AI 论文也拿到了 NIPS 2017 的最佳论文奖。
虽然都是 RTS （即时战略）游戏，虽然都需要在收集资源和打架之间找到平衡，但星际和 DOTA2 也有不少区别。星际中需要控制多种不同类型的单位，这些单位有各自的运动和攻击特点，而 DOTA2 中可以从头到尾只控制同一个英雄；星际中每一方只有一位玩家，而 DOTA2 中每一方有五位玩家。由此带来的游戏策略和执行上的区别也让星际 AI 研究和 DOTA2 AI 研究走出了不同的发展路线。

AlphaStar 模型设计

AlphaStar 是一个把游戏看作长序列建模学习任务的强化学习智能体，它的模型设计也就以长序列建模为能力为核心。模型从游戏接口接收的数据是单位列表和这些单位的属性，经过神经网络计算后输出在游戏中执行的指令。这个神经网络的基础是 Transformer 网络，并且结合了一个深度 LSTM 网络核心、一个带有指针网络的自动回归策略头，以及一个中心化的评分基准。这样的网络架构是 DeepMind 对复杂序列建模任务的最新思考结果，他们也相信这样的先进模型可以在其他需要长序列建模、有很大行动空间的机器学习任务（比如机器翻译、语言建模和视觉表示）中同样发挥出优秀的表现。

DeepMind 在技术介绍博客中提到，为了让 AlphaStar league 中有尽量高的多样性，他们实际上有意识地为不同的智能体设置了不同的学习目标（这也符合我们的常识，简单的随机扰动带来的多样性变化是非常有限的）。有的智能体要专门针对击败某个特定的智能体进行学习，或者为另一些智能体设定额外的内部动机，比如具体地通过建造某种单位来击败所有使用某类策略的智能体。这些目标会在训练过程中进行一些调节。DeepMind 可视化展示了最终形成的多种不同策略分布，如下图。

这个为长序列建模设计的网络架构可以用在更多不完全信息的长序列建模任务中
AlphaStar 中提出的群体训练策略就是一种可靠得多、出错的可能性明显减小的训练策略。

DeepMind提出关系性深度强化学习：星际争霸2任务中获得最优水平

RRL（关系性深度强化学习）主张使用关系状态（和动作）空间和策略表征，将关系学习（或归纳逻辑编程）的泛化能力与强化学习相结合。