读《阿法狗围棋系统的简要分析》

这篇文章[1]是 facebook 人工智能研究所的田渊栋研究员在16年发表于《自动化学报》上的文章，周志华老师是本文的责任编委。
这篇文章主要谈 AlphaGo 的系统组成，包括走棋网络、快速走子、估值网络与蒙特卡罗树搜索。走棋网络用到的技术有深度卷积神经网络（Deep convolutional neural network，DCNN），而快速走子用到的是传统技术——局部特征匹配和线性回归——这种技术广泛用于广告推荐、竞价排名等应用场景中。
基于 DCNN 的围棋系统，从一开始就需要大量的高水平对局以建立走子网络，在此基础上才能训练出估值网络来。
在 AlphaGo 中，增强学习 (Reinforcement learning) 所扮演的角色并没有想像中那么大。在理想情况下，我们希望人工智能系统能在对局中动态地适应环境和对手的招式并且找到办法反制之，但是在 AlphaGo 中增强学习更多得是用于提供更多质量更好的样本，给有监督学习 (Supervised learning) 以训练出更好的模型。在这方面增强学习还有很长的路要走。

Reference
[1] 田渊栋. 阿法狗围棋系统的简要分析[J]. 自动化学报, 2016, 42(005):670-675.