AlphaZero如何学习国际象棋的?

DeepMind 和 Google Brain 研究人员以及前世界国际象棋冠军Vladimir Kramnik通过概念探索、行为分析和对其激活的检查，探索了人类知识是如何获得的，以及国际象棋概念如何在 AlphaZero 神经网络中表示。

AlphaZero 在短短四个小时内掌握了所有国际象棋专业知识。AlphaZero 不仅要颠覆国际象棋世界，还要颠覆整个世界战略决策领域。AlphaZero 胜利者代表了另一个重要方面的突破：这是一种可以推广到其他学习任务的算法。

众所周知，深度神经网络可以学习人类无法理解的不透明、无法解释的表示。因此从科学和实践的角度来看，探索像AlphaZero这样自学成才的超人类神经网络代理实际上在学习什么以及如何学习，才是最重要的。

在新论文Acquisition of Chess Knowledge in AlphaZero中，DeepMind 和 Google Brain 研究人员以及前世界国际象棋冠军Vladimir Kramnik探索了 AlphaZero 如何以及在多大程度上获取人类知识，以及如何在其网络模型中表示国际象棋概念。他们通过全面的概念探索、行为分析和对 AlphaZero 激活的检查来做到这一点。

像AlphaZero这样复杂的神经网络代理能学到什么?这个问题既有科学意义又有实践意义。如果强神经网络的表示与人类的概念没有相似之处，我们理解对其决策的解释的能力将受到限制，最终也会限制在神经网络可解释性方面的成就。在这项工作中，论文证明了AlphaZero神经网络在下棋时可以获得人类知识。通过探索广泛的人类国际象棋概念，论文展示了这些概念在如何在AlphaZero网络中表示。还提供专注于开局的行为分析，包括定性分析国际象棋大师Vladimir Kramnik。最后，对AlphaZero表示的底层细节进行了初步查看，并将结果的行为分析和表示分析放到网上。

研究人员的研究前提是：如果像 AlphaZero 这样的强神经网络的表示与人类概念没有相似之处，我们理解其决策的解释的能力将受到限制，最终限制了我们可以通过神经网络可解释性实现的目标。

完整文章