推荐：分布式深度学习

资料

https://zhuanlan.zhihu.com/p/50116885

https://zhuanlan.zhihu.com/p/30976469

https://levinehuang.github.io/deep-learning/ai/2018/11/20/Large_Distributed_Model_Training_01/

https://www.codenong.com/cs106079609/

http://images.china-pub.com/ebook8075001-8080000/8077044/ch01.pdf

笔记

【Parameter Server】

参数量大的情况下，应当选择模型并行，也就是将参数矩阵拆分成小部分，e.g. :

Forward 的时候把每个 node 的 XAiBi 传给其他 node。backward 不需要传输数据。
然而需要拆分

选择数据并行

在两个 node 上防止完全相同的 A, B 。拆分 X = [x1, x2]
Forward 不需要传输，backward 需要传输由 Xi 计算出来的 A, B 的梯度传给其他 node。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/toonice/p/15131523.html