推荐:分布式深度学习

资料

https://zhuanlan.zhihu.com/p/50116885

https://zhuanlan.zhihu.com/p/30976469

https://levinehuang.github.io/deep-learning/ai/2018/11/20/Large_Distributed_Model_Training_01/

https://www.codenong.com/cs106079609/

http://images.china-pub.com/ebook8075001-8080000/8077044/ch01.pdf



笔记

【Parameter Server】

    • 参数量大的情况下,应当选择模型并行,也就是将参数矩阵拆分成小部分,e.g. : 

      • Forward 的时候把每个 node 的  XAiBi 传给其他 node。backward 不需要传输数据。

      • 然而需要拆分

    • 选择数据并行

      • 在两个 node 上防止完全相同的 A, B 。拆分 X = [x1, x2]

      • Forward 不需要传输,backward 需要传输由 Xi 计算出来的 A, B 的梯度传给其他 node。

原文地址:https://www.cnblogs.com/toonice/p/15131523.html