Horovod介绍

该项目的主要动机是让使用单 GPU 训练脚本变得容易,并成功地将其扩展为跨多个 GPU 并行训练。这有两个方面:

  1. 必须对程序进行多少修改才能使其分发,并且运行它有多容易?

  2. 它在分布式模式下运行速度会快多少?

在 Uber 内部,我们发现 MPI 模型比以前的解决方案(例如带有参数服务器的分布式 TensorFlow)要简单得多,并且需要的代码更改要少得多。一旦使用 Horovod 编写了用于扩展的训练脚本,它就可以在单 GPU、多 GPU 甚至多台主机上运行,​​而无需任何进一步的代码更改。有关更多详细信息,请参阅使用部分。

除了易于使用之外,Horovod 速度也很快。下面的图表代表了在 128 个服务器上完成的基准测试,这些服务器有 4 个 Pascal GPU,每个服务器都通过支持 RoCE 的 25 Gbit/s 网络连接:

Horovod 在 Inception V3 和 ResNet-101 上实现了 90% 的扩展效率,在 VGG-16 上实现了 68% 的扩展效率。请参阅基准以了解如何重现这些数字。

虽然安装 MPI 和 NCCL 本身可能看起来很麻烦,但它只需要由处理基础设施的团队完成一次,而公司中构建模型的其他人都可以享受大规模训练它们的简单性。

参考论文:https://arxiv.org/pdf/1802.05799.pdf

【点赞、关注、评论三连生活更美好】
原文地址:https://www.cnblogs.com/oldBook/p/15742479.html