Horovod介绍

该项目的主要动机是让使用单 GPU 训练脚本变得容易，并成功地将其扩展为跨多个 GPU 并行训练。这有两个方面：

必须对程序进行多少修改才能使其分发，并且运行它有多容易？
它在分布式模式下运行速度会快多少？

在 Uber 内部，我们发现 MPI 模型比以前的解决方案（例如带有参数服务器的分布式 TensorFlow）要简单得多，并且需要的代码更改要少得多。一旦使用 Horovod 编写了用于扩展的训练脚本，它就可以在单 GPU、多 GPU 甚至多台主机上运行，而无需任何进一步的代码更改。有关更多详细信息，请参阅使用部分。

除了易于使用之外，Horovod 速度也很快。下面的图表代表了在 128 个服务器上完成的基准测试，这些服务器有 4 个 Pascal GPU，每个服务器都通过支持 RoCE 的 25 Gbit/s 网络连接：

Horovod 在 Inception V3 和 ResNet-101 上实现了 90% 的扩展效率，在 VGG-16 上实现了 68% 的扩展效率。请参阅基准以了解如何重现这些数字。

虽然安装 MPI 和 NCCL 本身可能看起来很麻烦，但它只需要由处理基础设施的团队完成一次，而公司中构建模型的其他人都可以享受大规模训练它们的简单性。

参考论文：https://arxiv.org/pdf/1802.05799.pdf

【点赞、关注、评论三连生活更美好】