Horovod

Horovod是一个支持TensorFlow、Keras、PyTorch和Apache MXNet的分布式训练框架。Horovod的目标是让分布式深度学习更快更易用。 

为啥不用原生的TensorFlow分布式训练? 

1、代码改动多少?

2、比原生的分布式训练快多少?

Horovod用的MPI比分布式TensorFlow用的parameter servers,简单直接得多。而且,Horovod更快,下面的benchmark用了128台服务器,每台机器4张Pascal GPU,机器之间是有RoCE能力的25Gbit/s网络。

对于Inception V3和ResNet-101,Horovod有90%的扩展效率,对于VGG-16,则是68%。 

安装Horovod:(这些环境问题要注意!!!) 

1、安装OpenMPI或者其他MPI实现。OpenMPI 3.1.3有个问题会导致卡住,建议降级到3.1.2,或者升级到4.0.0。

2、如果是用PyPI装的TensorFlow,要确保装g++-4.8.5或者g++-4.9。如果是用PyPI装的PyTorch,要确保装g++-4.9或者以上。如果是用Conda装的TensorFlow或者PyTorch,要确保装gxx_linux-64 Conda包。

3、安装Horovod pip包。

pip install horovod

通过docker使用Horovod:https://github.com/horovod/horovod/blob/master/docs/docker.rst 。

单机运行docker:

$ nvidia-docker run -it horovod:latest     // 可能还要别的参数,例如--net=host
root@c278c88dd552:/examples# horovodrun -np 4 -H localhost:4 python keras_mnist_advanced.py    // 旧版本只有mpirun,不是horovodrun

下面的错误信息是因为容器运行没有用--privileged参数 

Read -1, expected 131072, errno = 1  

添加Mellanox RDMA支持

如果你有Mellanox网卡, 

参考链接:

https://github.com/horovod/horovod

https://arxiv.org/pdf/1802.05799.pdf

原文地址:https://www.cnblogs.com/yangwenhuan/p/11165168.html