分布式深度学习计算框架依赖环境——NCCL的安装

分布式深度学习计算框架(MindSpore, PyTorch)依赖环境——NCCL, NCCL提供多显卡之间直接进行数据交互的功能(可以跨主机进行)。

注意:

本文环境为  Ubuntu18.04

 以mindspore1.2.1-gpu计算框架为示范

NCCL的官方主页:

https://developer.nvidia.com/nccl

NCCL的下载地址:

https://developer.nvidia.com/nccl/nccl-download

 (注意:下载需要进行会员注册,这里推荐使用微信或QQ登录)

====================================================

由于mindspore1.2.1-gpu 官方给出的版本要求:

确认安装NCCL 2.7.6-1版本(可选,单机多卡/多机多卡训练需要)

确认安装CUDA 10.1

因此,我们需要安装nccl版本为:

Download NCCL 2.7.6, for CUDA 10.1, July 6,2020

安装对应版本的nccl之前请注意:

参考nccl 安装官方手册:

https://docs.nvidia.com/deeplearning/nccl/install-guide/index.html#debian

正确的  nccl   安装步骤:

1.  In the following commands, please replace<architecture>with your CPU architecture:x86_64,ppc64le, orsbsa, and replace<distro>with the Ubuntu version, for exampleubuntu1604,ubuntu1804, orubuntu2004.

根据刚才给出的软硬件平台, <architecture> 为 x86_64 , <distro> 为ubuntu1804 。

于是需执行命令:

sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub

2.   安装刚才下载的  deb 文件:

sudo  dpkg  -i  nccl-repo-ubuntu1804-2.7.6-ga-cuda10.1_1-1_amd64

3.   更新 apt

sudo apt update

4.  Install thelibnccl2package with APT. Additionally, if you need to compile applications with NCCL, you can install thelibnccl-devpackage as well

安装  libnccl2 、  libnccl-dev

从刚才的官方nccl下载页面可以知道,对应的  libnccl2 、  libnccl-dev  版本。

即:

sudo apt install libnccl2=2.7.6-1+cuda10.1 libnccl-dev=2.7.6-1+cuda10.1

安装结束。

配置环境变量:

 这里nccl都是安装在默认路径下,因此不需要再格外配置路径。

===============================================================

nccl  安装结束后可以使用  nccl-test  来测试是否安装成功,  具体的测试方法参看前文:

https://www.cnblogs.com/devilmaycry812839668/p/15023221.html

本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注者,如有侵权请与博主联系。
原文地址:https://www.cnblogs.com/devilmaycry812839668/p/15023229.html