NCCL(Nvidia Collective multi-GPU Communication Library) Nvidia英伟达的Multi-GPU多卡通信框架NCCL 学习；PCIe 速率调研；

为了了解，上来先看几篇中文博客进行简单了解：

如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？(较为优秀的文章)
使用NCCL进行NVIDIA GPU卡之间的通信（GPU卡通信模式测试）
nvidia-nccl 学习笔记（主要是一些接口介绍）
https://developer.nvidia.com/nccl (官方网站)
https://github.com/NVIDIA/nccl （官方仓库）
https://www.cnblogs.com/xuyaowen/p/heterogeneous-system-architecture.html GPU 相关架构
https://www.nvidia.cn/data-center/nvlink/ (NVLink)
https://docs.nvidia.com/deeplearning/sdk/nccl-developer-guide/docs/overview.html （nccl doc）

内容摘录：

通信性能（应该主要侧重延迟）是pcie switch > 同 root complex （一个cpu接几个卡） > 不同root complex（跨cpu 走qpi）。ib的gpu direct rdma比跨cpu要快，所以甚至单机八卡要按cpu分成两组，每组一个switch，下面四个卡，一个ib，不通过cpu的qpi通信，而是通过ib通信。- 摘自评论
对于多个GPU卡之间相互通信，硬件层面上的实现有Nvlink、PCIe switch（不经过CPU）、Infiniband、以及PCIe Host Bridge（通常就是借助CPU进行交换）这4种方式。而NCCL是Nvidia在软件层面对这些通信方式的封装。

保持更新，更多内容，请参考cnblogs.com/xuyaowen;

PCIe 速率：

z390 芯片组资料：

https://ark.intel.com/content/www/cn/zh/ark/products/133293/intel-z390-chipset.html

P2P 显卡通信性能测试：

cuda/samples/1_Utilities/p2pBandwidthLatencyTest

nvidia 驱动安装：

https://www.cnblogs.com/xuyaowen/p/nvidia-driver-cuda-installation.html

nccl 编译安装过程：

git clone git@github.com:NVIDIA/nccl.git

cd nccl

make -j src.build （进行编译）

cd build

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/yourname/nccl/build/lib # 添加环境变量；也可以配置环境变量.bashrc;

export C_INCLUDE_PATH=/home/yourname/nccl/build/include (设置 C 头文件路径)

export CPLUS_INCLUDE_PATH=/home/yourname/nccl/build/include (设置C++头文件路径)

测试是否安装成功：

git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests
make CUDA_HOME=/path/to/cuda NCCL_HOME=/path/to/nccl （具体编译，可以参考官方文档）
./build/all_reduce_perf -b 8 -e 256M -f 2 -g <ngpus>

才是