GPU机器安装paddle

安装基础包

yum -y install epel-release
yum -y install kernel-devel
yum -y install dkms

编辑文件 /etc/default/grub 修改 “GRUB_CMDLINE_LINUX”
rd.driver.blacklist=nouveau nouveau.modeset=0

grub2-mkconfig -o /boot/grub2/grub.cfg

重启

安装显卡驱动

下载显卡驱动

https://www.nvidia.com/Download/index.aspx?lang=en-us
 
下载完成是类似这样的文件 NVIDIA-Linux-x86_64-410.72.run 直接执行即可,
卸载 直接接参数 --uninstall
 
验证驱动是否正常
nvidia-smi

安装CUDA 9.0

我们使用rpm的方式安装

https://developer.nvidia.com/cuda-91-download-archive?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7&target_type=rpmlocal

需要把patch也一并下载

-rw-r--r-- 1 root root   155023660 Jul 14  2018 cuda-repo-rhel7-9-0-176-local-patch-4-1.0-1.x86_64.rpm
-rw-r--r-- 1 root root  1595730326 Sep 23  2017 cuda-repo-rhel7-9-0-local-9.0.176-1.x86_64.rpm
-rw-r--r-- 1 root root   150679337 Dec 21  2017 cuda-repo-rhel7-9-0-local-cublas-performance-update-1.0-1.x86_64.rpm
-rw-r--r-- 1 root root   149765568 Feb 15  2018 cuda-repo-rhel7-9-0-local-cublas-performance-update-2-1.0-1.x86_64.rpm
-rw-r--r-- 1 root root   173037836 May 24  2018 cuda-repo-rhel7-9-0-local-cublas-performance-update-3-1.0-1.x86_64.rpm

在安装时,可能会有写软件包有冲突,比如ipa-client, salt-minion等, 我们可以暂时先把有冲突的卸载,回头在装回来

冲突的原因是用yum安装了python的模块,会造成python的pip管理有问题, 所以有冲突

rpm -ivh 安装完这些rpm 还没完事, 它其实只是解压在了/var目录

(paddle-venv) root@algorithmgpu-11-123:/var# ls -ld /var/cuda*
drwxr-xr-x 3 root root  138 Aug  6 11:48 /var/cuda-repo-9-0-176-local-patch-4/
drwxr-xr-x 3 root root 4096 Aug  6 11:56 /var/cuda-repo-9-0-local/
drwxr-xr-x 3 root root  138 Aug  6 11:48 /var/cuda-repo-9-0-local-cublas-performance-update/
drwxr-xr-x 3 root root  138 Aug  6 11:48 /var/cuda-repo-9-0-local-cublas-performance-update-2/
drwxr-xr-x 3 root root  182 Aug  6 11:48 /var/cuda-repo-9-0-local-cublas-performance-update-3/

我们需要在进入这些目录安装里面的rpm, 安装也是有顺序的

/var/cuda-repo-9-0-local/ rpm -ivh *
/var/cuda-repo-9-0-local/ rpm -Uvh * 其余patch依次按顺序

这样cuda就安装完成了, 安装目录在 /usr/local/cuda-9.0

下面配置环境变量

cat /etc/profile.d/cuda.sh
export LD_LIBRARY_PATH=/usr/local/cuda/lib64/:${LD_LIBRARY_PATH}
export PATH=/usr/local/cuda/bin/:${PATH}

导入一下环境变量 source /etc/profile

安装cudnn-9.0-linux-x64-v7.1

下载上面的版本

https://developer.nvidia.com/rdp/cudnn-download

安装

https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html
其实只是拷贝到对应目录
 
 
$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
$ sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

编译安装paddle

文档

https://paddlepaddle.org.cn/documentation/docs/zh/1.5/beginners_guide/install/compile/compile_CentOS.html

注意这句话执行编译前请您确认在虚环境中安装有编译依赖表中提到的相关依赖：

我们使用本机编译的方法, 非docker

照着文档一步步做就可以了

tips

make -j$(nproc) 这个命令执行时间可能得半天,根据不同网络而定

因为要下载很多git上的仓库

最后这个paddle的目录有 8.4G