google colab tensorflow2.6.2gpu环境部署

最近公司需要做深度学习,无奈自己笔记本是什么m2000m,2g显存,查了下,和gtx970差不多水准,这显卡,拿来跑稍微大一点的模型都会爆显存

经过一番查询,发现谷歌提供免费的gpu供深度学习使用,免费用户最长12小时连续运行,超过就会回收

进过一番操作,进入了谷歌的colab,首先看下配置信息,给配了 tesla k80,11g的显存

Tue Nov 16 08:23:37 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.44       Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 00000000:00:04.0 Off |                    0 |
| N/A   71C    P8    35W / 149W |      0MiB / 11441MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

 系统是ubuntu 18.04,内存12.69g 硬盘78g,这配置可以说非常豪华,而且还是免费的,这里给谷歌点个赞

colab使用的是python的Jupyter Notebook,使用起来非常好上手,然后可以使用!+shell指令执行命令,而且直接是root权限

(这里批评下华为的modelarts 里面的codelab,执行个shell命令还要问我root密码,我去哪里找root密码)

colab数据都是暂存,一旦清理,数据都没了,所以需要将数据保存到谷歌云盘,谷歌免费提供了15g的空间,这点够跑跑模型验证了

点击如下按钮即可装载谷歌云盘,而且后续开通新的虚拟机也会自动装载,非常方便,装载好后文件传输就方便了

进过检测,系统安装的cuda版本是11.0, cudnn版本是8.0.5, 我这次需要安装tensorflow2.6+,按照对照表,需要cuda版本11.2+cudnn版本8.1.0

 所以需要升级cuda版本和cudnn版本,升级cuda版本很简单,执行如下2个命令即可,这里对应系统ubuntu18.04,其他版本对照nvidia官网

!wget https://developer.download.nvidia.com/compute/cuda/11.2.0/local_installers/cuda_11.2.0_460.27.04_linux.run
!sudo sh cuda_11.2.0_460.27.04_linux.run --toolkit --silent --override

 升级cudnn就比较麻烦了,因为下载cudnn需要注册,自行注册后下载cudnn对应的文件,然后上传到谷歌云盘

 然后执行如下命令即可升级cudnn(路径自行修改)

!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8_8.1.0.77-1+cuda11.2_amd64.deb"
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-dev_8.1.0.77-1+cuda11.2_amd64.deb"
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-samples_8.1.0.77-1+cuda11.2_amd64.deb"

至此,cudnn和cuda都安装好了,接下去安装tensorflow就能跑起来了

!cp "/content/drive/MyDrive/Colab Notebooks/test/train.py" /content/
!cp "/content/drive/MyDrive/Colab Notebooks/test/test.npz" /content/
!python train.py

 总结来说,谷歌的colab其实就是一台ubuntu18.04的服务器,给你root权限,你可以做你想做的任何事情

相对比其他平台来说,就没那么大自由度了,百度的ai studio,只能用paddle框架,华为的codelab,没有root权限,各种不支持

目前已经用colab跑通了模型验证,现在就是正在增加数据跑训练,提升识别率

PS,经过实际测试,可以完全将数据放到谷歌云盘中运行,这样数据都在,不会因为colab回收导致数据丢失,无法进行长时间训练

原文地址:https://www.cnblogs.com/darkspr/p/15565812.html