google colab tensorflow2.6.2gpu环境部署

最近公司需要做深度学习，无奈自己笔记本是什么m2000m，2g显存，查了下，和gtx970差不多水准，这显卡，拿来跑稍微大一点的模型都会爆显存

经过一番查询，发现谷歌提供免费的gpu供深度学习使用，免费用户最长12小时连续运行，超过就会回收

进过一番操作，进入了谷歌的colab，首先看下配置信息，给配了 tesla k80，11g的显存

Tue Nov 16 08:23:37 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.44       Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 00000000:00:04.0 Off |                    0 |
| N/A   71C    P8    35W / 149W |      0MiB / 11441MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

　系统是ubuntu 18.04，内存12.69g 硬盘78g，这配置可以说非常豪华，而且还是免费的，这里给谷歌点个赞

colab使用的是python的Jupyter Notebook，使用起来非常好上手，然后可以使用!+shell指令执行命令，而且直接是root权限

（这里批评下华为的modelarts 里面的codelab，执行个shell命令还要问我root密码，我去哪里找root密码）

colab数据都是暂存，一旦清理，数据都没了，所以需要将数据保存到谷歌云盘，谷歌免费提供了15g的空间，这点够跑跑模型验证了

点击如下按钮即可装载谷歌云盘，而且后续开通新的虚拟机也会自动装载，非常方便，装载好后文件传输就方便了

进过检测，系统安装的cuda版本是11.0， cudnn版本是8.0.5，我这次需要安装tensorflow2.6+，按照对照表，需要cuda版本11.2+cudnn版本8.1.0

所以需要升级cuda版本和cudnn版本，升级cuda版本很简单，执行如下2个命令即可，这里对应系统ubuntu18.04，其他版本对照nvidia官网

!wget https://developer.download.nvidia.com/compute/cuda/11.2.0/local_installers/cuda_11.2.0_460.27.04_linux.run
!sudo sh cuda_11.2.0_460.27.04_linux.run --toolkit --silent --override

　升级cudnn就比较麻烦了，因为下载cudnn需要注册，自行注册后下载cudnn对应的文件，然后上传到谷歌云盘

　然后执行如下命令即可升级cudnn（路径自行修改）

!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8_8.1.0.77-1+cuda11.2_amd64.deb"
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-dev_8.1.0.77-1+cuda11.2_amd64.deb"
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-samples_8.1.0.77-1+cuda11.2_amd64.deb"

至此，cudnn和cuda都安装好了，接下去安装tensorflow就能跑起来了

!cp "/content/drive/MyDrive/Colab Notebooks/test/train.py" /content/
!cp "/content/drive/MyDrive/Colab Notebooks/test/test.npz" /content/
!python train.py

总结来说，谷歌的colab其实就是一台ubuntu18.04的服务器，给你root权限，你可以做你想做的任何事情

相对比其他平台来说，就没那么大自由度了，百度的ai studio，只能用paddle框架，华为的codelab，没有root权限，各种不支持

目前已经用colab跑通了模型验证，现在就是正在增加数据跑训练，提升识别率

PS，经过实际测试，可以完全将数据放到谷歌云盘中运行，这样数据都在，不会因为colab回收导致数据丢失，无法进行长时间训练