GPU 的实时状态监测
解释相关参数含义: GPU:本机中的GPU编号 Name:GPU 类型 Persistence-M: Fan:风扇转速 Temp:温度,单位摄氏度 Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能 Pwr:Usage/Cap:能耗表示 Bus-Id:涉及GPU总线的相关信息; Disp.A:Display Active,表示GPU的显示是否初始化 Memory-Usage:显存使用率 Volatile GPU-Util:浮动的GPU利用率 Uncorr. ECC:关于ECC的东西 Compute M.:计算模式 Processes 显示每块GPU上每个进程所使用的显存情况。
watch命令实时监测显卡
watch的基本用法是:
watch [options] command
最常用的参数是 -n, 后面指定是每多少秒来执行一次命令。
Nvidia自带了一个nvidia-smi的命令行工具,会显示显存使用情况:
nvidia-smi
设置一个每 10s 显示一次显存的情况:
watch -n 10 nvidia-smi # n=1时,就可以实时监测显卡使用情况。
这样,只要开着这个命令行窗口,就可以每n秒刷新一次。
显存占用和GPU占用是两个不一样的东西,显卡是由GPU和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。
比如,你跑caffe代码的时候显存占得少,GPU占得多; 而他跑TensorFlow代码的时候,显存占得多,GPU占得少。
=============== 附: 参考======================
@https://blog.csdn.net/C_chuxin/article/details/82993350