从重装服务器到运行深度学习记录

从重装服务器到部署运行yolox

unbuntu重装

我这里的服务器是华硕的主板，本来学长都已经装好了，但是我们改了一些系统参数文件，直接给系统改崩了。只能推倒重来。整个过程踩坑无数，真的是几乎想跳楼。
华硕主板的bios整的花里胡哨的，开机F2进入bios后，F7进入更多设置把fast boot给关掉，还有security boot这个我找了半天找不到，后来才发现原来改成中文的了，叫安全模式好像，可能是对主板的保护，是灰色的不能修改。就算了。
修改完保存,按F8选择刻录好的系统盘。如果机子有nvidia的显卡貌似会卡住，在选择界面按e,把quiet splash - - - 改成 quiet splash acpi=off就ok了然后才能安装成功。

配置ssh和ftp协议

因为需要使用xshell和sftp这两个软件，我这里装的是桌面版的ubuntu，需要自己配置服务。这个简单,没坑直接按照引用博客

装显卡驱动，cuda和cudnn

显卡驱动

卸载显卡驱动

sudo apt-get purge nvidia*

查找可用的驱动版本

ubuntu-drivers devices

查找本机内核版本

cat /proc/driver/nvidia/version

安装

sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime

检验
nvidia-smi

cuda

在nvidia官网选择deb安装即可，按照官网的给的流程

配置环境变量
vim ~/.bashrc

export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

source ~/.bashrc

cudnn

我在安装pytorch时给我集成上了，没有单独安装

  tar -xvf cudnn-11.3-linux-x64-v8.2.0.53.tgz
  sudo cp cuda/include/cudnn.h /usr/local/cuda-11.4/targets/x86_64-linux/include/
  sudo cp cuda/lib64/libcudnn* /usr/local/cuda-11.4/targets/x86_64-linux/lib/
  sudo chmod a+r /usr/local/cuda-11.4/targets/x86_64-linux/include/cudnn.h
  sudo chmod a+r /usr/local/cuda-11.4/targets/x86_64-linux/lib/libcudnn*
  cat /usr/local/cuda-11.4/targets/x86_64-linux/include/cudnn.h | grep CUDNN_MAJOR -A 2

附一个当时安装的过程，虽然失败了

pytorch

官网安装，即可,选择号对应的cuda什么的

给文件价权限

chmod 777 文件夹名字

给用户root权限

修改 /etc/passwd 文件，找到如下行，把用户ID和后面那个数字都改为0。这一步如果搞错了，可能切换不了用户。

yolox

根据官方给的运行过程。pycocotools安装不上。
conda install -c conda-forge pycocotools
用这个安装

apex那个包也安装不上
主要是git都git不下来。我这边是，先windows把apex-master下载下来，然后xftp传上去
最后
python3 setup.py install
安装即可

然后按照官方给的步骤运行即可