从重装服务器到运行深度学习记录

从重装服务器到部署运行yolox

unbuntu重装

  我这里的服务器是华硕的主板,本来学长都已经装好了,但是我们改了一些系统参数文件,直接给系统改崩了。只能推倒重来。整个过程踩坑无数,真的是几乎想跳楼。
  华硕主板的bios整的花里胡哨的,开机F2进入bios后,F7进入更多设置把fast boot给关掉,还有security boot这个我找了半天找不到,后来才发现原来改成中文的了,叫安全模式好像,可能是对主板的保护,是灰色的不能修改。就算了。
  修改完保存,按F8选择刻录好的系统盘。如果机子有nvidia的显卡貌似会卡住,在选择界面按e,把quiet splash - - - 改成 quiet splash acpi=off就ok了然后才能安装成功。

配置ssh和ftp协议

  因为需要使用xshell和sftp这两个软件,我这里装的是桌面版的ubuntu,需要自己配置服务。这个简单,没坑直接按照引用博客

装显卡驱动,cuda和cudnn

显卡驱动

  • 卸载显卡驱动

sudo apt-get purge nvidia*

  • 查找可用的驱动版本

ubuntu-drivers devices

  • 查找本机内核版本

cat /proc/driver/nvidia/version

  • 安装

sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime

  • 检验
    nvidia-smi

cuda

  • 在nvidia官网 选择deb安装即可,按照官网的给的流程
  • 配置环境变量
    vim ~/.bashrc
    export CUDA_HOME=/usr/local/cuda
    export PATH=$PATH:$CUDA_HOME/bin
    export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}} 
    
    source ~/.bashrc

cudnn

我在安装pytorch时给我集成上了,没有单独安装

  tar -xvf cudnn-11.3-linux-x64-v8.2.0.53.tgz
  sudo cp cuda/include/cudnn.h /usr/local/cuda-11.4/targets/x86_64-linux/include/
  sudo cp cuda/lib64/libcudnn* /usr/local/cuda-11.4/targets/x86_64-linux/lib/
  sudo chmod a+r /usr/local/cuda-11.4/targets/x86_64-linux/include/cudnn.h
  sudo chmod a+r /usr/local/cuda-11.4/targets/x86_64-linux/lib/libcudnn*
  cat /usr/local/cuda-11.4/targets/x86_64-linux/include/cudnn.h | grep CUDNN_MAJOR -A 2

附一个当时安装的过程,虽然失败了

pytorch

官网安装,即可,选择号对应的cuda什么的

给文件价权限

chmod 777 文件夹名字

给用户root权限

修改 /etc/passwd 文件,找到如下行,把用户ID和后面那个数字都改为0。这一步如果搞错了,可能切换不了用户。

yolox

根据官方给的运行过程。pycocotools安装不上。
conda install -c conda-forge pycocotools
用这个安装

apex那个包也安装不上
主要是git都git不下来。我这边是,先windows把apex-master下载下来,然后xftp传上去
最后
python3 setup.py install
安装即可

然后按照官方给的步骤运行即可

原文地址:https://www.cnblogs.com/wenwenjiejie/p/15093126.html