常用命令以及链接记录

常用命令以及链接


清华源链接 -i https://pypi.tuna.tsinghua.edu.cn/simple
查看显卡占用
watch -n 1 nvidia-smi

监听服务器端口tensorboard:
ssh -L 12345:127.0.0.1:6006 username@remote_server_ip
本机监听服务器6006
ssh -L 12345:127.0.0.1:6006 cvteam@192.168.201.86
pytorch tensorboardX
tensorboard --logdir runs
tensorflow tensorboard
tensorboard --logdir=runs


传输文件命令:
本机到远程
scp local_file remote_username@remote_ip:remote_folder

查看文件个数
ls -l|grep "^-" |wc -l

解压到当前
tar -xvf studio.tar

查看占用端口进程的pid
lsof -i:端口号
杀死进程根据pid
kill -9 pid

docker使用
查看docker进程
docker ps -a

开启容器并设置地址映射
docker run -itd -v /data:/data --name tomcat8080 tomcat
例如:
docker run -itd -v /raid/LUOPEIPEI/CLOUD:/home/ubt --name tf15test cloud


进入已开启容器,命令模式
docker exec -it MULTIGPUTRAIN /bin/bash
查看某容器文件夹映射
docker inspect -f '{{.HostConfig.Binds}}' MULTIGPUTRAIN

box /scale
eval文件是对于无加权的模型

python kera_mgpu_train.py --snapshot imagenet --gpu '0,1,2,3' --phi 3 --random-transform --compute-val-loss --freeze-backbone --weighted-bifpn --batch-size 16 --steps 8000 coco /home/ubt/youwh/coco
讨论解决keras多gpu训练batchsize无法增大的原因
查找keras多gpu oom的错误例子
训练retina net与effdet做对比

mpirun --allow-run-as-root -np 4 --bind-to none -map-by slot -x NCCL_DEBUG=INFO -x LD_LIBRARY_PATH -x PATH -mca pml ob1 -mca btl ^openib python eff_train_hvd.py --snapshot imagenet --phi 3 --random-transform --compute-val-loss --freeze-backbone --weighted-bifpn --batch-size 16 --steps 8000 coco /home/ubt/youwh/coco

原文地址:https://www.cnblogs.com/ywheunji/p/12156725.html