《深度学习之kaggle》:一、字符分类简介及环境配置

一、目标问题

  字符识别,十分类问题(字符取值范围0-9),在任意分辨率图像上进行目标检测。如下图,样本集40000+图片,来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。该数据来自真实场景的门牌号。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置。

        所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。

FieldDescription
top 左上角坐标X
height 字符高度
left 左上角最表Y
width 字符宽度
label 字符编码
二、  环境配置
 
   博文中所有出现的代码仅适用于 pytorch1.3.1 torchvision0.4.2,以下指令作为参考。
 
 
1 conda create -n py37_torch131 python=3.7
2 source activate py37_torch131
3 conda install pytorch=1.3.1 torchvision=0.4.2 cudatoolkit=10.0

       要是没有梯子,或者安装太慢,建议去去官方源链接手动下载,然后用conda insatll xxx.whl 手动安装驱动。

anaconda官方源链接: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/
清华源链接:https://download.pytorch.org/whl/torch_stable.html
       比如:我这里下载的文件名为:cu101/torch-1.3.1-cp37-cp37m-win_amd64.whl ,从名字可以看出来torch版本为1.3.1,和cuda10.1绑定在一起,适用于python
最低版本3.7,适用于windows-x64系统。使用以下指令验证版本:
 
1 import torch
2 import torchvision
3 
4 print(torch.version.cuda)
5 print(torch.__version__)
6 print(torchvision.__version__)

结果是:

10.1
1.3.1
0.4.2

三、结果提交

       提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。

1 file_name, file_code
2 0010000.jpg,451
3 0010001.jpg,232
4 0010002.jpg,45
5 0010003.jpg,67
6 0010004.jpg,191
7 0010005.jpg,892

       写在最后,此时此刻是2020年八月份。据我查询资料,凡是安装深度学习python库,几乎所有的博客都提到去NVIDIA官网下载CUDA和cuDNN。根据实践,我在一台显卡为RTX2060的台式机上并没有去官网下载CUDA和cuDnn并安装,而是按照本博客前面所述,仅仅使用conda或者pip安装了python版本的cuda,一样有加速效果,40000张图片,训练时间大概两个半小时,具体见下篇博客。

 
 
 
 
 
 
 
 
原文地址:https://www.cnblogs.com/winslam/p/13576245.html