《深度学习之kaggle》：一、字符分类简介及环境配置

一、目标问题

　　字符识别，十分类问题（字符取值范围0-9），在任意分辨率图像上进行目标检测。如下图，样本集40000+图片，来源自Google街景图像中的门牌号数据集（The Street View House Numbers Dataset, SVHN），并根据一定方式采样得到比赛数据集。该数据来自真实场景的门牌号。训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置。

所有的数据（训练集、验证集和测试集）的标注使用JSON格式，并使用文件名进行索引。如果一个文件中包括多个字符，则使用列表将字段进行组合。

Field	Description
top	左上角坐标X
height	字符高度
left	左上角最表Y
width	字符宽度
label	字符编码

二、环境配置

　　博文中所有出现的代码仅适用于 pytorch1.3.1 torchvision0.4.2，以下指令作为参考。

1 conda create -n py37_torch131 python=3.7
2 source activate py37_torch131
3 conda install pytorch=1.3.1 torchvision=0.4.2 cudatoolkit=10.0

要是没有梯子，或者安装太慢，建议去去官方源链接手动下载，然后用conda insatll xxx.whl 手动安装驱动。

anaconda官方源链接： https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/

清华源链接：https://download.pytorch.org/whl/torch_stable.html

比如：我这里下载的文件名为：cu101/torch-1.3.1-cp37-cp37m-win_amd64.whl ，从名字可以看出来torch版本为1.3.1，和cuda10.1绑定在一起，适用于python

最低版本3.7，适用于windows-x64系统。使用以下指令验证版本：

1 import torch
2 import torchvision
3 
4 print(torch.version.cuda)
5 print(torch.__version__)
6 print(torchvision.__version__)

结果是：

10.1
1.3.1
0.4.2

三、结果提交

提交前请确保预测结果的格式与sample_submit.csv中的格式一致，以及提交文件后缀名为csv。

1 file_name, file_code
2 0010000.jpg,451
3 0010001.jpg,232
4 0010002.jpg,45
5 0010003.jpg,67
6 0010004.jpg,191
7 0010005.jpg,892

写在最后，此时此刻是2020年八月份。据我查询资料，凡是安装深度学习python库，几乎所有的博客都提到去NVIDIA官网下载CUDA和cuDNN。根据实践，我在一台显卡为RTX2060的台式机上并没有去官网下载CUDA和cuDnn并安装，而是按照本博客前面所述，仅仅使用conda或者pip安装了python版本的cuda，一样有加速效果，40000张图片，训练时间大概两个半小时，具体见下篇博客。