数据比赛实现的细节

数据比赛实现的细节

workflow & pipeline 的设计；

0. 数据预处理

降维：
- PCA；
图像预处理
- 去均值，归一化（缩放在 (0, 1) 之间），imresize；

1. 机器学习方法

尤其是图像问题，对特征提取方法提取特征的质量依赖较高；
- 也即特征工程，这里给出一些先验的特征提取方法：
  - scene classification：bag of visual words，比如 restaurant 对应的 words：椅子，吧台，桌子等这些即为 visual words；
参数优化：

2. 深度学习方法

考虑到最终实现的效率问题：
- 使用 transfer learning，使用在 ImageNet 等大型数据集上已训练好的大型深度神经网络模型；也即 fine-tune a pre-trained model（transfer learning），使用转移学习对已训练好的模型进行 fine-tune 尤其适用于仅有中等规模的数据集（medium amounts of data），此外还有训练时间的考虑。自然，如果数据集规模很大，时间较为充沛，可考虑自己设计深度神经网络模型以及对本地数据进行训练；
- 且从头到尾训练一个深度神经网络，对于小规模的数据集还容易造成，过拟合问题；
- 模型所在的位置：Index of /matconvnet/models

3. 模型调优

不断地改变参数，有时为了最终的比赛结果宁可牺牲效率；

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/mtcnn/p/9421478.html