机器学习套路 —— 样本集的拆分（正样本、负样本）

机器学习套路 —— 样本集的拆分（正样本、负样本）

collect negative samples of adaboost algorithm for face detection
机器学习中的正负样本

所谓正样本（positive samples）、负样本（negative samples），对于某一环境下的人脸识别应用来说，比如教室中学生的人脸识别，则教室的墙壁，窗户，身体，衣服等等便属于负样本的范畴。
负样本通过采集的方式获取，也可通过生成的方式自动获取：
- 工作 20x20 大小的人脸检测，为了获取尽可能多的负样本，拍摄一张 1000x1000 像素大小的车的图像，将其拆分为 20x20 大小的片段，⇒ 50x50
  - 也可将 1000x1000 ⇒ 拆分为 10x10 大小，100x100 副负样本图像，为了保持大小的一致，还需进一步将其拉伸到 20x20 的大小；

1. 训练集负样本继续抽样

保留全部正样本，负样本随机抽取一定比例加入训练集；

2. 数据平衡

cascade learning 以及重采样的方法 ==> 实现数据平衡；

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/mtcnn/p/9421066.html