机器学习--02基础误差分析

基础误差分析

如果在一开始就试图设计和构建出完美的系统会显得有些困难,不妨先花几天时间构建并训练 一个最基础的系统。或许这个最基础的系统与我们所能构建的 “最佳” 系统相去甚远,但研究其中的基础功能也是很有价值的:你能快速找到一些线索来帮助你决定在什么方向上投入时间。

小结:

• 当你开始一个新项目,尤其是在一个你不擅长的领域开展项目时,很难正确预判出最有前 景的方向。

• 要在一开始就试图设计和构建一个完美的系统。相反,应尽可能快(例如在短短 几天内)地构建和训练一个系统雏形。然后使用误差分析法去帮助你识别出最有前景的方 向,并据此不断迭代改进你的算法。

• 通过手动检查约 100 个被算法错误分类的开发集样本来执行误差分析,并计算主要的错误 类别。使用这些信息来确定优先修正哪种类型的错误。

• 考虑将开发集分为人为检查的 Eyeball 开发集和非人为检查的 Blackbox 开发集。如果在 Eyeball 开发集上的性能比在 Blackbox 开发集上好很多,说明你已过拟合 Eyeball 开发集 ,下一步应该考虑为其获取更多数据。

• Eyeball 开发集应该足够大,以便于算法有足够多的错误分类样本供你分析。对大多数应 用来说,含有1000-10000个样本的 Blackbox 开发集已足够。

• 如果你的开发集不够大,无法按照这种方式进行拆分,那么就使用 Eyeball 开发集来执行 人工误差分析、模型选择和调超参。

原文地址:https://www.cnblogs.com/kedaxiaohei/p/10043661.html