机器学习项目流程

1,将问题抽象成数学问题,是分类,是回归或者是聚类问题。

2,获取数据

获取数据集,或者创造数据集。

数据要均匀,否则会因为过多某一种学习数据特征,造成过拟合。

数据的数量级对内存影响。

3,数据的预处理和特征选择

归一化,离散化,因子化,缺失项处理等。

同时,对数据的挖掘,从现有数据提取出新数据,能够很大影响结果数据。

4,训练和调优

符合数据的模型,符合数据特征的损失函数。过拟合调优则增加数据量,降低模型复杂度(参数过多,超平面过于复杂)。欠拟合则提高特征数量和质量,增加模型复杂度。(参数少,超平面简单)

5,模型诊断

模型好坏不是针对一个数据集,最终模型要看它的鲁棒性。交叉验证,模型复杂度。同时模型的效果好坏。

6,模型融合

一般来说,模型融合都可以提升效果。

7,上线运行

各种模型实际运用到工程中的效果。

原文地址:https://www.cnblogs.com/lpfworld/p/10732159.html