机器学习处理流程

一、数据预处理

　　1）缺失数据处理。对于缺失数据，可以取平均值。如果大量样本都缺失该特征，可以直接去掉该特征。

　　2）特征转换。将字符串特征转换为对应的数字表示。

　　3）归一化处理

　　4）数据转换。将偏态数据转换成尽量符合正态分布特征。

二、特征工程

　　分析特征对最终模型的影响程度，如果是回归问题，就看特征对Y值的影响；分类问题，就看特征对分类结果的影响大小。可以采用图表的方式直观来展现、分析，更具有说服力。最终目的是剔除一些对模型影响不大的冗余特征，使得模型更加精炼。

三、模型选择与构建

　　根据问题的求解以及数据的形态、分布情况，分析选择什么样的模型来解决问题更合适，是分类、聚类问题，还是回归问题等等。不同的问题选择不同的数学模型，并构建相应模型进行下一步处理。

四、模型验证与参数选择

　　这一步可以利用交叉验证方法选择模型的参数，例如选择正则化参数λ、多项式回归中的最高次数d、SVM中的参数C与σ等等。

　　另外一方面就是对模型的选择，同样利用交叉验证方法，可以对比选择模型，是采用Ridge回归还是Lasso回归等等。

五、模型最终打分

　　当模型训练完成并交叉验证确定后，利用测试集对模型做最后的评测，计算精确度，或者求解F1值，给模型做一个最后的打分。