数据预处理

方法:

l  数据清理(Clearing)

l  数据集成(Integration)

l  数据变换(Transformation)

l  数据归约/降维(Reduction)

l  数据增维(expand)

l  特征提取(generate)

 

(1)数据清理 -- 空缺值处理

       a)使用最可能的值填充空缺值,比如可以用最小二乘回归模型或判定树归纳等确定空缺值。这类方法依靠现有的数据信息来推测空缺值,使空缺值有更大的机会保持与其他属性之间的联系。

       b)用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充空缺值。如果空缺值很多,这些方法可能误导挖掘结果。

(2)数据清理 -- 噪声数据处理

       噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。

               

(3)数据变化

       a)数据平滑 -- 分箱(按中值/平均值/边值)

       b)数据概念化

       c)规范化

                 

(4)数据归约(离散化)

       去掉可分性不强和冗余的特征。常用维归约、数据压缩、数值归约等方法实现。

       PCA降维,principal component analysis,即主成成分分析

   参考地址:http://www.cnblogs.com/sweetyu/p/5085798.html

 

原文地址:https://www.cnblogs.com/sweetyu/p/5085268.html