数据挖掘概念与技术(韩家伟)阅读笔记3--数据清理

1.数据清理清理什么。

    缺失值,噪声,纠正数据的不一致

2.清理噪声的方法

    a.分箱。对象是有序的数据。可以用箱的均值,中位数,箱边界光滑(箱中的每一个值都被据它最近的边界值代替)。

    b.回归。用一个函数拟合数据进行光滑。

    c.聚类。

3.数据清理作为一个过程

    a.偏差检测(第一步检测。主要解决不一致的问题)。

                (1)警惕编码的不一致和数据表示的不一致(比如日期表示)。

                (2)字段过载。将新属性定义到已有属性未使用的位。

                (3)唯一性原则。给定属性的值必须不同于该属性所有的其他值。

                (4)连续性原则。属性的最小值和最大值之间没有缺失的值。

                (5)空值规则。说明空白,问号,特殊符号等的使用及如何处理这样的值。

            工具:数据清洗工具

                    数据审计工具

    b.数据变换(第二步纠正偏差)

                  数据迁移工具:允许说明简单的变换。例如将gender变为sex(属性名).

                  ETL(提取/变换/装入工具)

               说明;这两种方法只能做简单的变换,通常在这一步我们需要编写定制的程序。

4.说明:

           在数据清理的过程中,通常是偏差检测和数据变换多次迭代进行的。

原文地址:https://www.cnblogs.com/zjh225901/p/6018294.html