数据挖掘概念与技术(韩家伟)阅读笔记2

1.数据清理:

       通过填写缺失的值,光滑噪声数据,识别或删除离群点并解决不一致性来清理数据。

2.数据集成

        集成多个数据库,数据立方体或文件。

        由于不同的数据库同一概念的属性可能有不同的名字,或者属性值命名不一致等都会造成不一致性和冗余。所以在准备数据时应当避免数据冗余,还不仅仅是简单的组合在一起。

3.数据变换

      规范化(对某属性按比例映射到一个特定的区间)和聚集(求和等,比如获得年收入)。

4.数据规约

       简化数据集。方法:数据聚集,属性子集选择,维度规约,数值规约。

5.描述性数据汇总

       目的:获得数据总体印象,凸显那些数据值应当被视为噪声或离群点。

       数据中心趋势:均值(对极端值非常敏感),中位数(适用于对于倾斜,非对称 的数据集),众数,中列数(max和min的均值)。

                   对于分对称的单峰频率曲线有:

                 mean-mode =3*(mean-median);均值-众数=3*(均值-中位数)。

        数据离中趋势:四分位数,四分位数极差,方差。

              a.第一个是四分位数Q1是第25个百分位数(第k个百分位数Xi即百分之k的数据项位于或低于xi)。

              b.中间四分位数极差IQR=Q3-Q1;

              c.五数概括:中位数,Q1,Q3,最大观测值,最小观测值。

                        表示方法:盒图。

                        单独会出的的观测值是超过Q3,1.5*IQR或者小于Q1,1.5倍IQR的那些值。

               d.方差和标准差

                         他们是关于均值的度量,即只有选择均值作为中心度量时才使用。

               e.图形显示:

                    直方图,分位数图

                     分位数-分位数图(q-q图):即对于分位数a,分别有x,y两个数据,则坐标(x,y)作为坐标中的一个点。观察单变量的有效方法(在不同情况下的不同取值)。

                     散布图:观察双变量的有效方法。观察两个变量之间是否相关(正相关,负相关等)。

                     loss曲线:在散布图中添加一条光滑的曲线,来拟合数据的分布。参数:a,光滑参数,典型取值1/4--1的正数,越大越光滑,但可能出现拟合不足(局部的抖动无法表示),太小的话,过分拟合可能造成局部过分的抖动造成实际数据不支持。b,可以是1或2(二次拟合存在局部最大最小值)。 

原文地址:https://www.cnblogs.com/zjh225901/p/6014948.html