数据挖掘概念与技术（韩家伟）阅读笔记2

1.数据清理：

通过填写缺失的值，光滑噪声数据，识别或删除离群点并解决不一致性来清理数据。

2.数据集成

集成多个数据库，数据立方体或文件。

由于不同的数据库同一概念的属性可能有不同的名字，或者属性值命名不一致等都会造成不一致性和冗余。所以在准备数据时应当避免数据冗余，还不仅仅是简单的组合在一起。

3.数据变换

规范化（对某属性按比例映射到一个特定的区间）和聚集（求和等，比如获得年收入）。

4.数据规约

简化数据集。方法：数据聚集，属性子集选择，维度规约，数值规约。

5.描述性数据汇总

目的：获得数据总体印象，凸显那些数据值应当被视为噪声或离群点。

数据中心趋势：均值（对极端值非常敏感），中位数（适用于对于倾斜，非对称的数据集），众数，中列数（max和min的均值）。

对于分对称的单峰频率曲线有：

mean-mode =3*(mean-median);均值-众数=3*（均值-中位数）。

数据离中趋势：四分位数，四分位数极差，方差。

a.第一个是四分位数Q1是第25个百分位数（第k个百分位数Xi即百分之k的数据项位于或低于xi）。

b.中间四分位数极差IQR=Q3-Q1;

c.五数概括：中位数，Q1，Q3，最大观测值，最小观测值。

表示方法：盒图。

单独会出的的观测值是超过Q3，1.5*IQR或者小于Q1，1.5倍IQR的那些值。

d.方差和标准差

他们是关于均值的度量，即只有选择均值作为中心度量时才使用。

e.图形显示：

直方图，分位数图

分位数-分位数图（q-q图）：即对于分位数a,分别有x,y两个数据，则坐标（x，y）作为坐标中的一个点。观察单变量的有效方法（在不同情况下的不同取值）。

散布图：观察双变量的有效方法。观察两个变量之间是否相关（正相关，负相关等）。

loss曲线：在散布图中添加一条光滑的曲线，来拟合数据的分布。参数：a,光滑参数，典型取值1/4--1的正数，越大越光滑，但可能出现拟合不足（局部的抖动无法表示），太小的话，过分拟合可能造成局部过分的抖动造成实际数据不支持。b,可以是1或2（二次拟合存在局部最大最小值）。