数据探索

通过检验数据集的数据质量，绘制图表、计算某些特征量等手段，对样本数据集的结构和规律进行分析的过程就是数据探索。

数据质量分析

是数据预处理的前提，也是数据挖掘分析结论有效性和准确性的基础，没有有效的数据，数据挖掘构建的模型就是空中楼阁。

缺失值分析

缺失值产生的原因

缺失值的影响

缺失值的分析：缺失属性的个数，缺失率

异常值分析

忽视异常值的存在是十分危险的。

异常值数值明显偏离其余的观测值，异常值也称为离群点，因此也叫离群点分析。

简单统计量分析

最常用的是最大值和最小值，判断这个变量去的取值是否超出合理的范围。

3σ原则

如果数据服从正态分布，在3σ原则下，异常值被定义为一组测定值与平均值的偏差超过3倍标准差的值。

箱型图分析

箱型图提供了识别异常值的一个标准：异常值通常被定义为小于Q_L-1.5IQR或大于Q_U+1.5IQR的值。Q_L称为下四分位数，表示全部观察值中有四分之一的数值比它小；Q_U称为上四分位数，表示全部观察值中有四分之一比它大；IQR称为四分位数间距，是上四分位数Q_U与下四分位数Q_L之差，其间包含了全部观察值的一半。

一致性分析

矛盾性，不相容性。往往存在于从不同的数据源融合数据时发生。

数据特征分析

分布分析

对于定量数据，欲了解其分布形式是对称还是非对称的，发现某些特大或特小的可疑值，可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析；

对于定性数据，可用饼图和条状图直观的显示分布情况。

定量数据的分布分析

选择"组宽"和“组数”的步骤如下：

1、求极差

2、决定组距与组数

3、决定分点（组边界）

4、列出频率分布表

5、绘制频率分布直方图

定性数据的分布分析

对于定型变量，常常根据变量的分类类型来分组，可以采用饼图和条形图来确定描述性变量的分布。

对比分析

把两个相互联系的指标进行比较，从数量上展示和说明研究对象规模的大小，水平的高低，速度的快慢，以及各种关系是否协调。选择合适的对比标准是十分关键的步骤。

主要两种形式：

绝对数比较
相对数比较

统计量分析

从集中趋势和离中趋势两个方面进行分析。

集中趋势：均值、中位数

离中趋势：极差，标准差（方差）、四分位间距

均值的计算也可以加权，均值对极端值很敏感，统计时，可以进行截断或者用中位数。

极差对极端值也很敏感。

变异系数是标准差相对于均值的离中程度

CV = s/x * 100%

四分位数间距中包含了全部观察值的一半。

周期性分析

贡献度分析

又称帕累托分析，其原理是帕累托法则，又称20/80定律。