数据之魅（1）单一变量：形状和分布

一、分布

关注分布的总体形状，关注要点：

数据分布

最值

数据集是大是小

是否有聚类

极异常数据

不寻常或显著的特征：空白段、锐减、异常值等

二、数据点和抖动图jitter plot

抖动jittering

用透明的开环作为数据点的符号

三、直方图histogram和核密度估计KDE

直方图不能很优雅地处理一些异常点

形成一个KDE就相当于对数据集的核函数做一次卷积

四、累计分布函数CDF cumulative distribution function

能对数据做出定量的描述

五、秩序图和上升图

如果自变量没有固定顺序，或没有有意义的顺序关系时，最好能按因变量进行排序。

累计分布曲线有时候也称为升力曲线lift curve。

六、汇总统计量和箱型图

在假设绝对正确的情况下，汇总统计量是有意义的，否则可能会误导。

平均数、分位数和相关的摘要统计只适用于单一中心峰的分布---即单峰unimodal分布。

m:平均数

s：标准差

实际情况的很多数据集，可以预计大约有2/3的数据点落在[m-s, m+s]区段中，

99%的数据点落在[m-3s, m+3s]区段中。

中位数：数据集中有一半比它大，有一半比它小。衡量分布的位置。一旦分布变得扭曲，基于均值测量分布的位置的基本假设就不再成立，此时用中位数更好。

百分位数是将这个概念推广到其他比例。第10百分位数是，数据集中有10%的点的值比它小。可以使用百分位数来构建一个测量分布宽度的量。最常用的量是四分位数间距，是第75百分位数和第25百分位数之间的距离。

Box-and-Whisker箱型图

包含以下要素：

1、中位数标记

2、一个盒子，跨越四分位数间距，用于测量分布的宽度

3、一些线条whisker，从中间的盒子延伸到上下临界值

4、临界值以外的所有值的单个符号，代表异常值