数据之魅(1)单一变量:形状和分布

一、分布

关注分布的总体形状,关注要点:

数据分布

最值

数据集是大是小

是否有聚类

极异常数据

不寻常或显著的特征:空白段、锐减、异常值等

二、数据点和抖动图jitter plot

抖动jittering

用透明的开环作为数据点的符号

三、直方图histogram和核密度估计KDE

直方图不能很优雅地处理一些异常点

形成一个KDE就相当于对数据集的核函数做一次卷积

四、累计分布函数CDF cumulative distribution function

能对数据做出定量的描述

五、秩序图和上升图

如果自变量没有固定顺序,或没有有意义的顺序关系时,最好能按因变量进行排序

累计分布曲线有时候也称为升力曲线lift curve。

六、汇总统计量和箱型图

在假设绝对正确的情况下,汇总统计量是有意义的,否则可能会误导

平均数、分位数和相关的摘要统计只适用于单一中心峰的分布---即单峰unimodal分布

m:平均数

s:标准差

实际情况的很多数据集,可以预计大约有2/3的数据点落在[m-s, m+s]区段中,

99%的数据点落在[m-3s, m+3s]区段中。

中位数:数据集中有一半比它大,有一半比它小。衡量分布的位置。一旦分布变得扭曲,基于均值测量分布的位置的基本假设就不再成立,此时用中位数更好。

百分位数是将这个概念推广到其他比例。第10百分位数是,数据集中有10%的点的值比它小。可以使用百分位数来构建一个测量分布宽度的量。最常用的量是四分位数间距,是第75百分位数和第25百分位数之间的距离。

Box-and-Whisker箱型图

包含以下要素:

1、中位数标记

2、一个盒子,跨越四分位数间距,用于测量分布的宽度

3、一些线条whisker,从中间的盒子延伸到上下临界值

4、临界值以外的所有值的单个符号,代表异常值

 

原文地址:https://www.cnblogs.com/549294286/p/3183596.html