数据探索

通过检验数据集的数据质量,绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。

数据质量分析

是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有有效的数据,数据挖掘构建的模型就是空中楼阁。

缺失值分析

缺失值产生的原因

缺失值的影响

缺失值的分析:缺失属性的个数,缺失率

异常值分析

忽视异常值的存在是十分危险的。

异常值数值明显偏离其余的观测值,异常值也称为离群点,因此也叫离群点分析

简单统计量分析

最常用的是最大值最小值,判断这个变量去的取值是否超出合理的范围。

3σ原则

如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值与平均值的偏差超过3倍标准差的值。

箱型图分析

箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。QL称为下四分位数,表示全部观察值中有四分之一的数值比它小;QU称为上四分位数,表示全部观察值中有四分之一比它大;IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。

一致性分析

矛盾性,不相容性。往往存在于从不同的数据源融合数据时发生。

数据特征分析

分布分析

对于定量数据,欲了解其分布形式是对称还是非对称的,发现某些特大或特小的可疑值,可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析;

对于定性数据,可用饼图和条状图直观的显示分布情况。

定量数据的分布分析

选择"组宽"和“组数”的步骤如下:

1、求极差

2、决定组距与组数

3、决定分点(组边界)

4、列出频率分布表

5、绘制频率分布直方图

定性数据的分布分析

对于定型变量,常常根据变量的分类类型来分组,可以采用饼图条形图来确定描述性变量的分布。

对比分析

把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。选择合适的对比标准是十分关键的步骤。

主要两种形式:

  1. 绝对数比较
  2. 相对数比较

统计量分析

从集中趋势和离中趋势两个方面进行分析。

集中趋势:均值、中位数

离中趋势:极差,标准差(方差)、四分位间距

均值的计算也可以加权,均值对极端值很敏感,统计时,可以进行截断或者用中位数。

极差对极端值也很敏感。

变异系数是标准差相对于均值的离中程度

CV = s/x * 100%

四分位数间距中包含了全部观察值的一半。

周期性分析

贡献度分析

又称帕累托分析,其原理是帕累托法则,又称20/80定律

相关性分析

分析连续变量之间线性相关程度的强弱

直接绘制散点图

适合两两变量

绘制散点图矩阵

同时考察多个变量间的相关关系,在多元线性回归时尤为重要

计算相关系数

Pearson相关系数:一般分析两个连续性变量之间的关系,连续变量的取值服从正态分布,取值范围是[-1,1],0表示不相关,1表示完全线性相关

Spearman秩相关系数:不服从正态分布的变量、分类或等级变量之间的关联性可采用该系数,也称等级相关系数。只要两个变量具有严格单调的函数关系,那么就是完全Spearman相关的。

判定系数:是相关系数的平方,衡量回归方程对y的解释程度。取值范围是[0,1],越接近0,表示几乎没有直线相关关系。

Python主要数据探索函数

参考《Python数据分析与挖掘实战》

原文地址:https://www.cnblogs.com/51zone/p/10589516.html