描述统计学:探索性数据分析

探索性数据分析

  • 快速地汇总数据,显示数据集的等级顺序和形状

  • 看下面一组对50名应聘某职位的人提出的150个能力测试问题
    回答正确的问题个数
    gai

  • 为了绘制茎叶显示,将第一行的高位数放左,低位放右

高位 低位
6 9
7 2
8
9 7
10 7
11 2
12
13
14
  • 类似这样全部排列,并且最后做排序,得到如下所示:
    gai

竖线左边的是径的值,竖线右边的是叶的值,用长方形将叶子围起来

gai

将上图逆时针方向旋转90°,与60-69,70-79。。。的直方图非常相似

茎叶图比直方图的优势

(1) 茎叶显示易于手绘
(2) 由于有具体的数值,比直方图提供了更多的信息

  • 有时候茎里面的叶子太多,会很难看,可以把茎分成两个部分

gai

交叉分组表和散点图

有助于决策者理解两个变量之间的关系。

  • 交叉分组表是一种用表格汇总两个变量数据的方法
    gai

从图上信息可以算出质量等级的频数分布及餐价的频数分布
但是无法得出两者之间有什么关系

  • 质量等级的频数分布
质量等级 相对频数 百分数频数
0.28 28
很好 0.50 50
优秀 0.22 22
  • 餐价的频数分布
餐价 相对频数 百分数频数
10-19 0.26 26
20-29 0.39 39
30-39 0.25 25
40-49 0.09 9

如果看以上两个单独的表,是看不出有什么联系的,但是交叉分组的意义在这里。

gai

从上面的交叉分布的质量等级频数就可以看出:

质量等级与价格是成正比的,质量等级越高的,餐格所占的比例越高

辛普森悖论

我们常常合综合两个或两个以上的交叉分组表中的数据,生成一个汇总的交叉分组表
,以显示两个变量的相关性。

依据综合数据得到的结论和未综合数据得到的结论可能截然相反,称为辛普森悖论

示例:
以下数据是两个法官在不同的法庭上裁决的例子,由两个变量判决变量(维持或推翻)
法庭类型(民事庭或市政庭)为依据,对每位法官构建综合交叉分组表
gai结论:

法官肯德尔做的比较好,因为他维持原判的比例比较高

这是为综合构建的交叉分组表:
gai

最直观的看出勒基特各项的维持概率都比肯德尔要好,但是为啥综合起来没他高

原因

可以看出本身市政厅的推翻概率比民事的要打,而勒基特的主要业务
全部在市政厅,所以导致综合后的数据偏向了法官肯德尔

由辛普森悖论应该认识到,在得出结论之前,你应该审查是否存在可能影响结论的隐藏变量

散点图和趋势线

  • 散点图

    • 是对两个数量间关系的图形表述
  • 趋势线

    • 是显示相关性近似程度的一条直线

示例:

设备厂商周末的广告次数的和销量之间的关系

gai

依据x=2,y=50这种关系,将其他九周的散点图画出来,形成如下的图(excel画的,有丑陋):

gai

整体关系是正相关的

散点图模式和显示的关系类型:

gai

原文地址:https://www.cnblogs.com/lishi-jie/p/9861094.html