探索性数据分析
-
快速地汇总数据,显示数据集的等级顺序和形状
-
看下面一组对50名应聘某职位的人提出的150个能力测试问题
回答正确的问题个数
-
为了绘制茎叶显示,将第一行的高位数放左,低位放右
高位 | 低位 |
---|---|
6 | 9 |
7 | 2 |
8 | |
9 | 7 |
10 | 7 |
11 | 2 |
12 | |
13 | |
14 |
- 类似这样全部排列,并且最后做排序,得到如下所示:
竖线左边的是径的值,竖线右边的是叶的值,用长方形将叶子围起来
将上图逆时针方向旋转90°,与60-69,70-79。。。的直方图非常相似
茎叶图比直方图的优势
(1) 茎叶显示易于手绘
(2) 由于有具体的数值,比直方图提供了更多的信息
- 有时候茎里面的叶子太多,会很难看,可以把茎分成两个部分
交叉分组表和散点图
有助于决策者理解两个变量之间的关系。
- 交叉分组表是一种用表格汇总两个变量数据的方法
从图上信息可以算出质量等级的频数分布及餐价的频数分布
但是无法得出两者之间有什么关系
- 质量等级的频数分布
质量等级 | 相对频数 | 百分数频数 |
---|---|---|
好 | 0.28 | 28 |
很好 | 0.50 | 50 |
优秀 | 0.22 | 22 |
- 餐价的频数分布
餐价 | 相对频数 | 百分数频数 |
---|---|---|
10-19 | 0.26 | 26 |
20-29 | 0.39 | 39 |
30-39 | 0.25 | 25 |
40-49 | 0.09 | 9 |
如果看以上两个单独的表,是看不出有什么联系的,但是交叉分组的意义在这里。
从上面的交叉分布的质量等级频数就可以看出:
质量等级与价格是成正比的,质量等级越高的,餐格所占的比例越高
辛普森悖论
我们常常合综合两个或两个以上的交叉分组表中的数据,生成一个汇总的交叉分组表
,以显示两个变量的相关性。
依据综合数据得到的结论和未综合数据得到的结论可能截然相反,称为辛普森悖论
示例:
以下数据是两个法官在不同的法庭上裁决的例子,由两个变量判决变量(维持或推翻)
法庭类型(民事庭或市政庭)为依据,对每位法官构建综合交叉分组表
结论:
法官肯德尔做的比较好,因为他维持原判的比例比较高
这是为综合构建的交叉分组表:
最直观的看出勒基特各项的维持概率都比肯德尔要好,但是为啥综合起来没他高
原因
可以看出本身市政厅的推翻概率比民事的要打,而勒基特的主要业务
全部在市政厅,所以导致综合后的数据偏向了法官肯德尔
由辛普森悖论应该认识到,在得出结论之前,你应该审查是否存在可能影响结论的隐藏变量
散点图和趋势线
-
散点图
- 是对两个数量间关系的图形表述
-
趋势线
- 是显示相关性近似程度的一条直线
示例:
设备厂商周末的广告次数的和销量之间的关系
依据x=2,y=50这种关系,将其他九周的散点图画出来,形成如下的图(excel画的,有丑陋):
整体关系是正相关的
散点图模式和显示的关系类型: