描述统计学：探索性数据分析

竖线左边的是径的值,竖线右边的是叶的值，用长方形将叶子围起来

gai

将上图逆时针方向旋转90°,与60-69，70-79。。。的直方图非常相似

茎叶图比直方图的优势

(1) 茎叶显示易于手绘
(2) 由于有具体的数值,比直方图提供了更多的信息

gai

有助于决策者理解两个变量之间的关系。

从图上信息可以算出质量等级的频数分布及餐价的频数分布
但是无法得出两者之间有什么关系

如果看以上两个单独的表，是看不出有什么联系的,但是交叉分组的意义在这里。

gai

从上面的交叉分布的质量等级频数就可以看出：

质量等级与价格是成正比的,质量等级越高的,餐格所占的比例越高

我们常常合综合两个或两个以上的交叉分组表中的数据,生成一个汇总的交叉分组表
,以显示两个变量的相关性。

依据综合数据得到的结论和未综合数据得到的结论可能截然相反,称为辛普森悖论

示例:
以下数据是两个法官在不同的法庭上裁决的例子,由两个变量判决变量(维持或推翻)
法庭类型(民事庭或市政庭)为依据,对每位法官构建综合交叉分组表
gai 结论:

法官肯德尔做的比较好,因为他维持原判的比例比较高

这是为综合构建的交叉分组表:
gai

最直观的看出勒基特各项的维持概率都比肯德尔要好,但是为啥综合起来没他高

原因

可以看出本身市政厅的推翻概率比民事的要打,而勒基特的主要业务
全部在市政厅,所以导致综合后的数据偏向了法官肯德尔

由辛普森悖论应该认识到,在得出结论之前,你应该审查是否存在可能影响结论的隐藏变量

示例:

设备厂商周末的广告次数的和销量之间的关系

gai

依据x=2,y=50这种关系,将其他九周的散点图画出来,形成如下的图(excel画的,有丑陋):

gai

整体关系是正相关的

散点图模式和显示的关系类型:

gai