描述统计学:表格法和图形法
-
数据可以分为分类型或数量型
-
分类型数据
- 是用来标记或名称来识别项目的类型
-
数据量数据
- 是表示多少或大小的数值
-
分类型数据汇总
-
频数分布:表示在几个互不重叠的组别中每一组的项目个数,就是出现频率
- 如何使用表格法和图形法汇总分类型数据
- 统计后结果
统计结果信息:提供了更多原始数据看不到的内涵,受欢迎程度谁最高,谁最低一目了然
相对频数分布和百分数频数分布
-
相对频数分布
-
一组的相对频数是属于该组的项目个数的比例
-
例如:50次购买饮料中可口可乐的相对频数=19/50
-
-
百分数频数分布
- 相对频数*100%
条形图和饼形图
- 条形图:用来描绘已汇总的分类型数据的频数分布、相对频数分布或百分数频数分布(是不是很绕口),别担心,看图,官方装逼词就非把简单的东西复杂解释
总结:条形图就是需要先汇总原始数据,之后把分类的类型放横轴,出现的次数放纵轴
-
饼形图:是另一种描绘分类型数据的相对频数和百分数频数分布的图形方法。
- 汇总,算出相对频数
- 相对频数 * 360°
注意:在实际生活中,会有很多的饮料分类,大部分只有很少的购买次数,大多数的统计专家建议把频数较少的组合合并到一个叫"其他"的综合组去,频数为5%或更少的组常常这样处理
练习
一、
组别 | 相对频数 | 组别 | 相对频数 |
---|---|---|---|
A | 0.22 | C | 0.40 |
B | 0.18 | D |
a.组别D的相对频数是多少?
- 0.2 = 1-0.22-0.18-0.40
b.若样本容量为200,组别D的频数是多少?
- x = 200*0.2 = 40
二、
DH | CSI | DH | CSI | L&O |
---|---|---|---|---|
Trace | CSI | L&O | Trace | CSI |
CSI | DH | Trace | CSI | DH |
L&O | L&O | L&O | CSI | DH |
CSI | DH | DH | L&O | CSI |
DH | Trace | CSI | Trace | DH |
DH | CSI | CSI | L&O | CSI |
L&O | CSI | Trace | Trace | DH |
L&O | CSI | CSI | CSI | DH |
CSI | DH | Trace | Trace | L&O |
a.这些数据是分类型还是数量型的?
- 分类型
b.编制这些数据的频数分布和百分数频数分布
- 绘制如下
分组 | 频数 | 频数分布 | 百分数频数 |
---|---|---|---|
DH | 13 | 0.26 | 26% |
Trace | 9 | 0.18 | 18% |
CSI | 18 | 0.36 | 36% |
L&O | 10 | 0.10 | 10% |
c.绘制这些数据的条形图和饼形图
- 条形图
- 饼状图
d.以样本为依据,哪个节目拥有最多的电视观众?哪个位居第二?
- CIS第一,DH第二
数量型数据汇总
频数分布
对于数量型数据,在将互不重叠的组用于频数分布时,我们必须更加小心。
确定频数分布的分组时,三个必要的步骤是:
(1) 确定互不重叠组的组数
(2) 确定每组的组宽
(3) 确定组限
-
组数
- 组是通过对数据规定范围而形成的,这个规定的范围用于对数据进行分组。
- 一般性原则我们建议使用5-20组,如果数据少,只要5-6组就可以汇总数据
- 分组的目的是用足够多的组来显示数据的变异性,而不是有这么多的组只包含很少的数据项。
- 图表2-4的数据项相对较少(n = 20),可以编制5组的频数分布
-
组宽
- 近似组宽 = (最大数据值-最小数据值) / 组数
- 确定天数为5
-
组限
- 第一组下组限必须包含最小组,最后一组上限必须包含最大值
- 最小确定为10,则10-14,15-19,20-24,25-29和30-34
- 最大数据值33包含在30-34
- 组宽为两个下组限之差 15-10 = 5
-
组中值
- 下组限和上组限的中间值
相对频数分布和百分数频数分布
- 频数分布的目的是为了揭示自然的分组和数据的变异性
打点图(dot plot)
是一种最简单的数据图形汇总方式。横轴是数据的范围,每一个数据值由位于横轴上的点表示。
打点图能够显示数据的细节,且有利于比较两个或更多变量的数据分布。
直方图
直方图是一种常用的数量型数据的图形描述方式。
- 由先前已汇总出的频数分布、相对频数分布或百分数频数可绘制直方图。
- 横轴放变量,以组宽为底。
- 纵轴放频数,相对频数或百分数频数。
-
适度左偏
-
考试成绩是这种直方图的典型应用。
-
因为没有成绩在100%之上,大多数成绩又常常在70%之上,只有极少数的成绩很低。
-
-
适度右篇
-
房屋价格的数据可能是这种直方图的例子。
-
少数昂贵的住宅造成右尾偏斜。
-
-
对称
-
在应用中的直方图可能大致对称,但永远不会完全对称。
-
SAT的分数、人的身高和体重等数据的直方图大致对称。
-
-
严重偏右
-
房屋价格、工资、销售量等数据,常常导致直方图右篇。
-
在商务与经济应用中得到的数据,常常使直方图右篇。
-
累积分布
- 累积频数分布:对频数分布略加变化,可得到数值型数据的另一种表格汇总方式。
- 累积频数,注意看累积两个字,累积小于等于某个值,而不是表示每一组的频数。
-
累积分布表明:
- 有4次审计在14天内完成,有19次审计在29天之内完成。
-
累积相对频数分布
- 数据值小于或等于每一组上组限的数据项的比例和百分数
-
累积百分数频数分布
- 标明有95%的审计在29之内完成。
累积曲线
累积分布的图形表示称为累积曲线。
-
横轴表示数据值。
-
纵轴表示累积频数或累积相对频数。
-
通过标出对应于每一组累积频数的点,就可以得到累积曲线。
总结
-
条形图和直方图在本质上是同一事物,他们都是频数分布数据的图形表示。
- 离散的数量型数据,纵条之间有间隔是合适的,例如:饮料的受欢迎数
- 连续的数量型数据,纵条之间有间隔是不合适的。例如:审计时间这种
-
开口组是指只有一个下组限或上组限的组。
- 例如审计时间有两个58,65天的值,中间隔了很远
- 直接以35或35以上来简化频数分布,频数为2
- 开口组经常出现在最上端或最下端,偶尔两端都有
-
累积频数分布的最后一个数据项总是等于观测值的总数。
练习
- 考虑下列数据
a. 利用组12-14,15-17,18-20,21-23和24-26来编制频数分布。
组数 | 频数 |
---|---|
12-14 | 2 |
15-17 | 8 |
18-20 | 11 |
21-23 | 10 |
24-26 | 9 |
说明:这个组数为5组,组宽3,最小下组限12,最大上组限26
b. 用(a)中的组编制相对频数分布和百分数频数分布
组数 | 相对频数分布 | 百分数频数分布 |
---|---|---|
12-14 | 0.05 | 5% |
15-17 | 0.2 | 20% |
18-20 | 0.275 | 27.5% |
21-23 | 0.25 | 25% |
24-26 | 0.225 | 22.5% |
c.编制数据的直方图和累积曲线
- 直方图(我用excel做的)
-
累积曲线
- 第一步先算出累积分布的表
组数 累积频数 累积相对频数 累积百分数频数 小于等于14 2 0.05 5% 小于等于17 10 0.25 25% 小于等于20 21 0.525 52.5% 小于等于23 31 0.775 77.5% 小于等于26 40 1 100% -
第二步根据累积分布表选点
-
因为14-15、17-18等中间有一个单位的间隔,通过标出组限间的中点来消除这些间隔。
14.5、17.5、20.5、23.5、26.5 -
这个图画的有点费劲,坎坎坷坷不太完美