描述统计学:表格法和图形法

描述统计学:表格法和图形法

  • 数据可以分为分类型或数量型

    • 分类型数据

      • 是用来标记或名称来识别项目的类型
    • 数据量数据

      • 是表示多少或大小的数值

分类型数据汇总

  • 频数分布:表示在几个互不重叠的组别中每一组的项目个数,就是出现频率

    • 如何使用表格法和图形法汇总分类型数据

频数

  • 统计后结果

频数

统计结果信息:提供了更多原始数据看不到的内涵,受欢迎程度谁最高,谁最低一目了然

相对频数分布和百分数频数分布

  • 相对频数分布

    • 一组的相对频数是属于该组的项目个数的比例

    • 例如:50次购买饮料中可口可乐的相对频数=19/50

  • 百分数频数分布

    • 相对频数*100%

条形图和饼形图

  • 条形图:用来描绘已汇总的分类型数据的频数分布、相对频数分布或百分数频数分布(是不是很绕口),别担心,看图,官方装逼词就非把简单的东西复杂解释

条形

总结:条形图就是需要先汇总原始数据,之后把分类的类型放横轴,出现的次数放纵轴

  • 饼形图:是另一种描绘分类型数据的相对频数和百分数频数分布的图形方法。

    • 汇总,算出相对频数
    • 相对频数 * 360°

    饼型

注意:在实际生活中,会有很多的饮料分类,大部分只有很少的购买次数,大多数的统计专家建议把频数较少的组合合并到一个叫"其他"的综合组去,频数为5%或更少的组常常这样处理

练习

一、

组别 相对频数 组别 相对频数
A 0.22 C 0.40
B 0.18 D

a.组别D的相对频数是多少?

  • 0.2 = 1-0.22-0.18-0.40

b.若样本容量为200,组别D的频数是多少?

  • x = 200*0.2 = 40

二、

DH CSI DH CSI L&O
Trace CSI L&O Trace CSI
CSI DH Trace CSI DH
L&O L&O L&O CSI DH
CSI DH DH L&O CSI
DH Trace CSI Trace DH
DH CSI CSI L&O CSI
L&O CSI Trace Trace DH
L&O CSI CSI CSI DH
CSI DH Trace Trace L&O

a.这些数据是分类型还是数量型的?

  • 分类型

b.编制这些数据的频数分布和百分数频数分布

  • 绘制如下
分组 频数 频数分布 百分数频数
DH 13 0.26 26%
Trace 9 0.18 18%
CSI 18 0.36 36%
L&O 10 0.10 10%

c.绘制这些数据的条形图和饼形图

  • 条形图

条形图

  • 饼状图
    饼图

d.以样本为依据,哪个节目拥有最多的电视观众?哪个位居第二?

  • CIS第一,DH第二

数量型数据汇总

频数分布

对于数量型数据,在将互不重叠的组用于频数分布时,我们必须更加小心。

确定频数分布的分组时,三个必要的步骤是:

(1) 确定互不重叠组的组数
(2) 确定每组的组宽
(3) 确定组限

2-4

  • 组数

    • 组是通过对数据规定范围而形成的,这个规定的范围用于对数据进行分组。
    • 一般性原则我们建议使用5-20组,如果数据少,只要5-6组就可以汇总数据
    • 分组的目的是用足够多的组来显示数据的变异性,而不是有这么多的组只包含很少的数据项。
    • 图表2-4的数据项相对较少(n = 20),可以编制5组的频数分布
  • 组宽

    • 近似组宽 = (最大数据值-最小数据值) / 组数
    • 确定天数为5
  • 组限

    • 第一组下组限必须包含最小组,最后一组上限必须包含最大值
    • 最小确定为10,则10-14,15-19,20-24,25-29和30-34
    • 最大数据值33包含在30-34
    • 组宽为两个下组限之差 15-10 = 5
  • 组中值

    • 下组限和上组限的中间值

相对频数分布和百分数频数分布

  • 频数分布的目的是为了揭示自然的分组和数据的变异性

2-6

打点图(dot plot)

是一种最简单的数据图形汇总方式。横轴是数据的范围,每一个数据值由位于横轴上的点表示。

打点图能够显示数据的细节,且有利于比较两个或更多变量的数据分布。
2-3

直方图

直方图是一种常用的数量型数据的图形描述方式。

  • 由先前已汇总出的频数分布、相对频数分布或百分数频数可绘制直方图。
  • 横轴放变量,以组宽为底。
  • 纵轴放频数,相对频数或百分数频数。

2-5

  • 适度左偏

    • 考试成绩是这种直方图的典型应用。

    • 因为没有成绩在100%之上,大多数成绩又常常在70%之上,只有极少数的成绩很低。

    左偏

  • 适度右篇

    • 房屋价格的数据可能是这种直方图的例子。

    • 少数昂贵的住宅造成右尾偏斜。

    右偏

  • 对称

    • 在应用中的直方图可能大致对称,但永远不会完全对称。

    • SAT的分数、人的身高和体重等数据的直方图大致对称。

    对称

  • 严重偏右

    • 房屋价格、工资、销售量等数据,常常导致直方图右篇。

    • 在商务与经济应用中得到的数据,常常使直方图右篇。

    右篇

累积分布

  • 累积频数分布:对频数分布略加变化,可得到数值型数据的另一种表格汇总方式。
  • 累积频数,注意看累积两个字,累积小于等于某个值,而不是表示每一组的频数。

images/image/2-7.png

  • 累积分布表明:

    • 有4次审计在14天内完成,有19次审计在29天之内完成。
  • 累积相对频数分布

    • 数据值小于或等于每一组上组限的数据项的比例和百分数
  • 累积百分数频数分布

    • 标明有95%的审计在29之内完成。

累积曲线

累积分布的图形表示称为累积曲线。

  • 横轴表示数据值。

  • 纵轴表示累积频数或累积相对频数。

  • 通过标出对应于每一组累积频数的点,就可以得到累积曲线。

2-8

总结

  1. 条形图和直方图在本质上是同一事物,他们都是频数分布数据的图形表示。

    • 离散的数量型数据,纵条之间有间隔是合适的,例如:饮料的受欢迎数
    • 连续的数量型数据,纵条之间有间隔是不合适的。例如:审计时间这种
  2. 开口组是指只有一个下组限或上组限的组。

    • 例如审计时间有两个58,65天的值,中间隔了很远
    • 直接以35或35以上来简化频数分布,频数为2
    • 开口组经常出现在最上端或最下端,偶尔两端都有
  3. 累积频数分布的最后一个数据项总是等于观测值的总数。

练习

  1. 考虑下列数据

练习题

a. 利用组12-14,15-17,18-20,21-23和24-26来编制频数分布。

组数 频数
12-14 2
15-17 8
18-20 11
21-23 10
24-26 9

说明:这个组数为5组,组宽3,最小下组限12,最大上组限26

b. 用(a)中的组编制相对频数分布和百分数频数分布

组数 相对频数分布 百分数频数分布
12-14 0.05 5%
15-17 0.2 20%
18-20 0.275 27.5%
21-23 0.25 25%
24-26 0.225 22.5%

c.编制数据的直方图和累积曲线

  • 直方图(我用excel做的)

t-2

  • 累积曲线

    • 第一步先算出累积分布的表
    组数 累积频数 累积相对频数 累积百分数频数
    小于等于14 2 0.05 5%
    小于等于17 10 0.25 25%
    小于等于20 21 0.525 52.5%
    小于等于23 31 0.775 77.5%
    小于等于26 40 1 100%
    • 第二步根据累积分布表选点

    • 因为14-15、17-18等中间有一个单位的间隔,通过标出组限间的中点来消除这些间隔。
      14.5、17.5、20.5、23.5、26.5

    • 这个图画的有点费劲,坎坎坷坷不太完美

    t-3

原文地址:https://www.cnblogs.com/lishi-jie/p/9845059.html