分类数据分析

我们知道统计数据的类型分为分类数据和数值型数据,那对于分类数据而言,如果我想对其进行统计分析主要涉及哪些方面呢?

内容目录

  • 分类数据的描述统计
  • 分类数据的推断统计

1 分类数据的描述统计

分类数据的基本描述方式

  • 频数列表
  • 百分比
  • 累计频数
  • 累计百分比
  • 众数

举个例子

以下是某个班级的小组人员数,班级总共83人,从百分比(构成比),我们可以得知每个小组人数的占比情况。

这里简单了解就可以了

2 分类数据的推断统计

对于分类数据而言,我们如果想检验变量之间是否存在某种关系,那这个就要用到[公式] 检验了

什么是卡方检验呢

对分类数据的频数进行分析的统计方法

例如:泰坦尼克号遇难的事件中,我们可以把上船人数分为男女两个类别,如图

我们可以把获救人数看作频数

我们对于数值型数据还可以转换成分类数据,例如,可以把成绩按照不同水平分为不同的级别

每个级别的人数就是频数

如何对分类数据的结果进行卡方检验?

我们需要通过卡方统计量来实现,先来看卡方统计量的定义

若用 [公式] 表示观察值频数,用 [公式] 表示期望频数,则 [公式] 统计量可以写成:

[公式]

举个实例来解释定义

现在我们想分析一下性别对于是否获救有没有关系呢?也就是不同的性别对于是否能够存活有无影响呢?

这就需要用到拟合优度检验

拟合优度检验是针对只有一个分类变量的检验

拟合优度检验是用 [公式] 统计量进行统计显著性检验的重要内容之一。它是依据总体分布情况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著性差异,从而达到对分类变量进行分析的目的。

我们还拿刚才的例子,假设以 [公式] = 0.1的显著性水平检验存活状况与性别是否有关

解:本例中需要判断观察频数与期望频数是否一致

[公式] :观察频数与期望频数一致

[公式] :观察频数与期望频数不一致

计算过程如下:

自由度的计算公式为R-1,R为分类变量的个数,这里分为男女两类,因此自由度 = 1

通过查卡方分布表可得 [公式] (1) = 2.706

因此计算结果303.2远大于2.706,所以拒绝原假设,说明性别对于是否存活有显著影响。

那对于一个分类变量的检验使用的是拟合优度检验,对于两个分类变量呢,例如分析对于原料而言,不同地区与不同等级这两个变量之间是否有关联呢?

独立性检验

首先,这种形式叫做列联表,对其进行检验叫独立性检验,是由两个以上的变量进行交叉分类的频数分布表

我们拿原料的生产地区与等级这两个变量进行分析

一种原料来自三个不同的地区,原料质量被分成三个不同的等级。从这批原料中随机抽取500件进行检验,结果如下图,要求检验各个地区和原料质量之间是否存在依赖关系( [公式] =0.05)

[公式] :地区与原料等级之间是独立的(不存在依赖关系)

[公式] :地区与原料等级之间不独立(存在依赖关系)

1.计算交叉表的期望比率

=B$31*$F27

注:每个地区的总占比跟每个等级的总占比相乘,得出3X3个结果,如上图

2.期望比率*500得出每个期望频数

=B$31*$F27*500

3.根据样本统计量公式计算结果

[公式] 的自由度 = (R-1)(C-1)= 2*2 = 4

自由度是两个变量分别对应的个数减1

假设 [公式] = 0.05 查卡方分布表可得 [公式] = 9.4877

由于卡方统计量远大于9.4877,所以拒绝原假设,说明材料质量与地区有关联关系。

原文地址:https://www.cnblogs.com/bubu99/p/13651969.html