白话“卡方检验”

什么是卡方检验

卡方检验是假设检验的一种，用于分析两个类别变量的相关关系，是一种非参数假设检验，得出的结论无非就是相关或者不相关，所以有的教材上又叫“独立性检验”，所以如果不是很清楚假设检验的朋友们，要好好复习一下假设检验了。提起假设检验，会扯出一堆东西，这里我简单为大家梳理一下。

什么是“类别变量”？

类别变量就是取值为离散值的变量，“性别”就是一个类别变量，它的取值只有“男”和“女”，类似还有”婚否“、”国籍“等。

什么是“分析两个类别变量的相关关系”

卡方检验用于分析两个类别变量的相关关系，这是什么意思呢？以我们熟知的 Kaggle 平台上的泰坦尼克号幸存者预测提供的数据为例，”性别“对于”是否幸存“的关系研究，就属于这方面的内容。研究表明，泰坦尼克号上的乘客秉承”女士优先，照顾弱势群体“的基本原则，因此女性幸存的概率比男性要大，这就说明，”性别“对于”是否幸存“有相关关系，我们后面会使用卡方检验来验证这一事实。

假设检验

假设检验，顾名思义，就是提出一个假设，然后检验你提出的假设是否正确。假设检验的流程其实是固定的，关键其实在于理解假设检验的设计原则。

什么是假设？

那么我们假设什么呢？这里就要引入“原假设”和“备择假设”的概念了，“原假设”是“备择假设”的对立面。下面这个原则很重要：

备择假设通常是研究者想收集证据予以支持的假设。原假设是研究者想收集证据予以推翻的假设。

重要的事情，我再写两遍：如果你想通过种种论证，证明一件事情，就要把这件事情写成“备择假设”。备择假设通常用于表达研究者自己倾向于支持的看法（这很主观），然后就是想办法收集证据拒绝原假设，以支持备择假设。

特别要说明的一点是：如果你不遵守这个“原假设”和“备择假设”设计的基本原则，你很可能会得到相反的结论。

假设检验很像司法界对于一个事实的认定，本着“疑罪从无”的原则，如果你要说明一个人有罪，你必须提供充足的证据，否则被告人的罪名就不能成立，这个说法叫“没有充分的证据证明被告有罪”。

因此，如果我们最后的结论是“原假设”成立，我们一般不这么说，即我们不说“原假设”成立，我们不说“原假设”是真的。我们说不能拒绝“原假设”，或者说没有充分的证据拒绝“原假设”，或者说没有充分的证据证明“备择假设”成立。

卡方检验的“原假设”与“备择假设”

因为我们做假设检验一定是觉得两个类别变量有关系，才去做检验。再想想那个“疑罪从无”原则，我们是觉得一个人有罪，才去举证。因此卡方检验的“原假设”一定是假设独立，“备择假设”一定是假设相关，即：

原假设：类别变量 (A) 与类别变量 (B) 独立
备择假设：类别变量 (A) 与类别变量 (B) 不独立

这一点应该是极其明确的，我们的统计软件中都是这样设定的。

如何检验？

做“检验”这件事情，就很像我们以前做的“反证法”，我们假定要证明的结论的对立面成立，然后推出矛盾，即说明了我们的假设是错误的，即原命题成立。请看下面这个例子：

请你证明：这个餐厅的菜很难吃。
证明：假设这个餐厅的菜很好吃，那么周末的晚上生意一定很好，然而实际观察下来，顾客流量和平时一样，推出矛盾，所以假设不成立，即这个餐厅的菜很难吃。

用假设检验的思路，在这个例子中：

原假设：这个餐厅的菜很好吃；
备择假设：这个餐厅的菜很难吃。

我们把倾向于要证明的结论设置为“备择假设”，而推理是基于“原假设”成立进行的，推理得出矛盾，说明“原假设”错误，从错误的起点推出了错误的结论，因此“原假设”不成立，这就是假设检验里面说的“拒绝原假设”。

因此，检验其实很简单，就是一个是非论证的过程，是单选题，只有两个选项，选择其一。

假设检验如何论证

假设检验的论证其实是固定的，就是基于“小概率事件在一次试验中几乎不可能发生”，通常，我们得到的矛盾就在于：

通过计算统计量，发现通过一次试验得到这个统计量是一个“小概率事件”，“小概率事件”在一次试验中，居然发生了，我们就认为这是很“诡异”的，一定是之前的某个环节出了问题，即“原假设”不成立，于是拒绝“原假设”，即证明了“备择假设”成立。

为什么叫“卡方检验”，何为“卡方检验”？

“卡方分布”（也写作 “(chi^2 分布)”）是统计学领域的三大分布之一，另外两个分布是“(t) 分布”与“(F) 分布”，这些分布都是由正态分布推导出来的，可以认为它们是我们熟知的分布，因为它们可以取哪些值，以及取这些值的概率都是完全弄清楚了的。

统计学的研究任务是通过样本研究总体，因为我们无法把所有的总体都做一次测试，一般可行的做法就是从总体中抽取一部分数据，根据对这一部分数据的研究，推测总体的一些性质。

而“三大分布”就是我们研究样本的时候选取的参照物。一般我们研究的思路是这样的：如果经过分析，得出待研究的样本符合这些我们已知的分布之一，因为三大分布是被我们的统计学家完全研究透了的，可以认为是无比正确的，就可以通过查表得到这些分布的信息，进而得到样本的一些性质，帮助我们决策。

这里举一个例子，比如你是一个面试官，你手上掌握着“北京”、“上海”、“广州”三个省市的人才信息库（相当于上面我们说的统计学的三大分布），来了一个面试者，从简历中得知这个人来自“北京”，那么我们就可以直接从“北京”市的人才信息库中查阅到他的详细履历，掌握到他更全面的信息。

做假设检验的时候，我们也是类似的思路，我们需要利用总体的样本构造出合适的统计量（或枢轴量），并使其服从或近似地服从已知的确定分布，这样我们就可以查阅这些确定分布的相关信息，得到待研究样本所反映出来的总体的一些性质。

上面说到了“统计量”和“枢轴量”，下面简单谈一谈。

统计量：不含总体分布未知参数的函数称为样本的统计量。

统计量经常作为一个样本的代表，例如平均数、众数、最大值、最小值，统计量由多个数映射成一个数。

枢轴量：仅含有一个未知参数，并且分布已知的样本的函数，称为枢轴量。

枢轴量的思想其实就是解方程，或者说解不等式，这一部分非常重要的理论基础是“抽样分布定理”。如果忘记了的朋友们一定要翻翻以前的教程，“抽样分布定理”是非常重要的。根据抽样分布定理，我们经常是这样用的：样本的某个含有未知参数的函数符合某个已知分布，已知分布可以查表，因此未知参数的性质就知道了。求“置信区间”与做“假设检验”通常就是这样的思路。

卡方检验的统计量

[chi^2=sumsum frac{(f_o-f_e)^2}{f_e} ]

说明：(f_o) 是观测频数（实际值），(f_e) 是期望频数（可以认为是理论值），期望频数的计算公式我们马上会介绍到。这个统计量服从自由度为 ((r-1)(c-1)) 的 (chi^2) 分布，(r) 为行数，(c) 为列数。

这里一定要举例才能说清楚了：

以下内容摘抄自中国人民大学龙永红主编《概率论与数理统计》（第三版）P190 “独立性检验”一节例 5.32。

研究青少年行为与家庭状况的关系，调查结果如下：

青少年行为家庭状况	离异家庭	和睦家庭	合计
犯罪	(178)	(272)	(450)
未犯罪	(38)	(502)	(540)
合计	(216)	(774)	(990)

分析：“青少年行为”是离散型变量，有“犯罪”与“未犯罪”两个取值；“家庭状况”是也离散型变量，有“离异家庭”与“和睦家庭”两个取值，从直觉上，我们认为它们是相关的。因此

第 1 步：建立统计假设。

原假设：“青少年行为”与“家庭状况”独立。
备择假设：“青少年行为”与“家庭状况”不独立。

第 2 步：计算期望频数与检验统计量。

要计算出检验统计量，关键是计算出期望频数。我们之前说到了，假设检验是基于原假设进行论证，因此，我们的期望频数应该是基于【“青少年行为”与“家庭状况”独立】得到的。因此有：

两个类别的交叉项的概率可以根据独立事件的概率乘法公式得到。具体是这样做的，从上面那张表中：

一行一行看，这 (990) 个青少年里，(P(犯罪)=cfrac{450}{990})，(P(未犯罪)=cfrac{540}{990})；
一列一列看，这 (990) 个青少年里，(P(离异家庭)=cfrac{216}{990})，(P(和睦家庭)=cfrac{774}{990})；

在【“青少年行为”与“家庭状况”独立】这个假设下有：

[P(“犯罪”并且“离异家庭”) = P(犯罪) imes P(离异家庭) = cfrac{450}{990} imes cfrac{216}{990} ]

[P(“犯罪”并且“和睦家庭”) = P(犯罪) imes P(和睦家庭) = cfrac{450}{990} imes cfrac{774}{990} ]

[P(“未犯罪”并且“离异家庭”) = P(犯罪) imes P(离异家庭) = cfrac{540}{990} imes cfrac{216}{990} ]

[P(“未犯罪”并且“离异家庭”) = P(犯罪) imes P(离异家庭) = cfrac{540}{990} imes cfrac{774}{990} ]

我们要计算期望频数，就把上面这 (4) 个概率分别乘以样本总数 (990) 就可以了：

青少年行为家庭状况	离异家庭	和睦家庭
犯罪	(450 imes frac{216}{990} approx 98.18)	(450 imes frac{774}{990} approx 351.82)
未犯罪	(540 imes frac{216}{990} approx 117.82)	(540 imes frac{774}{990} approx 422.18)

下面将每个单元格的 (frac{(f_o-f_e)^2}{f_e}) 加起来，就可以得到 (chi^2) 统计量：

[egin{aligned} chi^2 &= cfrac{(178-98.18)^2}{98.18} + cfrac{(272-351.82)^2}{351.82} + cfrac{(38-117.82)^2}{117.82} + cfrac{(502-422.18)^2}{422.18} \ & approx 64.89 + 18.11 + 54.06 + 15.09 \ & approx 152.15 end{aligned} ]

上面说服从自由度为 ((r-1)(c-1)) 的 (chi^2) 分布，(r) 为行数，(c) 为列数，即服从 ((2-1) imes (2-1) = 1) 的 (chi^2) 分布，接下来，我们就要看得到这个统计量的概率有多大：

from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt


samples = stats.chi2.rvs(size=10000, df=1)
sns.distplot(samples)
plt.title('$chi^2$,df=1')
plt.show()

得到图像如下：

可以看到，(152.15) 都不在能图像显示到的范围之内，说明这个概率很低。下面我们或者使用 Python 查一下，这个概率是多少：

from scipy import stats


stats.chi2.pdf(152.15, df=1)

得到：(2.956796099836173e-35)，确实是一个几乎为 (0) 的数。这说明了什么呢？

说明了，在我们的假设【“青少年行为”与“家庭状况”独立】下，得到这组观测数据的概率很低很低，基于小概率事件在一次试验中几乎不会发生，但它却发生了，就证明了我们的“原假设”是不正确的，即有充分证据决绝“原假设”。（这一部分有点绕，其实很简单，多看几遍就非常清楚了。）

其实到这里，我们对卡方检验就已经介绍完了，是不是觉得很简单。但是在实际操作的过程中，我们还会引入 (p) 值，很多统计软件也会帮我们计算出 (p) 值，这个 (p) 值是个什么鬼呢？下面先给出我的结论：

什么是 (p) 值？

(p) 值统一了假设检验的比较标准，把计算统计量的概率大小统一变成计算 (p) 值，如果这个 (p) 值小于一个预先设定好的数，我们称之为“显著性水平”，用 (alpha) 表示，一般取 (alpha = 0.05)，则拒绝原假设，如果 (p) 值大于“显著性水平”，则说明没有充分证据拒绝原假设。使用 (p) 值进行假设检验的时候，会更便利。因此，使用 (p) 值进行假设检验的评判标准就只要一个，就是记住这句话“小拒大接”，即比 (0.05) 小，就拒绝“原假设”，比 (0.05) 大，结论是“没有理由拒绝原假设”。

特别说明：这个结论是我根据对 (p) 值的理解自己总结的，是人话，但不一定准确。

(p) 值在不同的检验问题中，计算方法会不同，在这里，我们就以卡方检验为例，如果我们计算出来的统计量的值为 (1)，那么看图：

这个时候，统计量取 (1) 的概率就很高了，从图中可以看出大于 (0.2)。我们作如下分析：

(chi^2) 分布长尾在右边，是个右偏分布，在 (0) 附近的概率是非常高的，我们要找一个临界值，如果统计量取到这个临界值，以及这个临界值的右边，我们认为这样的事情发生的概率是很低的，这里就要借助累计概率和分位点的概念；

（说明：累计积分和分位点的概念都是十分重要的，在这里就不赘述了，读者可以查阅相关统计学的教材。）

我们认为，在 (chi^2) 分布，如果一个点到右边无穷的累计积分小于“显著性水平”，我们就认为这个点以及右边所有的点的取值，都是小概率事件。

于是，对于卡方检验而言，得到的统计量，我们可以计算这个从统计量到正无穷的积分，如果这个积分值小于“显著性水平”，即认为这个统计量的概率一定在“显著性水平”所确定的临界点的右边，即它是比“小概率事件”发生的概率还小的“小概率事件”。

下面，我们自己写一个函数来实现卡方检验相关的计算，实现和 scipy 软件包提供的卡方检验同样的效果。

from scipy import stats
from scipy.stats import chi2_contingency


def custom_chi2_contingency(observed):
    """
    自己编写的卡方检验的函数，返回
    """
    # 每一行求和
    row = observed.sum(axis=1)
    # 每一列求和
    col = observed.sum(axis=0)
    # 总数求和
    all_sum = observed.sum()

    # meshgrid 生成网格
    x1, x2 = np.meshgrid(col, row)
    # 期望频数
    expected_count = x1 * x2 / all_sum
    # 统计量，即卡方值
    chi2 = ((observed - expected_count)**2 / expected_count).sum()
    # 自由度
    df = (len(row) - 1) * (len(col) - 1)
    # 计算 p 值，这里用到了卡方分布的概率积累函数，
    # 因为这个 cdf 是计算从左边到这点的累计积分，因此用 1 减它
    p = 1 - stats.chi2.cdf(chi2, df=df)
    return chi2, p, df, expected_count

下面验证自定义函数的正确性：

obs = np.array([[178, 272], [38, 502]])
result1 = custom_chi2_contingency(obs)
result2 = chi2_contingency(obs)
print('自定义卡方检验的函数返回：')
print(result1)
print()
print('scipy 提供的卡方检验返回：')
print(result2)

显示：

自定义卡方检验的函数返回：
(152.16271892047084, 0.0, 1, array([[ 98.18181818, 351.81818182],
       [117.81818182, 422.18181818]]))

scipy 提供的卡方检验返回：
(150.2623232486362, 1.5192261812214016e-34, 1, array([[ 98.18181818, 351.81818182],
       [117.81818182, 422.18181818]]))