概率统计19——中心极限定理

　　大数定律告诉我们，如果想要求得一个随机变量的期望，只需要进行多次重复试验，然后取均值就可以了。然而在使用大数定律时仍然需要小心，因为大数定律并没有明确指出到底需要多少次试验才能充分接近我们所期待的极限。无论实验多少次，我们仍然不能否认存在这样的情况：所抛出的骰子全部是同一点数，尽管这种情况发生的概率很小。

　　用Y_n表示一系列独立同分布的随机变量X₁, X₂, …, X_n之和，既然X₁, X₂, …, X_n是随机变量，那么它们的和也是随机的。

　　一个令人惊奇的事实是，Y_n的标准化形式总是趋近于正态分布。这意味着随机过程呈现出不确定性的表面下，其实是高度组织化的，所有随机变量最终都归于正态分布。这种现象就是中心极限定理的客观背景。

标准化处理

　　对于Y_n来说，我们知道它的期望和方差：

　　为了简单起见，可以先假设μ=0，σ²> 0，这样就可以认为Y_n期望等于X_i的期望。

　　方差刻画了单个随机变量相对于均值的波动程度，类似地，我们也想要知道随机变量之和的波动，以便了解“骰子全部都是1点”这种小概率事件发生的几率。问题是，当n→∞时，Y_n的方差是发散的：

　　随着n的增大，Y_n的分布越来越均匀，在这种情况下讨论Var(Y_n)没有任何意义：

Y_n的分布越来越均匀

　　为了能够有效地讨论Y_n的方差，需要对其进行标准化处理。

　　如果把变量做一个线性变换，可以发现下面的现象：

　　只要令X^* = (X - μ)/σ，就可以让任意随机变量的期望化为0，方差化为1，这种转换称为标准化或归一化。

　　Y_n的标准化是：

中心极限定理

　　中心极限定理告诉我们，如果有一个独立同分布的随机变量序列X₁, X₂, …, X_n，它们的期望为μ，方差为σ²>0，那么关于这些随机变量之和Y_n的标准化变量Y_n^*的分布函数F_n(x)，对于任意x满足：

　　想要证明这个定理并不容易，但我们可以在后文中给出一个从旁侧击的论据。

　　Y_n^*是Y_n的标准化，二者的分布是一回事，因此中心极限定理的另一种写法是：

　　这里的~符号表示“近似于”。也就是说，对于均值为μ，方差为σ²>0的独立同分布的随机变量X₁, X₂, …, X_n之和Y_n的标准化变量Y_n^*，当n充分大时，Y_n^*趋近于均值为0，方差为1的正态分布：

　　我们可以把Var(X_i)看作一个微小的误差，Y_n是微小误差的累加。中心极限定理告诉我们，当无数次微小误差的逐渐累加后，就会形成肉眼可见的巨大变化，并最终接近正态分布。

另外两种表达

　　在一般的情况下，很难求出Y_n的分布函数，尤其是我们面对的经常是“小数”时。在现实生活中，这个“小数”常常就是1，因此才会说“不以成败论英雄”。但是当n充分大时，可以通过φ(x)给出其近似分布，这样就可以利用正态分布对Y_n出现的概率进行分析。

　　把Y_n^*的分子和分母同时除以n：

　　于是得到了中心极限定理的另一种写法：

　　上一章我们计算了大数定律下均值的期望和方差：

　　由此，中心极限定理的第三种写法是：

　　以掷骰子为例，随机变量X是每次投掷骰子的结果，出现1~6点的概率都是1/6，E[X]=3.5，其方差是：

　　我们用程序模拟多次投掷骰子。每次试验投掷n次骰子，试验1000次，看看这种情况下点数均值的分布。

 1 import numpy as np
 2 import matplotlib.pyplot as plt
 3 from scipy import stats
 4
 5 fig = plt.figure(figsize=(10, 5))
 6 plt.subplots_adjust(hspace=0.5)  # 调整子图之间的上下边距
 7
 8 mu, sigma_square = 3.5, 2.9167 # 骰子的期望和方差
 9 xs = np.arange(0, 7, 0.01)
10 for i, n in enumerate([2, 10, 20, 50]):
11     ax = fig.add_subplot(2, 2, i + 1)
12     means = [np.random.randint(1, 7, n).mean() for i in range(1000)] # 生成1000组均值
13     sigma = np.sqrt(sigma_square / n)
14     ax.hist(means, bins=30, density=True, alpha=0.2, edgecolor='black', label='试验数据布')
15     ys = stats.norm.pdf(xs, mu, sigma)
16     ax.plot(xs, ys, 'r--', label='$Y_n/n$~N($mu,sigma^2$)')
17     ax.set_xlabel('$Y_n/n, n={}$'.format(n))
18     ax.set_ylabel('pdf')
19     ax.set_title('n={}'.format(n))
20     ax.legend(loc='upper right')
21
22 plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
23 plt.show()