【统计学】4.数据的概括性度量

4.1 集中趋势的度量

4.2 离散程度的度量

4.3 偏态与峰态的度量

学习目标

1.集中趋势各测度值的计算方法

2.集中趋势各测度值的特点及应用场合

3.离散程度各测度值的计算方法

4.离散程度各测度值的特点及应用场合

5.偏态与峰态的测度方法

6.用excel计算描述统计量并进行统计

4.1 集中趋势的度量

集中趋势（central tendency）

1.一组数据向其中心值靠拢的倾向和程度，反映了一组数据中心点位置所在

2.测度集中趋势就是寻找数据水平的代表值或中心值

3.不同类型的数据不同的集中趋势测度值

4.低层次数据的测度值适用于高层次的测量数据，但高层次的数据的测度值并不适用于低层次的测量数据

【统计学】集中趋势

4.1.1 分类数据：众数

众数（mode）

1.一组数据中出现次数最多的变量值

2.一般仅适合数据量较多时使用

3.不受极端值得影响

4.一组数据可能没有众数或有几个众数（众数可能不唯一也可能不存在）

5.主要用于分类数据（分类数据只对应分类的频数），也可用于顺序数据和数值型数据

4.1.2 顺序数据：中位数和分位数

中位数（median）

1.一组数据排序后处于中间位置上的值

2.中位数不受极端值的影响

3.中位数主要用于顺序数据，也可用于数值型数据，但不适用于分类数据

中位数（位置和数值的确定）

排序

位置确定

[frac{n+1}{2} ]

数值确定

[M_e= egin{cases} x_{(frac{n+1}{2})}, & ext {n为奇数} \frac{1}{2}[x_{(frac{n}{2})}+x_{(frac{n}{2}+1)}], & ext{n为偶数} end{cases} ]

因此中位数不一定是原数据中的某个变量值

四分位数（quartile）

【统计学】四分位

1.排序后处于25%和75%位置上的值

2.不受极端值的影响

3.计算公式

[egin{cases} Q_L位置=frac{n}{4}, \Q_U位置=frac{3n}{4}, end{cases} ]

4.如果是在0.25或0.75的位置上，则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值（加权平均数概念）

4.1.3 数值型数据：平均数

平均数（mean）

1.也称为均值

2.集中趋势的最常用测度值

3.一组数据的均衡点所在

4.体现了数据的必然性

5.易受极端值的影响

6.有简单平均数和加权平均数之分

7.根据总体数据计算，称为平均数，即为μ，根据样本数据计算的，称为样本平均数，即为x

简单平均数（算数平均数）

[设一组数据为：x_1,x_2,...x_n(总体数据x_N)\ 样本平均数 overline x=frac{x_1+x_2+...+x_n}{n} = frac{sum^n_{i=1}x_i}{n}\ 总体平均数 mu = frac{x_1+x_2+...+x_N}{N} = frac{sum^N_{i=1}x_i}{N} ]

加权平均数（Weighted mean）

[设各组的组中值为:M_1,M_2,...,M_k\ 相应的频数为：f_1,f_2,...f_k\ 样本加权平均 overline x=frac{M_1f_1+M_2f_2+...M_kf_k}{f_1+f_2+...+f_k} = frac{sum^k_{i=1}M_if_i}{n}\ 总体加权平均 mu = frac{M_1f_1+M_2f_2+...M_kf_k}{f_1+f_2+...+f_k} = frac{sum^k_{i=1}M_if_i}{N} ]

几何平均数（geometric mean）

n个变量值乘积的n次方根
适用于对比率数据的平均
主要用于计算平均增长率
计算公式为

[G = sqrt[n]{x_1 imes x_2 imes... imes x_n} = sqrt[n]{prod^n_{i=1}x_i} ]

4.1.4 众数、中位数和平均数的比较

【统计学】集中趋势分布

众数
- 不受极端值影响
- 具有不唯一性
- 数据量较大时众数才有意义
- 数据分布偏斜程度较大且有明显峰值时应用
中位数
- 不受极端值影响
- 数据分布偏斜程度较大时应用
平均数
- 利用了全部数据信息，数学性质优良
- 易受极端值影响
- 数据对称分布或接近对称分布时应用

4.2 离散程度的度量

离中趋势

1.数据分布的一个重要特征

2.反映各变量值远离其中心值的程度（离散程度）

3.从另一个侧面说明了集中趋势测度值的代表程度

4.不同类型的数据有不同的离散程度测度值

4.2.1 分类数据：异众比率

异众比率（variation ratio）

对分类数据离散程度的测度
非众数组的频数占总频数的比例
计算公式

[v_r = frac{sum f_i-f_m}{sum f_i} = 1-frac{f_m}{sum f_i} ]

4.用于衡量众数是否具有代表性

4.2.2 顺序数据：四分位差

四分位差（quartile deviation）

对顺序数据离散程度的测度
也称为内距或四分间距
上四分位数与下四分位数之差

[Q_d = Q_U-Q_L ]

反映了中间50%数据的离散程度
不受极端值影响
用于衡量中位数是否具有代表性

4.2.3 数值型数据：方差和标准差

极差（range）

一组数值型数据的最大值和最小值之差
离散程度的最简单测度值
易受极端值影响
未考虑数据的分布，数据利用率低
计算公式为

[R = max(x_i)-min(x_i) ]

标准差（mean deviation）

各变量值与其平均数离差绝对值的平均数
能全面反映一组数据的离散程度
数学性质差，实际应用较少
计算公式

[未分组数据 M_d = frac{sum^n_{i=1}|x_i-overline x|}{n}\ 组距分组数据 M_d = frac{sum^k_{i=1}|M_i-overline x|f_i}{n} ]

方差和标准差(variance and standard deviation)

各变量与其平均数离差平方的平均数
数据离散程度的最常用测度值
反映了各变量与均值的平均差异
根据总体数据计算的，称为总体方差（标准差）

[sigma^2(sigma) ]
根据样本数据计算的，称为样本方差(标准差)

[s^2(s) ]
方差的计算公式

[未分组数据\ s^2 = frac{sum^n_{i=1}(x_i-overline x)^2}{n-1} \ 组距分组数据\ s^2 = frac{sum^k_{i=1}(M_i-overline x)^2f_i}{n-1} ]
标准差的计算公式

[未分组数据\ s = sqrt{frac{sum^n_{i=1}(x_i-overline x)^2}{n-1}}\ 组距分组数据\ s = sqrt{frac{sum^k_{i=1}(M_i-overline x)^2f_i}{n-1}} ]
为什么是除以n-1而不是n？

自由度（degree of freedom）
1. 自由度是指数据个数与附加给独立观测值的约束或限制的个数之差
2. 从字面涵义看，自由度是指一组数据中可以自由取值的个数
3. 当样本数据的个数为n时，若样本平均数确定后，则附加给n个观测值的约束个数就是1个，因此只有n-1个数据可以自由取值，其中必有一个数据不能自由取值。
贝塞尔校正

统计学中除以自由度的方式叫做无偏估计
总体方差和标准差（Population variance and Standard deviation）

方差的计算公式

[未分组数据\ sigma^2 = frac{sum^N_{i=1}(x_i-mu)^2}{N}\ 组距分组数据\ sigma^2 = frac{sum^K_{i=1}(M_i-mu)^2f_i}{N} ]
标准差的计算公式

[未分组数据\ sigma = sqrt{frac{sum^N_{i=1}(x_i-mu)^2}{N}}\ 组距分组数据\ sigma = sqrt{frac{sum^N_{i=1}(M_i-mu)^2f_i}{N}} ]

估计总体的平均数μ时，由于样本中的n个数都是相互独立的，所以任意一个尚未抽出的数都不受已抽出任何数值的影响，所以自由度为n，即μ的值是一个常数

标准分数（standard score）
1. 也称标准化值
2. 对某个变量值在一组数据中相对位置的度量
3. 可用于判断一组数据是否有离群点（outlier）
4. 用于对变量的标准化处理
5. 计算公式为
[z_i = frac{x_i-hat x}{s} ]
标准分数（性质）

分数只是将原始数据进行了线性变换，它并没有改变一个数据在该组数据中的位置，也没有改变该组数据分布的形状，而只是使该组数据平均值为0，标准差为1。

经验法则

经验法则表明：当一组数据对称分布时
- 约有68%的数据在平均数加减1个标准差的范围之内
- 约有95%的数据在平均数加减2个标准差的范围之内
- 约有99%的数据在平均数加减3个标准差的范围之内（可认为是离群点）

4.2.4 相对离散程度：离散系数

离散系数(coefficient of variation)

标准差与其对应的均值之比
对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较
计算公式为

[v_s = frac{S}{overline x} ]

4.3 偏态与峰态的度量

偏态（skewness）

统计学家Person于1895年首次提出
数据分布偏斜程度的测度
偏态系数=0为对称分布
偏态系数>0为右偏分布
偏态系数<0为左偏分布
偏态系数大于1或小于-1，被称为高度偏态分布；偏态系数在0.5_1或-1-0.5之间，被认为是中等偏态分布；偏态系数越接近0，偏斜程度就越低

4.3.1 偏态及其测度

偏态系数（coefficient of skewness）

根据原始数据计算

[SK = frac{nsum(x_i-overline x)^3}{(n-1)(n-2)s^3} ]

根据分组数据计算

[SK = frac{sum^k_{i=1}(M_i-overline x)^3f_i}{ns^3} ]

4.3.2 峰态及其测度

峰态（kurtosis）

统计学家Person于1905年首次提出
数据分布扁平程度的测度
峰态系数=0扁平峰度适中
峰态系数<0为扁平分布
峰态系数>0为尖峰分布

峰态系数（coefficient of kurtosis）

根据原始数据计算

[K = frac{n(n+1)sum(x_i-overline x)^4-3[sum(x_i-overline x)^2]^2(n-1)}{(n-1)(n-2)(n-3)s^4} ]

根据分组数据计算

[K = frac{sum^k_{i=1}(M_i-overline x)^4f_i}{ns^4}-3 ]

Win a contest, win a challenge