第四章数据的概括性度量

一、集中趋势的度量

众数：一组数据中出现次数最多的变量值，用M₀表示。众数主要用于测度分类数据的集中趋势，也可用于顺序数据和数值数据的集中趋势度量。一般情况下，只有在数据量较大的情况下众数才有意义。

中位数：一组数据排序后处于中间位置的变量值，用M_e表示。如果样本个数为偶数个，中位数为处于中间位置的两个数的平均值。

四分位数：也称四分位点，它是一组数据排序后处于25%和75%位置上的值。设下四分位数为Q_L，上四分位数为Q_U，则Q_L位置=n/4，Q_U位置=n3/4，如果位置是整数，四分位数就是该位置对应的值，如果是在0.5的位置上，则取该位置两侧的平均值，如果是在0.25和0.75的位置上，则四分位数等于该位置的下侧值加上按比例分摊在位置两侧数值的极差。

平均数：分为简单平均数、加权平均数和几何平均数，当变量值是比率形式时，采用几何平均数。

二、离散程度的度量

异众比率：是指非众数组的频数站总频数的比率，用V_r表示。

四分位差：也称为内距或四分间距，它是上四分位数与下四分位数之差，用Q_d表示。

极差：一组数据的最大值与最小值之差，用R表示。

平均差：也称为平均绝对离差，它是各变量与其平均数离差绝对值的平均数，用M_d表示。

方差：是各变量与其平均值离差平方的平均数，

标准差：方差的平方根称为标准差,标准差是有量纲的，它与变量的计量单位相同，其实际意义要比方差清楚。因此，在对实际分体进行分析时更多地使用标准差。

自由度：样本个数减一即为自由度。

标准分数：变量值与其平均数的离差除以标准差之后的值称为标准分数。在对多个具有不同量纲的变量进行处理时，常常需要对各变量进行标准化处理。

经验法则：当一组数据对称分布时（1）约有68%的数据在平均+-1个标准差的范围之内；（2）约有95%的数据在平均+-2个标准差的范围之内；（3）约有99%的数据在平均+-3个标准差的范围之内。而在+-3个标准差之外的数据，统计学上称为离群点。

离散系统：也称为变异系数，它是一组数据的标准差与其平均数之比。（对于平均水平不同或者计量单位不同的不同组别的变量值，不能用标准差直接比较其离散程度，需要用离散系数系数进行比较）

三、偏态与峰态的度量

偏态及其度量：偏态一词由统计学家皮尔逊于1895年首次提出，它是对数据分布对称性的测度。测度偏态的统计量是偏态系数，记作SK。

峰态及其度量：峰态一词由统计学家皮尔逊于1905年首次提出，它是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数，记作K。

第四章 数据的概括性度量

第四章数据的概括性度量