统计学基础知识(一)---描述统计(Descriptive Statistics)

描述统计(Descriptive Statistics):将数据的信息以表格, 图形或数值的形式进行汇总。

数据类型:分为定量数据(数值型数据)和定性数据(类别型数据)。数值型数据又可以分为连续型和离散型,类别型数据又可以分为有序型和无序型。

定性数据:

频数(frequency):数据出现的次数。

相对频数(relative frequency):数据出现的次数/总次数。

百分数(percentage):数据出现的次数/总次数*100%。

定量数据:

平均数(mean):总数值除以总数。总体均值---μ;样本均值---

注:这里说的平均数是算术平均数,其他还有加权平均数(weighted mean),几何平均数(geometric mean)和调和平均数。

中位数(median):将所有数据按升序排列,当数据个数是奇数时,中位数就是位于中间的数值,当数据个数是偶数时,中位数就是位于中间的两个数值的平均值。

众数(mode):出现次数最多的数据。

四分位数(quartile):将所有数据按升序排列,然后等分为四部分,处在25%位置上的数值称为下四分位数Q1,处在50%位置上的数值称为Q2,处在75%位置上的数值称为上四分位数Q3。

极差(range):最大值-最小值。

四分位间距(interquartile range, IQR):第三分位数(Q3)-第一分位数(Q1)。

方差(variance):用于度量数据间的变异程度。总体方差---;样本方差---

标准差(standard deviation):方差的平方根。总体标准差---σ;样本标准差---s。

标准值(z-score):某个数值离开平均数有多少个标准差的距离。

注:定量数据可以用分箱的方式转换为定性变量,以此可以再用频数,百分数表示。

原文地址:https://www.cnblogs.com/HuZihu/p/11346118.html