基于统计学的基础分析方法

首先,统计学是应用数学的一个分支,主要通过概率论建立模型,收集观察的数据,进行量化分析,从而进行推断和预测。统计学即透过现象看本质。

1.数据的度量

数据的主要分布特征:集中趋势(向平均值靠拢的趋势),离散程度,分布形状。 数据的分类:定量数据和定性数据。

定量数据分为:

  1. 连续变量:可以取任何值,可分割至小数点。如身高、体重。
  2. 离散变量:只能取整数值,不可以取小数。如人数。

定性变量分为:

  1. 有序分类变量:分类之间有等级或程度的的变化。如高、中、低。
  2. 无序分类变量:如男,女。

1.1 定量数据的统计描述指标

代表集中趋势:均值,几何均值,众数,中位数,分位数。

  几何均值:N个数值乘积的N次方根。(数值中避免出现同正、同负的,避免0值)可以取对数:即对数几何平均值。

代表离散程度:方差,标准差,四分间距。

不同样本间的离散程度用变异系数:vs=S/ 样本均值

1.2 定性数据的统计描述指标:比,比率。

1.3 数据分布的形态描述

偏度:数据分布对称性的度量。正态分布,右(正)偏态分布,左(负)偏态分布。

峰度:数据分布平峰或尖峰程度的度量。

2 分类数据分析

2.1 列联表分析:分析行列变量之间是否独立(是否相关)。

    无序分类变量的组间比较多用卡方检验(分析组间差异)。

    如果要检验组间等级差异是否有统计学意义,即有序分类变量之间的组间比较多用秩和检验。

3 定量数据分析

    t检验主要用于两组定量变量的比较,方差分析(F检验)主要用于多组变量之间的比较。(数据均要满足独立性,正态性,方差齐性)

4.时间序列分析(同一现象在不同时间的观察值形成的数据)

4.1时间序列由3个成分组成:趋势、季节、误差。如果要对一个时间序列进行深入的研究,就要对这些序列进行分解或者过滤。

4.2时间序列描述统计:环比:报告期内观察值与前一期观察值的比减1。定基比:报告期内观察值与某一固定时期(如去年这个时候)观察值的比减1。

                        平均增长率:逐期环比值的几何均值减一的结果。

4.3时间序列特性分析:

随机性:时序各项之间没有相关性。时间序列模型建立在序列非随机的条件上。

平稳性:对于任何时间t,均值和方差不变化,自然相关系数只与时间间隔有关,与所处的时间点无关。时序模型需建立在序列平稳的模型上。

季节性:在一定时间间隔上,重复出现前面的某种特性。消除季节性。

5 定量数据的相关分析:主要是线性相关,研究两个或多个变量之间的相互依存关系。

Pearson系数:主要用于正态分布数据

Spearman系数:主要用于偏态数据或等级数据

原文地址:https://www.cnblogs.com/moady/p/5569645.html