统计方法的应用

1,卡方分布

卡方分布用于检验观察值的频率和实际值得频率之间是否存在差异。

 如果观察值Oi,i=1,2,3...(实验中获得的值),  期望得到的值Ei,i=1,2,3...(理论值)

   x2 = E(i=1,2...)(Oi-Ei)2/Ei

拒绝无效假设的条件是  X2 >X2 (df=n-1) (卡方检验的关键值),者说明观测值与理论值之间有差异。


R代码:

 2,相关分析

相关分析是一种非确定性的关系,没有精确到一个变量去精确的确定另一个变量。如身高和体重的关系

两个变量之间的相关关系可用相关系数表示。相关系数为正表示正相关,为负表示负相关,为0表示两个变量之间相互独立没有相关性。

 3,回归分析

1,回归分析用最小二乘方法确定两个变量之间的关系

2,用最小二乘估计y

代码

3,一元线性回归和多元线性回归

线性回归指的是自变量和因变量之间存在着线性相关,我们通过建立线性回归模型,来确定自变量是怎样和因变量相关的

step1:确定哪些可能的变量与因变量相关   用R中的lm()函数,用summary()查看该模型各个自变量之间的p值是否相关和R2值(R2值越接近1,说明模型拟合度越好)

step2:如果step1所了解到该模型不是很好,可以通过step()函数做逐步回归(向前逐步回归,向后逐步回归)   或者是增加自变量中各种可能的交叉变量

(进行逐步回归的时候,主要看AIC值,AIC值越小,是模型拟合优良性之一的一个表现)

step3:最后所得到的模型R2值接近1,每个参数估计值的p值显著,

R语言做算法,并行运算博客:http://blog.csdn.net/sinat_26917383/article/details/52719247

4.逻辑回归

一、逻辑回归LR介绍

首先要搞清楚当你的目标变量是分类变量时,才会考虑逻辑回归,并且主要用于两分类问题。举例来说医生希望通过肿瘤的大小x1、长度x2、种类x3等等特征来判断病人的这个肿瘤是恶性肿瘤还是良性肿瘤,这时目标变量y就是分类变量(0良性肿瘤,1恶性肿瘤)。显然我们希望像保留像线性回归一样可以通过一些列x与y之间的线性关系来进行预测,但是此时由于Y是分类变量,它的取值只能是0,1,或者0,1,2等等,不可能是负无穷到正无穷,这个问题怎么解决呢?此时引入了一个sigmoid函数,这个函数的性质,非常好的满足了,x的输入可以是负无穷到正无穷,而输出y总是[0,1],并且当x=0时,y的值为0.5,以一种概率的形式表示. x=0的时候y=0.5 这是决策边界。当你要确定肿瘤是良性还是恶性时,其实我们是要找出能够分开这两类样本的边界,叫决策边界。

详细内容见网址:http://www.mamicode.com/info-detail-501714.html

原文地址:https://www.cnblogs.com/yupeter007/p/5858072.html