数据分析与挖掘

一个简单的例子!
环境:CentOS6.5
Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。

线性回归主要用来做预测模型。

1、准备数据集:

X       Y
0.10    42.0 
0.11    43.5 
0.12    45.0 
0.13    45.5 
0.14    45.0 
0.15    47.5 
0.16    49.0
0.17    53.0
0.18    50.0
0.20    55.0
0.21    55.0
0.23    60.0
> s=read.table("test-1.txt", header = F)

 

2、确定线性回归函数:Y = β0 + β1X + ε

其中β0 + β1X 表示Y随X的变化而线性变化的部分;ε是随机误差,是一切不确定因素的总和,其值不可测。

 

3、使用R语言中的lm()函数求解

> x=s$V1
> y=s$V2
> lm.sol<-lm(y ~ 1+x)
> summary(lm.sol)

指标1:Pr(>|t|) 表示P– 值,即概率值。***说明极为显著, **说明高度显著, *说明显著, .说明不太显著,没有记号为不显著。

指标2:R-Squared: 0.9481 的值越大越好,至少应该在0.8以上。

4、绘制图形

> plot(x,y)
> abline(lm.sol)

5、作出预测

> z=data.frame(x=0.24)
> predict(lm.sol, z)

预测结果为:

       1 
59.89318 
原文地址:https://www.cnblogs.com/hunttown/p/5527625.html