R-6 线性回归模型流程

本节内容:

0:小知识

1:新数据要如何进行分析

2:第二步骤:理解数据

3:第三步骤:相关分析

4:特殊点

0:小知识

0.1:我们说对分析一个数据一般是分步骤的:那么我们可以对其中的步骤进行打标签,也就是跟书签一样。

Ctrl+Shift+r

0.2: 将图形赋值一个变量后,这个变量其中会有图形的一些信息如y轴x轴频数等信息 

plot_draw = plot(,,,,) 

0.3:如何查看R的新包  登录R官网-->https://mirrors.tongji.edu.cn/CRAN/

一、新数据要如何进行分析

二、第二步骤:理解数据

统计量:summary(energraw)  names(energraw)   str(energraw)

可视化:对y的变量进行直方图、箱线图

attach(airquality)

par(mfrow=c(1,2))
boxplot(Temp,col = 45)
hist(Temp)

print(boxplot(Temp,col = 45))
print(hist(Temp))

三、第三步骤:相关分析

 

3.1:一个一个的做plot

plot(Ozone,Temp,col="tomato",main = "Temp & Ozone")
plot(Temp~Ozone,data = airquality)
abline(lm(Temp~Ozone,data = airquality))  
#添加拟合线  系统对y和x做出的解释是怎么样的

3.2:做相关系数矩阵

library(corrgram)
library(mvtnorm)
library(kernlab)    ##要使用corrgram 需要安装mvtnorm,kernlab

corrgram(qq,order = TRUE,lower.panel = panel.shade,
         upper.panel = panel.pie,text.panel = panel.txt,
         main="Corrgram of Airquality  intercorrelations")

偏相关系数:

#偏相关 我们在研究x1和x2的相关时候,可能会被x3或者其他的变量
#影响到我们对x1和x2的相关系数 ,所以需要对其他的变量进行控制
#控制其他的变量他的影响为0的情况下,x1和x2的相关系数
qq = na.omit(airquality)
cc = cor(qq)
library(igraph)
library(ggm)
cc
pcor(c(1,2,3,5,6),cc)  ##0.3523451  控制其他变量得出的相关
cor(qq$Ozone,qq$Solar.R)  ##0.3483417  

四、数据建模

4.1 设置训练集 和测试集 两种方式

#第一种方式
qq = na.omit(airquality)
train_number = sample(1:nrow(qq),nrow(qq)*0.8)

train = qq[train_number,]
test = qq[-train_number,]

nrow(test)  ##22
nrow(train) ##88 

##第二种方式 

train_number2= sample(2,nrow(qq),replace = T,prob = c(0.8,0.1))
train_2 = qq[train_number2,]
test_2 = qq[-train_number2,]

4.2 数据建模,一元线性回归

with(train,plot(Temp,Ozone)) ##可以画出大概的散点图 
runif = lm(train$Temp~train$Ozone,data = train)
runif
summary(runif) ##看模型好不一般我们看R方

 

四、异常点判断

https://zhuanlan.zhihu.com/p/28175779

4.1 离群点判别方法三种

1:做boxplot图

2:学生化残差(studentized residual)

因为该经理想要通过线性回归,来回答广告、定价和销量是否相关的问题,我们也可以通过回归的残差寻找“销量”的特异值。学生化残差是一种标准化的残差,它可以告诉我们哪些数据点的残差较大,超过±3的学生化残差可以被看作可能的离群值。在R软件中,可以使用rstudent()命令计算学生化残差。

3:

library(car)
outlierTest(runif)

  

原文地址:https://www.cnblogs.com/hero799/p/11984963.html