R语言实战复习笔记——第四章

> with(mtcars,summary(mpg,disp))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  10.40   15.42   19.20   20.09   22.80   33.90 

相当于attach 和detach

> mydata=transform(mtcars,sumx=mpg+disp)

  向数据框中添加新变量与mydsta$sumx相同

> View(mydata)

  将弹出小框,进行数据查看

> within(leadership,{
+ agecat=NA
+ agecat[age>75]='Elder'
+ agecat[age<55]='Young'})

  with 和within的区别为,with不可对数据框进行修改,within 可以

#对变量的名称进行修改

1)>fix(data)  #进行交互式修改

2) reshape包的rename  rename(data,c(oldname='newname',oldname='newname'))

3)names(data)[i]='newname'

#移除含有缺失值的观测

1)na.nmit(data)

#日期的输出格式

>format(x,format='%d %m %y')

#输出系统日期

>Sys.Date()

#计算时间间隔

difftime(today,anotherday,units='weeks')  #返回的为一种特定的类,如果需要请将其使用as.numeric进行转化

#数据排序

> order(mtcars$mpg) #返回的为mpg升序排列(默认,如需降序在变量前加符号,或设定参数)的索引号

[1] 15 16 24 7 17 31 14 23 22 29 12 13 11 6 5 10 25 30 1 2 4 32 21 3 9 8 27 26 19 28 18 20

所以要mtcars[order(mtcars$mpg),]才返回数据

#数据集的合并

>total=merge(dataframeA,dataframeB,by='ID') #数据依据‘ID’进行合并,相当于inner join 

数据集包含的判断利用 %in%,返回的为逻辑向量

#删除变量可以用c(-1)或者var1=NULL

#依据条件选取观测值

newdata=subset(leadership,age>=35,select=c(q1,q2))

newdata=subset(leadership,age>=35,select=gender:q4) from to的形式仅在此处应用于变量的选取

> mtcars[1:10,'mpg'] 必须加双引号

 #随机抽样

>sample(x, size, replace = FALSE, prob = NULL)

> sample(1:10,3)
[1] 5 7 3

"sqldf"包可以用来使用sql语句

 

原文地址:https://www.cnblogs.com/liuting1990/p/6414749.html