R语言实战复习笔记—

> with(mtcars,summary(mpg,disp))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  10.40   15.42   19.20   20.09   22.80   33.90

相当于attach 和detach

> mydata=transform(mtcars,sumx=mpg+disp)

　　向数据框中添加新变量与mydsta$sumx相同

> View(mydata)

　　将弹出小框，进行数据查看

> within(leadership,{
+ agecat=NA
+ agecat[age>75]='Elder'
+ agecat[age<55]='Young'})

　　with 和within的区别为，with不可对数据框进行修改，within 可以

#对变量的名称进行修改

1）>fix(data)　　#进行交互式修改

2) reshape包的rename　　rename(data,c(oldname='newname',oldname='newname'))

3)names(data)[i]='newname'

#移除含有缺失值的观测

1）na.nmit(data)

#日期的输出格式

>format(x,format='%d %m %y')

#输出系统日期

>Sys.Date()

#计算时间间隔

difftime(today,anotherday,units='weeks')　　#返回的为一种特定的类，如果需要请将其使用as.numeric进行转化

#数据排序

> order(mtcars$mpg) #返回的为mpg升序排列（默认，如需降序在变量前加符号，或设定参数）的索引号

[1] 15 16 24 7 17 31 14 23 22 29 12 13 11 6 5 10 25 30 1 2 4 32 21 3 9 8 27 26 19 28 18 20

所以要mtcars[order(mtcars$mpg),]才返回数据

#数据集的合并

>total=merge(dataframeA,dataframeB,by='ID') #数据依据‘ID’进行合并，相当于inner join

数据集包含的判断利用 %in%,返回的为逻辑向量

#删除变量可以用c(-1)或者var1=NULL

#依据条件选取观测值

newdata=subset(leadership,age>=35,select=c(q1,q2))

newdata=subset(leadership,age>=35,select=gender:q4) from to的形式仅在此处应用于变量的选取

> mtcars[1:10,'mpg'] 必须加双引号

#随机抽样

>sample(x, size, replace = FALSE, prob = NULL)

> sample(1:10,3)
[1] 5 7 3

"sqldf"包可以用来使用sql语句