dplyr 数据操作 常用函数(2)

继上一节常用函数,继续了解其他函数

1、desc()

这个函数和SQL中的排序用法是一样的,表示对数据进行倒序排序。

接下来我们看些例子。

a=sample(20,50,rep=T)
a

desc(a)

 

在使用desc后是直接在数据前面加上一个负号,一般情况下配合arrange()函数一起使用,功能强大。

2、distinct()

跟SQL中distinct函数用法类似,提取重复数据中的唯一值,另外这个函数输入数据只支持tbl数据格式,

先把上面的向量a转化成tbl

a<-tbl_df(a)
distinct(a)

可以看到数据由原来的50个数值,变成只有20个唯一值。

3、funs()

生成一个函数列表,这个在进行数据描述统计时会比较经常用到。

a<-tbl_df(1:10)
summarise_all(a,funs(max,min,mean,sum))

可以一次性统计多个数据统计量。

4、groups()、group_by()、ungroup()、group_indices()、group_size()

group_by是对数据分组,groups 可以查看分组对象,ungroup()移除数据分组,group_indices列出每个分组标签,group_size计算分组数据量

a<-data.frame(id=rep(1:3,3),
              number=1:9)
a

group_by(a,id)

数据按照id分成3组

group_by(a,ss=id+1)

 

group_by 后面的参数可操作较为灵活,可以多个变量或者变量间的运算。

groups(group_by(a,id))

 

ungroup(group_by(a,id))

数据分组被移除。

group_indices(mtcars, cyl)

 

列出cyl列数据4/6/8以对应标签1/2/3的形式排列

group_size(a)

[1] 9 

 求出分组数据量

    

原文地址:https://www.cnblogs.com/wkslearner/p/5757087.html