groupby+agg

groupby+agg

一.在处理pandas表格数据时，有时会遇到这样的问题：按照某一列聚合后，判断另一列是否出现唯一值，比如安泰杯--跨境电商比赛中，某个商人的ID如果出现在两个国家（xx和yy），则要剔除这样的数据，这就需要我们按照商人ID进行groupby,然后判断每个商人所属的国家是否值唯一，不唯一则剔除。

def unique_num(x):

　　return len(np.unique(x)) #自定义函数

train.groupby(['buyer_admin_id']).agg({'buyer_country_id':unique_num})

二.下面对groupby和agg使用方法进行总结：

1. 分组后，返回一个含有分组大小的Series

按key1分组: df.groupby(['key1']).size()

按[key1,key2]分组: df.groupby(['key1','key2']).size()

2. 对data1按key1进行分组，并计算data1列的平均值

df['data1'].groupby(df['key1']).mean()

说明：groupby没有进行任何的计算。它只是进行了一个分组。数据（Series）根据分组键进行了聚合，产生了一个新的Series，其索引为key1列中的唯一值。

3.对data1按[key1,key2]进行分组，并计算data1的平均值

df.groupby(['key1','key2'])['data1'].mean()

4.agg函数使用：

1）df.groupby(['key1'])['data1'].min() ==

df.groupby(['key1'])['data1'].agg({'min'}) ==

(推荐使用)df.groupby(['key1']).agg({'data1':'min'})#对data1列，取各组的最小值，名字还是data1

2）按key1分组后，aggregate各组data1的最小值和最大值：

df.groupby(['key1'])['data1'].agg({'min','max'}) ==(推荐使用)df.groupby(['key1']).agg({'data1':['min','max']})

3）可以对groupby的结果更正列名（不推荐用这个，哪怕在后面单独更改列名）：

df.groupby(['key1'])['data1'].agg({'a':'min','b':'max'})#这里的'min' 'max'为两个函数名

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/USTC-ZCC/p/11117300.html