pandas 分组操作

任何分组(groupby)操作都涉及原始对象的以下操作之一。它们是

分割对象
应用一个函数
结合的结果

在许多情况下，将数据分成多个集合，并在每个子集上应用一些函数。在应用函数中，可以执行以下操作

聚合 - 计算汇总统计
转换 - 执行一些特定于组的操作
过滤 - 在某些情况下丢弃数据

下面来看看创建一个DataFrame对象并对其执行所有操作：

import pandas as pd

ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
         'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
         'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
         'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
         'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)

将数据拆分成组

Pandas对象可以分成任何对象。有多种方式来拆分对象，如

obj.groupby(‘key’)
obj.groupby([‘key1’,’key2’])
obj.groupby(key,axis=1)

现在来看看如何将分组对象应用于DataFrame对象

df.groupby('Year')

查看分组

df.groupby('Team').groups

按多列分组

df.groupby(['Team','Year']).groups

选择一个分组

使用get_group()方法，可以选择一个组。例如：

grouped.get_group(2014)

聚合

聚合函数为每个组返回单个聚合值。当创建了分组(group by)对象，就可以对分组数据执行多个聚合操作。

一个比较常用的是通过聚合或等效的agg方法聚合：

grouped['Points'].agg(np.mean)

另一种查看每个分组的大小的方法是应用size()函数：

import numpy as np
grouped.agg(np.size)

一次应用多个聚合函数

通过分组系列，还可以传递函数的列表或字典来进行聚合，并生成DataFrame作为输出

agg = grouped['Points'].agg([np.sum, np.mean, np.std])

转换

分组或列上的转换返回索引大小与被分组的索引相同的对象。因此，转换应该返回与组块大小相同的结果。

grouped = df.groupby('Team')
score = lambda x: (x - x.mean()) / x.std()*10
print (grouped.transform(score))

过滤

过滤根据定义的标准过滤数据并返回数据的子集。filter()函数用于过滤数据。

filter = df.groupby('Team').filter(lambda x: len(x) >= 3)