Python数据分析 Pandas模块基础数据结构与简介(二)

重点方法

分组：groupby('列名') groupby(['列1'],['列2'........])

分组步骤：

（spiltting）拆分按照一些规则将数据分为不同的组
（Applying）申请对于每组数据分别执行一个函数
（Combining）组合将结果组合到一个数据结构

分组后默认统计的方法

1.size() 大小 = count() max(),min(),std(),median()中位数,first(),last()

函数名	使用
count	分组中非NA(空值)的数量
sum	非NA的和
mean	非NA的平均值
median	非NA的值的算术中位数
std;var	无偏（分母为n-1）标准差和方差
prod	非NA值的积
first;last	第一个和最后一个非NA的值

以上统计函数：除了count()外，都会自动过滤非数字列！！！

排重：duplicated() 重复

1.检查重复数据：df.duplicated() 判断整行数据

2.检查重复指定列名：df.duplicated(['列1','列2....'])

3.删除重复数据：df.drop_duplicates()

4.删除时指定保留的数据：df.drop_duplicates(['列1','列2'...],keep='first/last')

keep:保存
first:第一个
last:最后一个

数据透视表

df.pivot_table(df,index=['列1','列2...'],values='名',aggfunc=np.mean/sum)
- index ：排序的列
- values：统计列
- aggfunc ：执行的统计函数,不写默认统计平均值

分组替换：categories 分组/分类

实现第二列！分组，并替换数据！
df['新列名']=df['B'].astype('category'): 转换为分类/分组类型
分配列名：df['新列名'].cat.categories(['值1','值2....'])
重新设置：df['新列名']=df['新列名'].cat.set_categories(['值1','值2.....'])

读写文件

HDF5:存储大数据，可方便和其他语言对接，了解
- to_hdf(文件)
- read_hdf(文件)
csv:
- to_csv(文件)
- read_csv(文件)
表格 excel：
- to_excel(文件)
- read_excel(文件)

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/fhj-0519/p/10133439.html