pandas学习

读取数据

pd.read_csv 来读取csv数据,目前对我来说已经够用了,用 index_col 指定索引。

DataFrame 构建

可以直接从 csv 读取数据,也可以用 Series 来构建, 或者用 dict 来构建, 这个自由度还是很大的。

DateFrame 操作

titanic数据为例:

image-20211107202809070

查看年龄缺失项:

image-20211107203016883

填充年龄为平均值:

image-20211107203225385

检验 age 是否还有缺失值:

image-20211107203329199

OK,证明我们的思路正确。

交换某两列

有时候我们需要交换一下列, 比如让 pclass 在 survived 的前面。

image-20211107204808442

提取某两列

image-20211107204949888

设定索引

image-20211107205200306

按索引排序

image-20211107205337172

GroupBy 操作

image-20211107205743127

image-20211107205806531

自定义Group

比如我们想对年龄进行 group,每隔 5 岁定义为一组,这就要自己定义group列:

image-20211107205940597

image-20211107210103415

删除某一列

image-20211107211438478

作图

image-20211107211636346

分割列,一列变两列

image-20211107211917745

image-20211107211941444

参考:列str分割

原文地址:https://www.cnblogs.com/kalicener/p/15521810.html