主要内容:
- Pandas库的Series类型
- Pandas库的DataFrame类型
- 数据类型操作
- 数据类型运算
- 总结
Pandas库的理解:两个数据类型: Series, DataFrame;基于上述数据类型的基本操作、运算操作、特征类操作、关联类操作
(1)Pandas库的Series类型
Series类型由一组数据及与之相关的数据索引组成,是一维带“标签”数组,包括index和values两部分。
Series类型可以由如下类型创建
- Python列表, index与列表元素个数一致。
- 标量值, indexSeries表达类型的尺寸。
- Python字典,键值对中的“键”是索引, index从字典中进行选择操作。
- ndarray,索引和数据都可以通过 ndarray类型创建。
- 其他函数, range()函数等。
Series基本操作类似ndarray和字典,根据索引对齐。
(2)Pandas库的DataFrame类型
DataFrame是一个表格型的数据类型,每列值类型可以不同。
DataFrame既有行索引、也有列索引。
Data Frame常用于表达二维数据,但可以表达多维数据。
(3)数据类型操作
重新索引 .reindex()能够改变或重排Series和DataFrame索引
(4)数据类型运算
比较运算
(5)总结
Series=索引+一维数据
DataFrame=行列索引+二维数据
理解数据类型与索引的关系,操作索引即操作数据。重新索引、数据删除、算术运算、比较运算。
像对待单一数据一样对待Series和DataFrame对象。