pandas 的数据结构Series与DataFrame

pandas中有两个主要的数据结构：Series和DataFrame。

【Series】

Series是一个一维的类似的数组对象，它包含一个数组数据（任何numpy数据类型）和一个与数组关联的索引。

为了方便理解，可以把Series看着是一个有序字典。其中索引是连续的，从0开始。

from pandas import Series,DataFrame

series=Series(["Kangkang","Michale","Jane","Maria"])
print(series)

输出如下，左边表示每个元素对应的索引，右边表示相应元素，索引从0开始。

使用 series.values和series.index 来获取元素和相应的索引。

print(series.values)
print(series.index)

【DataFrame】

一个DataFrame表示一个表格，它包含一个经过排序的列表集。每一个列表都可以有不同的类型值（数字，字符串，布尔等等）。

Datarame有行和列的索引；它可以被看作是一个Series的字典（每个Series共享一个索引）。

可以通过相等长度列表的字典来构建一个DataFrame。

data={"name":["Kangkang","Michale","Jane","Maria"],"age":["18","19","20","21"]}
dataFrame=DataFrame(data)
print(dataFrame)

输出如下，这时对列名进行了排序：

可以通过columns参数来指定列的排序：

data={"name":["Kangkang","Michale","Jane","Maria"],"age":["18","19","20","21"]}
dataFrame=DataFrame(data,columns=["name","age"])
print(dataFrame)

输出如下：

和Series中一样，如果你多传入了一个列，但它不包含在data中，那么在结果中，它会显示为NA值：

data={"name":["Kangkang","Michale","Jane","Maria"],"age":["18","19","20","21"]}
dataFrame=DataFrame(data,columns=["name","age","score"])
print(dataFrame)

输出如下：

【Reference】

https://www.fashici.com/tech/184.html

https://www.cnblogs.com/smallcrystal/p/5809864.html