pandas 的数据结构Series与DataFrame

pandas中有两个主要的数据结构:Series和DataFrame。

【Series】

Series是一个一维的类似的数组对象,它包含一个数组数据(任何numpy数据类型)和一个与数组关联的索引。

为了方便理解,可以把Series看着是一个有序字典。其中索引是连续的,从0开始。

from pandas import Series,DataFrame

series=Series(["Kangkang","Michale","Jane","Maria"])
print(series)

输出如下,左边表示每个元素对应的索引,右边表示相应元素,索引从0开始。

使用 series.values和series.index 来获取元素和相应的索引。

print(series.values)
print(series.index)

【DataFrame】

 一个DataFrame表示一个表格,它包含一个经过排序的列表集。每一个列表都可以有不同的类型值(数字,字符串,布尔等等)。

Datarame有行和列的索引;它可以被看作是一个Series的字典(每个Series共享一个索引)。

 可以通过相等长度列表的字典来构建一个DataFrame。

data={"name":["Kangkang","Michale","Jane","Maria"],"age":["18","19","20","21"]}
dataFrame=DataFrame(data)
print(dataFrame)

输出如下,这时对列名进行了排序:

 

可以通过columns参数来指定列的排序:

data={"name":["Kangkang","Michale","Jane","Maria"],"age":["18","19","20","21"]}
dataFrame=DataFrame(data,columns=["name","age"])
print(dataFrame)

输出如下:

 和Series中一样,如果你多传入了一个列,但它不包含在data中,那么在结果中,它会显示为NA值:

data={"name":["Kangkang","Michale","Jane","Maria"],"age":["18","19","20","21"]}
dataFrame=DataFrame(data,columns=["name","age","score"])
print(dataFrame)

输出如下:

【Reference】

https://www.fashici.com/tech/184.html

https://www.cnblogs.com/smallcrystal/p/5809864.html

原文地址:https://www.cnblogs.com/shenxiaolin/p/8612186.html