Series

一、定义

Series是一种类似于一维数组的对象，它由一组数据（各种numpy数据类型）以及一组与之相关的数据标签（索引）组成。

也可以看成一个定长的有序字典。

二、创建

2.1 无索引创建

如果未指定索引，索引默认为0只n-1

import  pandas as pd
obj_1 = pd.Series(['1', '2', '3'])
obj_2 = pd.Series(('1', '2', '3'))
print('obj_1', obj_1)
print('obj_2', obj_2)

2.2 有索引创建

import  pandas as pd
obj_1 = pd.Series(['1', '2', '3'], index=['a', 'b', 'c'])
obj_2 = pd.Series(('1', '2', '3'), index=['a', 'b', 'c'])
dict_1 = {'a':1, 'b':'2', 'c':'3'}
obj_3 = pd.Series(dict_1)
print('obj_1', obj_1)
print('obj_2', obj_2)
print('obj_3', obj_3)

三、索引

3.1 索引对象不可变，索引可变。

import pandas as pd
series_1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
values = series_1.values
index = series_1.index
print('values
', values)
print('index
', index)
print('series_1
', series_1)
series_1.index = ['d', 'e', 'f']   # 更改索引.索引个数不能多也不能少
print('series_1
', series_1)
series_2 = series_1.reindex(['f','d','i'])   # 重新索引，索引数量可以变化，索引对象也可以变化
print('series_1
', series_1)                # 注意，此时的series_1未发生变化。
print('series_2
', series_2)

# index[1] = 'd'              更改索引对象，报错

3.2 标签切片

import pandas as pd
series_2 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

print('series_2
', series_2)
print('series_2[1:3]
', series_2[0:2])                   # 不包含最后一项
print("series_2['b':'c']
", series_2['a':'c'])           # 包含最后一项
series_2['b':'c'] = 5                                     # 赋值操作
print('series_2
', series_2)

3.2 整数索引

如果索引为整数，最好使用标签索引。

import pandas as pd
series = pd.Series(range(5), index=range(5))

index = series[1:3]           #此处未按标签切片
iloc = series.iloc[1:3]
loc = series.loc[1:3]

print('index
', index)
print('
iloc
', iloc)
print('
loc
', loc)

3.3 重复索引

import pandas as pd
series_1 = pd.Series(range(4), index=list('aabd'))

print( series_1['a'])
print( series_1.index.is_unique)   # 判断index是不是不重复的

四、操作

4.1 取值操作

import pandas as pd
series_1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
result_1 = series_1['a']
result_2 = series_1[['b', 'c']]
result_3 = 'c' in series_1
result_4 = 'd' in series_1
result_5 = series_1[series_1 > 2]  # 布尔类型

print('result_1', result_1)
print('result_2', result_2)
print('result_3', result_3)
print('result_4', result_4)
print('result_5', result_5)

4.2 算术操作

⾃动的数据对⻬操作在不重叠的索引处引⼊了NA值。

缺失值会在算术运算过程中传播。

import pandas as pd
series_1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
series_2 = pd.Series([4, 5, 6], index=['b', 'c', 'd'])
result_1 = series_1 + series_2
result_2 = series_1 - 2
result_3 = series_1 * 2

print('result_1', result_1)
print('result_2', result_2)
print('result_3', result_3)

4.3 name属性

Series对象本身及其索引都有⼀个name属性，该属性跟pandas
其他的关键功能关系⾮常密切

4.4 drop 操作

import pandas as pd
series_2 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
series_3 = series_2.drop('a', inplace=False)      #inplace默认为False,series_2不发生改变,如果为True,则series会发生改变

print('series_2
', series_2)
print('series_3
', series_3)

4.5 排序

import pandas as pd

series_1 = pd.Series(range(4), index=list('cabd'))
series_2 = series_1.sort_index()
series_3 = series_1.sort_values()
series_4 = series_1.reindex(list('cabdfe')).sort_values()  # NaN值会直接放到最后

print('series_1
', series_1)
print('
series_2
', series_2)
print('
series_3
', series_3)
print('
series_4
', series_4)

4.6 排名

排名会从1开始⼀直到数组中有效数据的数量;

默认情况下，rank是通过“为各组分配⼀个平均排名”的⽅式破坏平级关系的：

这⾥，条⽬0和2没有使⽤平均排名6.5，它们被设成了6和7，因为数据中标签0位于标签2的前⾯。