Pandas Series

最近报表做的比较多，如果数据量达到了一定规模而且没超出内存范围内，可以使用Pandas来处理

import numpy as np
import pandas as pd

数据类型可以认为有两种

系列(Series)，数据帧(DataFrame)

Series

索引+值可以认为是序列

一个索引可以对应多个值

简单的list或dict就可以创建 Series

l1 = [i for i in range(10)]
s1 = pd.Series(l1)
s2 = pd.Series([2])
d1 = {i:i+1 for i in range(10)}
s3 = pd.Series(d1)

序列添加一个序列

默认是添加到末尾的

s0 = s1.append(s2)
#忽略索引 相当于索引重建
s1.append(s2, ignore_index=True)

#判断 索引是不是存在
'a' in data
#等同于 'a' in data.index

获取索引的对象

s0.index
s0.keys()

值获取

s0.values

遍历迭代

for i,j in s0.items():
  print(i,j)

切片选择

s0[2:4]
s0[[2,3,4]]

直接换索引(位置不还)

s0.index = [5,4,3,2,1,0]

如果需要按照某个顺序重新显示

s0.reindex([1,3,5,2,0,4])

s0 + 1
s0 - s1
s0.apply(lambda x:x*4+2)