《python数据分析》5.1

  这几天事情太多了,好几个项目催着要功能,还有测试版本的问题修复,一个头不知道几个大。想了想列了一下需要做哪些事情,排排优先级,先把优先级高的简单的

先处理了,每天写一个清单,处理完一件就打个勾,打勾的感觉挺爽的,推荐一本书《清单革命》,有空可以大致翻一下。

5.1 pandas数据结构

两种主要的数据结构:Series和DataFrame

Series 是一维的,类似字典,它的索引就是它的键值,可以将字典输入创建一个Series

sdata = {'Ohio':3,'Texas':4,'Oreng':5,'Utah':6}

sdata
Out[3]: {'Ohio': 3, 'Texas': 4, 'Oreng': 5, 'Utah': 6}

ob = pd.Series(sdata)

ob
Out[5]: 
Ohio     3
Texas    4
Oreng    5
Utah     6
dtype: int64

 

可以看到,键值成为了左边的索引值

当然也可以直接用数组输入生成Series,那索引值默认是0,1,2...;索引值可以在生成时赋值的

ob = pd.Series([4,-1,3,5],index=['a','b','c','d'])

ob
Out[31]: 
a    4
b   -1
c    3
d    5
dtype: int64

 可以采取像字典方式,取键值来取所对应的值。

当用列表输入生成Series时,index的长度必须和列表长度一样;用字典输入生成Series时,index长度可以和字典不一样长

5.1.2 DataFrame

DataFrame是二维的,当然里面可以嵌套,看上去是多维的。

由长度相同的列组成,就像是Excel表格一样,每一列代表一类数据

可以看成是Series的数组

data = {'state':['Ohio','Ohio','Nevada'],'year':[2001,2001,2002],'pop':[1.5,1.7,3.6]}

frame = pd.DataFrame(data)

frame
Out[19]: 
    state  year  pop
0    Ohio  2001  1.5
1    Ohio  2001  1.7
2  Nevada  2002  3.6

  可以看到左边是有索引的。

取单元值是用loc函数

frame.loc[1]
Out[43]: 
state    Ohio
year     2001
pop       1.7
Name: 1, dtype: object

 选取列

frame['state']
Out[44]: 
0      Ohio
1      Ohio
2    Nevada
Name: state, dtype: object

  DataFrame 可以用values属性把数据以二维ndarray形式返回

frame.values
Out[45]: 
array([['Ohio', 2001, 1.5],
       ['Ohio', 2001, 1.7],
       ['Nevada', 2002, 3.6]], dtype=object)

  

原文地址:https://www.cnblogs.com/yemeng/p/14594605.html