pandas库学习笔记（一）Series入门学习

Pandas基本介绍：

pandas is an open source, BSD-licensed (permissive free software licenses) library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language.

我们快速简单地看一下pandas中的基本数据结构，先从数据类型、索引、切片等简单操作开始。首先导入必要的域名空间：

我们首先简单介绍一下数据结构：

Series 是一个一维数组结构的，可以存入任一一种python的数据类型(integers, strings, floating point numbers, Python objects, etc.)。最创建一个Series的最基本方法是：

>>> s = pd.Series(data, index=index)

这里，data指代许多不同的数据类型：

a Python dict
an ndarray
a scalar value (like 5)

index指代一个标签轴链表(list)，因此，根据data的数据类型不同，我们可以大致有如下方式新建Series：

1、 from ndarray

如果data是ndarray类型，那么index的长度必须与data一样。如果index值缺省，整数链表[0,1,2,…,len(data)-1]将会被自动初始化为index。

2、 from dict

如果data是字典结构，index默认为字典中的key值。如果在创建时index被重新赋值，那么value将会与新建的index对应，如果index值不在字典的key值中，那么value将会被初始化为NaN。

注：NaN不是一个值，在pandas中代表缺省值。

3、 from scalar value

如果data是一个标量，index值必须被初始化，value值将会重复对应到每一个index。

Series与ndarray类似

Series的操作与ndarray非常类似，但是Series可以应用numpy中的大多数函数，例如切片操作。

Series与dict类似

Series像一个固定大小的dict，可以通过index赋值或者取值。

Series矢量操作以及标签对齐运算

在数据分析时，numpy无需进行循环即可对每一个值进行同等操作，Series也可以通过调用numpy中的函数达到预期运算结果。