数据分析:Pandas

pandas简介

1.pandas是一个强大的Python数据分析的工具包，它是基于Numpy构建的，正因pandas的出现，让Python语言也成为使用最广泛而且强大的数据分析环境之一。

安装方法：

pip install pandas

引用方法：

import pandas as pd

Series

1.简介：

Series是一种类似于一维数组的对象，由一组数据和一组与之相关的数据标签(索引)组成。

2.创建的几种方法

前提：

第一种方式：

将数组索引以及数组的值打印出来，索引在左，值在右，由于没有为数据指定索引，于是会自动创建一个0到N-1（N为数据的长度）的整数型索引，取值的时候可以通过索引取

第二种方式：

自定义索引，index是一个索引列表，里面包含的是字符串，依然可以通过默认索引取值。

第三种方式：

指定索引

第四种方式：

补充：以上方式可通过索引取值

3.缺失数据处理

示例和数据：

因为rocky没有出现在st的键中，所以返回的是缺失值

1.isnull()：判断是否有缺失值，是缺失值返回Ture

2.dropna() # 过滤掉值为NaN的行

3.fillna() # 填充缺失数据

4.Series特性

#1.加减乘除运算

#2.布尔值过滤：sr[sr>0]

5.支持字典的特性

#1.取值

6.整数索引

示例：

7.数据对齐

示例1：

示例2：

DataFrame

1.简介

DataFrame是一个表格型的数据结构，相当于是一个二维数组，含有一组有序的列。他可以被看做是由Series组成的字典，并且共用一个索引。

2.创建的几种方式

第一种：
pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
# 产生的DataFrame会自动为Series分配所索引，并且列会按照排序的顺序排列
运行结果：
    one two
0   1   4
1   2   3
2   3   2
3   4   1

> 指定列
可以通过columns参数指定顺序排列
data = pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
pd.DataFrame(data,columns=['one','two'])

# 打印结果会按照columns参数指定顺序


第二种：
pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3],index=['b','a','c'])})
运行结果：
   one  two
a   1   2
b   2   1
c   3   3