数据分析:Pandas

pandas简介

1.pandas是一个强大的Python数据分析的工具包,它是基于Numpy构建的,正因pandas的出现,让Python语言也成为使用最广泛而且强大的数据分析环境之一。

2.

安装方法:

pip install pandas

引用方法:

import pandas as pd

Series

1.简介:

Series是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。

2.创建的几种方法

前提:

 第一种方式:

 将数组索引以及数组的值打印出来,索引在左,值在右,由于没有为数据指定索引,于是会自动创建一个0到N-1(N为数据的长度)的整数型索引,取值的时候可以通过索引取

第二种方式:

 自定义索引,index是一个索引列表,里面包含的是字符串,依然可以通过默认索引取值。

第三种方式:

 指定索引

第四种方式:

 

 补充:以上方式可通过索引取值

 3.缺失数据处理

示例和数据:

 因为rocky没有出现在st的键中,所以返回的是缺失值

1.isnull():判断是否有缺失值,是缺失值返回Ture

 2.dropna() # 过滤掉值为NaN的行

 3.fillna() # 填充缺失数据

 

4.Series特性 

 #1.加减乘除运算

 #2.布尔值过滤:sr[sr>0]

 5.支持字典的特性

 #1.取值

 6.整数索引

 示例:

7.数据对齐

示例1:

 示例2:

DataFrame

1.简介

DataFrame是一个表格型的数据结构,相当于是一个二维数组,含有一组有序的列。他可以被看做是由Series组成的字典,并且共用一个索引。

2.创建的几种方式

第一种:
pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
# 产生的DataFrame会自动为Series分配所索引,并且列会按照排序的顺序排列
运行结果:
    one two
0   1   4
1   2   3
2   3   2
3   4   1

> 指定列
可以通过columns参数指定顺序排列
data = pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
pd.DataFrame(data,columns=['one','two'])

# 打印结果会按照columns参数指定顺序


第二种:
pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3],index=['b','a','c'])})
运行结果:
   one  two
a   1   2
b   2   1
c   3   3

3.常用属性

 示例:

 

4.常见获取数据方式

示例1:读取文件

 示例2读取后规定展示数量

 

 示例3另存为

 5.分组

#1.read_html

示例1:

 取值示例:

优化示例:

分组示例:

分组排序示例:

 2个列字段分组

 6.时间处理

1.时间转换

 2.时间格式转换

 3.data_range

 示例:

原文地址:https://www.cnblogs.com/tfzz/p/11979604.html