20200303 pandas

昨日内容

1.数据分析的概述 将爬虫爬下来的数据，进行分析，以前使用的是R语言来进行分析，现在的使用Python中 的数据分析库 

2.数据分析的应用 淘宝购物之后，商品推荐，会根据之前用户的浏览日志推荐相关的产品，用户画像 抖音（百度过来的推荐算法团队），快手的推荐算法，投喂 看电影，电影推荐等 

3.数据分析的步骤 提出需求（产品经理或者leader提出） 收集数据爬虫爬取的数据或者掏钱买的 公司自己产生的各种数据 进行数据清洗 数据详细分析，得出结论，图表的形式展示结论 

4.写代码的工具 以前使用的是pycharm，但是现在本次课程使用的是 jupyter 

5.jupyter的安装 命令行安装和启动 (不推荐) pip3 install jupyter jupyter notebook 缺点是：需要额外的在进行安装numpy anaconda安装（推荐） 直接官网下载，傻瓜式安装 点击lunch按钮，直接启动 

6.jupyternotebook的使用介绍 注意：notebook的文件后缀，是以 ipynb 结尾 

7.jupyternotebook的快捷键
两个模式： 编辑模式：光标闪动，颜色是绿色 命令模式：按esc，就能从编辑模式到命令行模式 常见的6个快捷键： 运行当前的代码：crtl + enter 运行当前的代码，并且运行完成之后自动的选择下一个单元格：shift+enter 删除当前单元格：切换到命令行模式，按dd直接删除 在当前单元格的上方添加一个单元格：切换到命令行模式，按a添加 在当前单元格的下方添加一个单元格：切换到命令行模式，按b添加 切换代码模式到标记模式：切换到命令模式，按m进行切换 如果命令不够，可以去键盘处打开命令配置查看 

8.numpy的介绍 核心数据结构是：ndarray 

9.numpy的基本属性 dtype: 数据类型 ndim：数组维度 shape：数组维度，以元组的形式展示 T：转置 （对高维数组而言） 
    
10.numpy数组的创建方式 np.array([1,2,3,3,4]) np.arange() np.linspace() np.linspace? #### 查看函数的使用方法 np.zeros(5) np.ones(5) 

11.数组的索引 一维数组索引 和python的列表用法是一样，都是从0开始 二维数组索引 存在行索引和列索引，需要逗号进行分割，逗号前面是行索引，后面是列索引 布尔型索引 数组可以把布尔值当成索引，来获取对应的值 

12.数组的切片 一维数组切片 和Python中的列表的切片一样，也都是从0开始，前包后不包 二维数组的切片 存在行索引，和列索引，需要逗号进行分割，逗号前面是行切片，后面是列切片

13.通用函数 abs() : 绝对值 ceil(): 向上取整 ceil(4.3) ===> 5 floor()：向下取整 floor(5.7) ===> 5 rint() : 四舍五入 rint(3.4) ====>3 sum(): 求和 cumsum() max() min() 
                
14.随机数函数 np.random.rand() np.random.randint() np.random.shuffle() 15.向量运算和矢量运算

pandas

简介

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

数据结构

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型，字符串、boolean值、数字等都能保存在Series中。

Time- Series：以时间为索引的Series。

DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。

Panel ：三维的数组，可以理解为DataFrame的容器。

Panel4D：是像Panel一样的4维数据容器。

PanelND：拥有factory集合，可以创建像Panel4D一样N维命名容器的模块。

安装

pip install pandas

使用

import pandas as pd
import numpy as np

Series 四种定义方式

s1 = pd.Series([2,3,4,5,6])

s1

0    2
1    3
2    4
3    5
4    6
dtype: int64

s2 = pd.Series([2,3,4,5,6],index=['a','b','c','d','e'])

s2

a    2
b    3
c    4
d    5
e    6
dtype: int64

s1[1]

s2['b']

s2[2]    # 数字型索引和自定义索引是共存的

a3 = pd.Series({'a':2,'b':2})

a3

a    2
b    2
dtype: int64

s4 = pd.Series(0,index=['a','b','c'])

s4

a    0
b    0
c    0
dtype: int64

Series的特性

pd.Series(np.array([1,2,3,4,5]))

0    1
1    2
2    3
3    4
4    5
dtype: int32

矢量运算

s1 * 2

0     4
1     6
2     8
3    10
4    12
dtype: int64

s1

0    2
1    3
2    4
3    5
4    6
dtype: int64

布尔型索引

s1[s1>4]

3    5
4    6
dtype: int64

通用函数

abs(s1)

0    2
1    3
2    4
3    5
4    6
dtype: int64

sum(s1)

# 适用于numpy

缺失值数据的处理

st = pd.Series({'sean':12,'yang':15,'cloud':20,'bella':23})

st   # 得到一个Series

sean     12
yang     15
cloud    20
bella    23
dtype: int64

obj1 = pd.Series(st,index=['sean','yang','cloud','rocky'])
obj1

sean     12.0
yang     15.0
cloud    20.0
rocky     NaN
dtype: float64

NAN

# NaN 即是所谓的缺失值

1.为啥值得类型从整型变为了浮点型

因为NaN是浮点数类型,其他值兼容,会强制变为浮点型

type(np.nan)

float

2.nan等于谁

np.nan == np.nan

False

3.填充nan

obj1.fillna(0)

sean     12.0
yang     15.0
cloud    20.0
rocky     0.0
dtype: float64

obj1   # 拷贝一份,填充

sean     12.0
yang     15.0
cloud    20.0
rocky     NaN
dtype: float64

4.删除nan所在的行

obj1.dropna()

sean     12.0
yang     15.0
cloud    20.0
dtype: float64

obj1    # 拷贝了一份删除,但是原obj没有更改

sean     12.0
yang     15.0
cloud    20.0
rocky     NaN
dtype: float64

obj1.dropna(inplace=True)   # inplace=True 在对象本身进行操作
obj1

sean     12.0
yang     15.0
cloud    20.0
dtype: float64

运算

两个Series的运算

### 向量运算

s4 = pd.Series({'height':170,'age':18,'salary':2000})
s4

height     170
age         18
salary    2000
dtype: int64

s5 = pd.Series({'height':110,'age':20,'salary':2367})
s5

height     110
age         20
salary    2367
dtype: int64

s4 + s5   # 索引所对应的值进行加减乘除

height     280
age         38
salary    4367
dtype: int64

两个键值都会缺失

s6 = pd.Series({'name':110,'age':20,'salary':2367})
s6

name       110
age         20
salary    2367
dtype: int64

s4

height     170
age         18
salary    2000
dtype: int64

s4 + s6

age         38.0
height       NaN
name         NaN
salary    4367.0
dtype: float64

Series索引

s1

0    2
1    3
2    4
3    5
4    6
dtype: int64

花式索引

# 中括号中套中括号,内层括号中写索引下标

# 获取246 三个值

s1[[0,2,4]]

0    2
2    4
4    6
dtype: int64

arr = np.array([1,2,3,4,5])

arr[[0,3,2]]

array([1, 4, 3])

整数索引

sr = pd.Series(np.arange(10))
sr

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

sr1 = sr[3:].copy()
sr1

3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

# 想要获取值为3   不能直接索引取值了

sr1.iloc[0]   # iloc == index + location   以索引下标取值

sr1.loc[6]     # 以标签取值

DataFrame

DataFrame 是一个表个性的数据结构,相当于一个二维数组,含有一组有序的列.他可以看做成由Series组成的字典,并且共用一个索引

df = pd.DataFrame({'one':[1,2,3,4],'two':[5,6,7,8]})
df

创建方式

	one	two
0	1	5
1	2	6
2	3	7
3	4	8

df['two']

0    5
1    6
2    7
3    8
Name: two, dtype: int64

df['one'].iloc[3]    # 先获取列,在获取行

DataFrame常见的属性

df.index   # 获取行索引

RangeIndex(start=0, stop=4, step=1)

df.columns  # 获取列索引

Index(['one', 'two'], dtype='object')

df.T    # 转置,行变列

	0	1	2	3
one	1	2	3	4
two	5	6	7	8

df.values    # 获取值

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]], dtype=int64)

df

	one	two
0	1	5
1	2	6
2	3	7
3	4	8

df.describe()   # 展示DataFrame表格的属性

	one	two
count	4.000000	4.000000
mean	2.500000	6.500000
std	1.290994	1.290994
min	1.000000	5.000000
25%	1.750000	5.750000
50%	2.500000	6.500000
75%	3.250000	7.250000
max	4.000000	8.000000

df['one'][0]

企业中处理数据的方式

使用

1.别的同事会给你一个excel文件或csv文件
2.使用pandas读取csv文件

打开读取文件

movies = pd.read_csv('./douban_movie.csv')

文件操作处理

movies.index   # 查看文件信息

RangeIndex(start=0, stop=38735, step=1)

获取索引名(表头)

movies.columns

Index(['名字', '投票人数', '类型', '产地', '上映时间', '时长', '年代', '评分', '首映地点'], dtype='object')

修改表头

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

使用rename方法（推荐）
DataFrame.rename（mapper = None，index = None，columns = None，axis = None，copy = True，inplace = False，level = None ）


mapper，index，columns：可以任选其一使用，可以是将index和columns结合使用。index和column直接传入mapper或者字典的形式。

df1.index = Series(['beijing', 'shanghai', 'guangzhou'])


home_info.columns = Series(['地址','结构','朝向','楼层','大小','户型','装修风格','总价/万','名称','单价_万/平方'])

获取数据

movies.values

获取数据的大概简介

movies.describe()

数据另存为文件

movies.to_csv('./文件.csv',index=False)    # 添加 index = False  不添加索引到文件中

# 默认显示前5行  传入参数控制
movies.head()

# 默认显示后5行  传入参数控制
movies.tail()

高级操作之分组

read_html

相当于指定的爬虫,会获取网页中的所有的表格数据

# 读取某一url网页的下面的所有的表格数据
res = pd.read_html('https://baike.baidu.com/item/NBA%E6%80%BB%E5%86%A0%E5%86%9B/2173192?fr=aladdin')

champion_res = res[0]  # 获取的是列表,直接取值获取第一个元素

champion_res

	0	1	2	3	4	5
0	年份	比赛日期	冠军	总比分	亚军	FMVP
1	1947	4.16-4.22	费城勇士队	4-1	芝加哥牡鹿队	无
2	1948	4.10-4.21	巴尔的摩子弹队	4-2	费城勇士队	无
3	1949	4.4-4.13	明尼阿波利斯湖人队	4-2	华盛顿国会队	无
4	1950	4.8-4.23	明尼阿波利斯湖人队	4-2	塞拉库斯民族队	无
...	...	...	...	...	...	...
69	2015	6.5-6.17	金州勇士队	4-2	克里夫兰骑士队	安德烈·伊戈达拉
70	2016	6.3-6.20	克里夫兰骑士队	4-3	金州勇士队	勒布朗·詹姆斯
71	2017	6.2-6.13	金州勇士队	4-1	克利夫兰骑士队	凯文·杜兰特
72	2018	6.1-6.9	金州勇士队	4-0	克利夫兰骑士队	凯文·杜兰特
73	2019	5.31-6.14	多伦多猛龙队	4-2	金州勇士队	科怀·伦纳德

74 rows × 6 columns

改变

将第一行数据变为列名

champion_res.iloc[0]   # 获取第一行的数据

0      年份
1    比赛日期
2      冠军
3     总比分
4      亚军
5    FMVP
Name: 0, dtype: object

champion_res.columns = champion_res.iloc[0]    #直接赋值给列名

champion_res

	年份	比赛日期	冠军	总比分	亚军	FMVP
0	年份	比赛日期	冠军	总比分	亚军	FMVP
1	1947	4.16-4.22	费城勇士队	4-1	芝加哥牡鹿队	无
2	1948	4.10-4.21	巴尔的摩子弹队	4-2	费城勇士队	无
3	1949	4.4-4.13	明尼阿波利斯湖人队	4-2	华盛顿国会队	无
4	1950	4.8-4.23	明尼阿波利斯湖人队	4-2	塞拉库斯民族队	无
...	...	...	...	...	...	...
69	2015	6.5-6.17	金州勇士队	4-2	克里夫兰骑士队	安德烈·伊戈达拉
70	2016	6.3-6.20	克里夫兰骑士队	4-3	金州勇士队	勒布朗·詹姆斯
71	2017	6.2-6.13	金州勇士队	4-1	克利夫兰骑士队	凯文·杜兰特
72	2018	6.1-6.9	金州勇士队	4-0	克利夫兰骑士队	凯文·杜兰特
73	2019	5.31-6.14	多伦多猛龙队	4-2	金州勇士队	科怀·伦纳德

74 rows × 6 columns

删除

2.需要将第一行数据删除

champion_res.drop([0],inplace=True)    # 删除多行或一行,inplace=True直接原对象删除

champion_res

	年份	比赛日期	冠军	总比分	亚军	FMVP
1	1947	4.16-4.22	费城勇士队	4-1	芝加哥牡鹿队	无
2	1948	4.10-4.21	巴尔的摩子弹队	4-2	费城勇士队	无
3	1949	4.4-4.13	明尼阿波利斯湖人队	4-2	华盛顿国会队	无
4	1950	4.8-4.23	明尼阿波利斯湖人队	4-2	塞拉库斯民族队	无
5	1951	4.7-4.21	罗切斯特皇家队	4-3	纽约尼克斯队	无
...	...	...	...	...	...	...
69	2015	6.5-6.17	金州勇士队	4-2	克里夫兰骑士队	安德烈·伊戈达拉
70	2016	6.3-6.20	克里夫兰骑士队	4-3	金州勇士队	勒布朗·詹姆斯
71	2017	6.2-6.13	金州勇士队	4-1	克利夫兰骑士队	凯文·杜兰特
72	2018	6.1-6.9	金州勇士队	4-0	克利夫兰骑士队	凯文·杜兰特
73	2019	5.31-6.14	多伦多猛龙队	4-2	金州勇士队	科怀·伦纳德

73 rows × 6 columns

1.每个队获取冠军的次数

查询

# 对冠军球队进行分组   MySQL :  group by 分组对象
champion_res.groupby('冠军').groups

{'休斯顿火箭队': Int64Index([48, 49], dtype='int64'),
 '克里夫兰骑士队': Int64Index([70], dtype='int64'),
 '华盛顿子弹队': Int64Index([32], dtype='int64'),
 '圣安东尼奥马刺队': Int64Index([53, 57, 59, 61, 68], dtype='int64'),
 '圣路易斯老鹰队': Int64Index([12], dtype='int64'),
 '塞拉库斯民族队': Int64Index([9], dtype='int64'),
 '多伦多猛龙队': Int64Index([73], dtype='int64'),
 '密尔沃基雄鹿队': Int64Index([25], dtype='int64'),
 '巴尔的摩子弹队': Int64Index([2], dtype='int64'),
 '底特律活塞队': Int64Index([43, 44, 58], dtype='int64'),
 '明尼阿波利斯湖人队': Int64Index([3, 4, 6, 7, 8], dtype='int64'),
 '波士顿凯尔特人队': Int64Index([11, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 28, 30, 35, 38, 40,
             62],
            dtype='int64'),
 '波特兰开拓者队': Int64Index([31], dtype='int64'),
 '洛杉矶湖人队': Int64Index([26, 34, 36, 39, 41, 42, 54, 55, 56, 63, 64], dtype='int64'),
 '纽约尼克斯队': Int64Index([24, 27], dtype='int64'),
 '罗切斯特皇家队': Int64Index([5], dtype='int64'),
 '芝加哥公牛队': Int64Index([45, 46, 47, 50, 51, 52], dtype='int64'),
 '西雅图超音速队': Int64Index([33], dtype='int64'),
 '费城76人队': Int64Index([21, 37], dtype='int64'),
 '费城勇士队': Int64Index([1, 10], dtype='int64'),
 '达拉斯小牛队': Int64Index([65], dtype='int64'),
 '迈阿密热火队': Int64Index([60, 66, 67], dtype='int64'),
 '金州勇士队': Int64Index([29, 69, 71, 72], dtype='int64')}

聚合

对数据进行聚合

champion_res.groupby('冠军').size()

冠军
休斯顿火箭队        2
克里夫兰骑士队       1
华盛顿子弹队        1
圣安东尼奥马刺队      5
圣路易斯老鹰队       1
塞拉库斯民族队       1
多伦多猛龙队        1
密尔沃基雄鹿队       1
巴尔的摩子弹队       1
底特律活塞队        3
明尼阿波利斯湖人队     5
波士顿凯尔特人队     17
波特兰开拓者队       1
洛杉矶湖人队       11
纽约尼克斯队        2
罗切斯特皇家队       1
芝加哥公牛队        6
西雅图超音速队       1
费城76人队        2
费城勇士队         2
达拉斯小牛队        1
迈阿密热火队        3
金州勇士队         4
dtype: int64

排序

champion_res.groupby('冠军').size().sort_values(ascending=False)   # 默认是升序排列

冠军
波士顿凯尔特人队     17
洛杉矶湖人队       11
芝加哥公牛队        6
圣安东尼奥马刺队      5
明尼阿波利斯湖人队     5
金州勇士队         4
迈阿密热火队        3
底特律活塞队        3
休斯顿火箭队        2
纽约尼克斯队        2
费城76人队        2
费城勇士队         2
塞拉库斯民族队       1
克里夫兰骑士队       1
华盛顿子弹队        1
达拉斯小牛队        1
圣路易斯老鹰队       1
西雅图超音速队       1
多伦多猛龙队        1
密尔沃基雄鹿队       1
罗切斯特皇家队       1
波特兰开拓者队       1
巴尔的摩子弹队       1
dtype: int64

matolotlib

Matplotlib 是 Python 的绘图库。它可与 NumPy 一起使用，提供了一种有效的 MatLab 开源替代方案。它也可以和图形工具包一起使用，如 PyQt 和 wxPython。

导入

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

使用

x = [5,7,2,10]
plt.plot(x)   # 画折线图,传入一个值得话,这个值就是y轴
plt.show()

x = [5,7,2,10]
y = [12,2,4,20]

# 更改画布大小
plt.figure(figsize=(10,6))   



# 添加说明
plt.title('这是一个标图说明',fontsize=20,color='blue')   # 标题
plt.xlabel('x',fontsize=15,color='red')   # x轴的说明
plt.ylabel('y',fontsize=20,color='red')   # y轴的说明


plt.plot(x,y)   
plt.show()

中文显示

Matplotlib 默认情况不支持中文，我们可以使用以下简单的方法来解决：

首先下载字体（注意系统）：https://www.fontpalace.com/font-details/SimHei/