一、定义
matplotlib:最流行的python的底层绘图库,主要做数据可视化,模仿MATLAB构建
二、为什么学习
1,能将数据进行可视化,更直观的呈现
2,使数据更加客观,更具说服力
三、基础绘图
案列1 :假设一天中每隔两小时(range(2,26,2))的气温分别是[15,13,14,5,17,20,25,26,26,24,22,18,15]
# 代码 import matplotlib.pyplot as plt # 规范,官方推荐 # 构建坐标 x = range(2,26,2) y = [15,13,14.5,17,20,25,26,26,24,22,18,15] # 画图 plt.plot(x, y) # 显示图标 plt.show()
1,1、保存图片
# 代码 fig = plt.figure(figsize=(20,8), dpi=100) plt.plot(x,y) fig.savefig('test.png')
1,2、X轴,Y轴的调整
# 代码 plt.plot(x, y) # x轴的刻度 plt.xticks(x) # y轴的刻度 plt.yticks(y) plt.show()
案列2 :列表a表示10点到12点每一分钟的气温,如何绘制折线图观察每分钟的气温?
a=[random.randint(20,35) for in range(120)]
# 代码 import random # 随机气温值 # y = [] # 产生120个随机值 #for i in range(120): # y.append(random.randint(20,35)) # 列表生成式 y = [random.randint(20,35) for i in range(120)] x = list(range(120)) # 设置图片大小 fig = plt.figure(figsize=(20,8)) # 画图 plt.plot(x,y) # 调整刻度 xlables = ['10点{}分'.format(i) for i in range(60) ] xlables += ['11点{}分'.format(i) for i in range(60) ] plt.xticks(x[::3], xlables[::3]) plt.yticks(y) plt.show()
2,1 显示中文
matplotlib默认不支持中文字符,需要修改默认字体来显示中文字符
# 代码 import random import matplotlib as mpl # 设置字符集 mpl.rcParams['font.sans-serif'] = ['FangSong'] # 用来正常显示中文标签 mpl.rcParams['font.size'] = 16 # 设置字体大小 # 随机气温值 # y = [] # 产生120个随机值 #for i in range(120): # y.append(random.randint(20,35)) # 列表生成式 y = [random.randint(20,35) for i in range(120)] x = list(range(120)) # 设置图片大小 fig = plt.figure(figsize=(20,8)) # 画图 plt.plot(x,y) # 调整刻度 xlables = ['10点{}分'.format(i) for i in range(60) ] xlables += ['11点{}分'.format(i) for i in range(60) ] plt.xticks(x[::3], xlables[::3], rotation=45) plt.yticks(y) plt.show()
2,2 添加描述信息
X,Y轴的描述
# 代码 y = [random.randint(20,35) for i in range(120)] x = list(range(120)) # 设置图片大小 fig = plt.figure(figsize=(20,8)) # 画图 plt.plot(x,y) # 调整刻度 xlables = ['10点{}分'.format(i) for i in range(60) ] xlables += ['11点{}分'.format(i) for i in range(60) ] plt.xticks(x[::3], xlables[::3], rotation=45) plt.yticks(y) # 添加描述 plt.xlabel('时间', color='red', fontdict={'fontsize': 20}) plt.ylabel('温度') plt.show()
2,3 图形标题
# 代码 y = [random.randint(20,35) for i in range(120)] x = list(range(120)) # 设置图片大小 fig = plt.figure(figsize=(20,8)) # 画图 plt.plot(x,y) # 调整刻度 xlables = ['10点{}分'.format(i) for i in range(60) ] xlables += ['11点{}分'.format(i) for i in range(60) ] plt.xticks(x[::3], xlables[::3], rotation=45) plt.yticks(y) # 添加描述 plt.xlabel('时间', color='red', fontdict={'fontsize': 20}) plt.ylabel('温度') # 设置标题 plt.title('某日10点到12点间的温度变化情况') plt.show()
2,4 添加网格
# 代码 y = [random.randint(20,35) for i in range(120)] x = list(range(120)) # 设置图片大小 fig = plt.figure(figsize=(20,8)) # 画图 plt.plot(x,y) # 调整刻度 xlables = ['10点{}分'.format(i) for i in range(60) ] xlables += ['11点{}分'.format(i) for i in range(60) ] plt.xticks(x[::3], xlables[::3], rotation=45) plt.yticks(y) # 添加描述 plt.xlabel('时间', color='red', fontdict={'fontsize': 20}) plt.ylabel('温度') # 设置标题 plt.title('某日10点到12点间的温度变化情况') # 添加网格 plt.grid(alpha=0.1) plt.show()
案列3 :
问题:根据实际情况统计出来你和你的同桌各自从11岁到30岁每年交的男(女)朋友的数量如列表a和b,请在一个图中绘制出该数据的折线图,以便比较自己和同桌20年间的差异,同时分析每年交男(女)朋友的数量趋势
a=[1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]
b=[1,0,3,1,2,2,3,3,2,1,2,1,1,1,1,1,1,1,1,1]
#代码 import matplotlib.pyplot as plt import matplotlib as mpl # 设置中文 mpl.rcParams['font.sans-serif'] = ['FangSong'] # 用来正常显示中文标签 mpl.rcParams['font.size'] = 16 # 设置字体大小 # 构建坐标 # x轴表示 年龄 ,y轴表示女朋友个数 x = range(11, 31) y_self = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1] y_d = [1,0,3,1,2,2,3,3,2,1,2,1,1,1,1,1,1,1,1,1] # 创建容器 fig = plt.figure(figsize=(20,8)) # 画图 plt.plot(x, y_self, label='自己', color='black', linestyle='-.') plt.plot(x, y_d, label='同桌') # 设置刻度 x_lables = ['{}岁'.format(i) for i in x] plt.xticks(x, x_lables) plt.xlabel('年龄') plt.ylabel('女朋友个数') plt.title('我和同桌历年交女朋友个数对比') # 设置了图例一定要加上这句话 plt.legend() plt.grid(alpha=0.3) # 标记点 plt.annotate('最高点',xy=(23,6), xytext=(24, 6),arrowprops={'arrowstyle': '<->'}) plt.show()
--一些自定义绘图风格
# 代码 plt.plot( x, y, color='r', # 线条颜色 linestyle='--', # 线条风格 linewidth=5, # 线条粗细 alpha=0.5 #透明度 )
--标记一个点
# 代码 plt.annotate(text='最高点', xytext=(24, 6.1), xy=(23, 6), arrowprops={'arrowstyle': '->'}) # text 想要标记的文本 # xytext 标记文本的坐标 # xy 被标记点的坐标 # arrowprops 箭头形式
四,简单图形总结
1,绘制了折线图
2,设置图片的大小和分辨率
3,实现了图片的保存
4,设置了XY轴上的刻度和字符串
5,解决了刻度稀疏和密集的问题
6,设置了标题,X,Y轴的lable
7,设置了字体
8,在一个图形上绘制多个图形
9,为不同图形添加图例
五、绘制散点图
假设通过爬虫你获取了北京2016年3月份,10月份每天白天的最高气温(分别位于列表a,b),要求找出气温随时间变化的规律
a = [10, 16, 17, 14, 12, 10, 12, 6, 6, 7, 8, 9, 12, 15, 15, 17, 18, 21, 16, 16, 20, 13, 15, 15, 15, 18, 20, 22, 22, 22, 24]
b = [26, 26, 28, 19, 21, 17, 16, 19, 18, 20, 20, 19, 22, 23, 17, 20, 21, 20, 22, 15, 11, 15, 5, 13, 17, 10, 11, 13, 12, 13, 6]import matplotlib.pyplot as plt
import matplotlib.pyplot as plt import matplotlib as mpl mpl.rcParams['font.sans-serif'] = ['fangsong']#用来正常显示中文标签 mpl.rcParams['font.size'] = 16 #设置字体大小 y_3 = [10, 16, 17, 14, 12, 10, 12, 6, 6, 7, 8, 9, 12, 15, 15, 17, 18, 21, 16, 16, 20, 13, 15, 15, 15, 18, 20, 22, 22, 22, 24] y_10 = [26, 26, 28, 19, 21, 17, 16, 19, 18, 20, 20, 19, 22, 23, 17, 20, 21, 20, 22, 15, 11, 15, 5, 13, 17, 10, 11, 13, 12, 13, 6] x_3=list(range(1,32)) x_10=[i+50 for i in x_3] #设置容器 fig=plt.figure(figsize=(15,8)) #绘图 plt.scatter(x_3,y_3,label='3月份') plt.scatter(x_10,y_10,label='10月份') #设置刻度 #集合 y=set(y_3+y_10) min_y=min(y) max_y=max(y) plt.yticks(range(min_y,max_y)) #x轴 x=x_3+x_10 x_lables=['3月{}日'.format(i) for i in range(1,32)]+['10月{}日'.format(i) for i in range(1,32)] plt.xticks(x[::2],x_lables[::2],rotation=45) plt.xlabel('日期') plt.ylabel('温度(C)') plt.title('北京2016年3月份和10月份的气温变化趋势图') plt.annotate('最高点',xy=(53,28),xytext=(56,28),arrowprops={'arrowstyle':'<->'}) plt.annotate('最低点',xy=(73,5),xytext=(76,5),arrowprops={'arrowstyle':'<->'}) plt.grid(alpha=0.3) plt.legend() plt.show()
散点图更多的应用场景:
--不同条件(维度)之间的内在关联联系
--观察数据的离散程度
六、绘制条形图
假设你获取了2019内地电影票房前20的电影(列表X)和电影票房数据(列表Y),那么如何更加直观的展示数据
x = ['哪吒之魔童降世', '流浪地球', '复仇者联盟4:终局之战', '疯狂的外星人', '飞驰人生', '烈火英雄', '速度与激情:特别行动', '蜘蛛侠:英雄远征', '扫毒2天地对决', '大黄蜂', '惊奇队长', '比悲伤更悲伤的故事', '哥斯拉2:怪兽之王', '阿丽塔:战斗天使', '银河补习班', '狮子王', '反贪风暴4 ', '熊出没·原始时代', '使徒行者2:谍影行动', '大侦探皮卡丘']
y = [49.04, 46.18, 42.05, 21.83, 17.03, 16.74, 14.16, 14.01, 12.85, 11.38, 10.25, 9.46, 9.27, 8.88, 8.64, 8.23, 7.88, 7.09, 6.92, 6.34]
# 代码 import matplotlib as mpl import matplotlib.pyplot as plt # 设置中文 mpl.rcParams['font.sans-serif'] = ['FangSong'] # 用来正常显示中文标签 mpl.rcParams['font.size'] = 16 # 设置字体大小 # 构建坐标 movies = ['哪吒之魔童降世', '流浪地球', '复仇者联盟4:终局之战', '疯狂的外星人', '飞驰人生', '烈火英雄', '速度与激情:特别行动', '蜘蛛侠:英雄远征', '扫毒2天地对决', '大黄蜂', '惊奇队长', '比悲伤更悲伤的故事', '哥斯拉2:怪兽之王', '阿丽塔:战斗天使', '银河补习班', '狮子王', '反贪风暴4 ', '熊出没·原始时代', '使徒行者2:谍影行动', '大侦探皮卡丘'] y = [49.04, 46.18, 42.05, 21.83, 17.03, 16.74, 14.16, 14.01, 12.85, 11.38, 10.25, 9.46, 9.27, 8.88, 8.64, 8.23, 7.88, 7.09, 6.92, 6.34] x = range(len(movies)) # 画图 fig = plt.figure(figsize=(20,8), dpi=100) plt.bar(x, y, width=0.5, color='orange') # 刻度 plt.xticks(x, movies, rotation=-90) plt.xlabel('电影') plt.ylabel('票房(亿元)') plt.title('2019年内地前20名电影票房榜') # 网格 # plt.grid() plt.show()
--横向条形图
# 代码 import matplotlib as mpl import matplotlib.pyplot as plt # 设置中文 mpl.rcParams['font.sans-serif'] = ['FangSong'] # 用来正常显示中文标签 mpl.rcParams['font.size'] = 16 # 设置字体大小 # 构建坐标 movies = ['哪吒之魔童降世', '流浪地球', '复仇者联盟4:终局之战', '疯狂的外星人', '飞驰人生', '烈火英雄', '速度与激情:特别行动', '蜘蛛侠:英雄远征', '扫毒2天地对决', '大黄蜂', '惊奇队长', '比悲伤更悲伤的故事', '哥斯拉2:怪兽之王', '阿丽塔:战斗天使', '银河补习班', '狮子王', '反贪风暴4 ', '熊出没·原始时代', '使徒行者2:谍影行动', '大侦探皮卡丘'] y = [49.04, 46.18, 42.05, 21.83, 17.03, 16.74, 14.16, 14.01, 12.85, 11.38, 10.25, 9.46, 9.27, 8.88, 8.64, 8.23, 7.88, 7.09, 6.92, 6.34] x = range(len(movies)) # 画图 fig = plt.figure(figsize=(20,8), dpi=100) plt.barh(x, y, color='orange') # 刻度 plt.yticks(x, movies) plt.ylabel('电影') plt.xlabel('票房(亿元)') plt.title('2019年内地前20名电影票房榜') # 网格 # plt.grid() plt.show()
列表a中的电影最近5天的电影分别在列表,b_25,b_26,b_27,b_28,b_29中,为了展示电影本身票房,及同其他电影数据的对比,应该如何更直观的呈现数据
a = ['决胜时刻', '诛仙Ⅰ', '小小的愿望']
b_25 = [891.4, 246.71, 550.45]
b_26 = [81]9.27, 397.18, 513.67]
b_27 = [867.78, 480.43, 752.36]
b_28 = [533.09, 500.42, 780.69]
b_29 = [679.87, 462.28, 374.11]
# 代码 # 导库 import matplotlib as mpl import matplotlib.pyplot as plt # 设置中文 mpl.rcParams['font.sans-serif'] = ['Fangsong'] mpl.rcParams['font.size'] = 16 # 准备数据 a = ['决胜时刻', '诛仙Ⅰ', '小小的愿望'] b_25 = [891.4, 246.71, 550.45] b_26 = [819.27, 397.18, 513.67] b_27 = [867.78, 480.43, 752.36] b_28 = [533.09, 500.42, 780.69] b_29 = [679.87, 462.28, 374.11] # fig = plt.figure(figsize=(20,8)) width = 0.1 plt.bar(range(3), b_25, width=width) plt.bar([i+width for i in range(3)], b_26, width=width, label='9月26日') plt.bar([i+width*2 for i in range(3)], b_27, width=width, label='9月27日') plt.bar([i+width*3 for i in range(3)], b_28, width=width, label='9月28日') plt.bar([i+width*4 for i in range(3)], b_29, width=width, label='9月29日') # 刻度 plt.xticks([0.2, 1.2, 2.2], a) # 描述信息 plt.xlabel('电影') plt.ylabel('票房(万)') plt.title('某些电影的票房') plt.legend() plt.show()
--条形图应用更多的场景
-数量的统计
-频率的统计
七、绘制直方图
我们获取了347部电影的时长(列表data中),希望统计出这些电影的时长分布状态(比如时长100到120分钟的数量,出现频次等)等信息,你该如何呈现这些数据
data = [110, 201, 160, 152, 139, 178, 179, 83, 67, 132, 136, 177, 162, 110, 132, 115, 108, 102, 76, 105, 108, 24, 140, 162, 143, 165, 163, 95, 129, 137, 84, 93, 115, 96, 145, 173, 102, 116, 100, 120, 119, 88, 108, 136, 144, 111, 212, 87, 120, 91, 126, 55, 134, 181, 159, 138, 119, 138, 93, 155, 119, 88, 108, 136, 144, 111, 212, 87, 120, 91, 126, 55, 134, 181, 159, 138, 119, 138, 93, 155, 89, 140, 139, 75, 230, 179, 126, 178, 102, 91, 150, 96, 118, 100, 125, 130, 144, 140, 124, 157, 162, 121, 170, 111, 124, 99, 102, 75, 120, 139, 110, 138, 40, 70, 138, 137, 123, 133, 161, 83, 89, 140, 139, 75, 230, 179, 126, 178, 102, 91, 150, 96, 118, 100, 125, 130, 144, 140, 124, 157, 162, 121, 170, 111, 124, 99, 102, 75, 120, 139, 110, 138, 40, 70, 138, 137, 123, 133, 161, 83, 93, 121, 105, 106, 140, 101, 124, 148, 131, 101, 90, 90, 100, 129, 100, 94, 96, 89, 144, 100, 107, 90, 137, 133, 97, 84, 99, 142, 126, 132, 144, 124, 112, 111, 169, 151, 132, 169, 127, 120, 162, 121, 170, 111, 124, 99, 102, 75, 120, 139, 110, 138, 40, 70, 138, 137, 123, 133, 161, 83, 93, 121, 105, 106, 140, 101, 124, 148, 131, 101, 90, 90, 100, 129, 100, 94, 96, 89, 144, 100, 107, 90, 137, 133, 97, 84, 99, 142, 126, 132, 144, 124, 112, 111, 169, 151, 132, 169, 127, 120, 101, 141, 99, 139, 132, 93, 136, 127, 87, 96, 108, 120, 111, 130, 91, 237, 151, 76, 102, 64, 118, 84, 84, 105, 140, 144, 133, 93, 123, 147, 130, 149, 147, 121, 114, 105, 104, 98, 115, 93, 121, 105, 106, 140, 101, 124, 148, 131, 101, 90, 90, 100, 129, 100, 94, 96, 89, 144, 100, 107, 90, 137, 133, 97, 84, 99, 142, 126, 132, 144, 124, 112, 111, 169, 151, 132, 169, 127, 120, 101, 141, 99, 139, 132, 93, 136, 127]
# 代码 import matplotlib as mpl import matplotlib.pyplot as plt # 设置中文 mpl.rcParams['font.sans-serif'] = ['Fangsong'] mpl.rcParams['font.size'] = 16 # 准备数据 data = [110, 201, 160, 152, 139, 178, 179, 83, 67, 132, 136, 177, 162, 110, 132, 115, 108, 102, 76, 105, 108, 24, 140, 162, 143, 165, 163, 95, 129, 137, 84, 93, 115, 96, 145, 173, 102, 116, 100, 120, 119, 88, 108, 136, 144, 111, 212, 87, 120, 91, 126, 55, 134, 181, 159, 138, 119, 138, 93, 155, 119, 88, 108, 136, 144, 111, 212, 87, 120, 91, 126, 55, 134, 181, 159, 138, 119, 138, 93, 155, 89, 140, 139, 75, 230, 179, 126, 178, 102, 91, 150, 96, 118, 100, 125, 130, 144, 140, 124, 157, 162, 121, 170, 111, 124, 99, 102, 75, 120, 139, 110, 138, 40, 70, 138, 137, 123, 133, 161, 83, 89, 140, 139, 75, 230, 179, 126, 178, 102, 91, 150, 96, 118, 100, 125, 130, 144, 140, 124, 157, 162, 121, 170, 111, 124, 99, 102, 75, 120, 139, 110, 138, 40, 70, 138, 137, 123, 133, 161, 83, 93, 121, 105, 106, 140, 101, 124, 148, 131, 101, 90, 90, 100, 129, 100, 94, 96, 89, 144, 100, 107, 90, 137, 133, 97, 84, 99, 142, 126, 132, 144, 124, 112, 111, 169, 151, 132, 169, 127, 120, 162, 121, 170, 111, 124, 99, 102, 75, 120, 139, 110, 138, 40, 70, 138, 137, 123, 133, 161, 83, 93, 121, 105, 106, 140, 101, 124, 148, 131, 101, 90, 90, 100, 129, 100, 94, 96, 89, 144, 100, 107, 90, 137, 133, 97, 84, 99, 142, 126, 132, 144, 124, 112, 111, 169, 151, 132, 169, 127, 120, 101, 141, 99, 139, 132, 93, 136, 127, 87, 96, 108, 120, 111, 130, 91, 237, 151, 76, 102, 64, 118, 84, 84, 105, 140, 144, 133, 93, 123, 147, 130, 149, 147, 121, 114, 105, 104, 98, 115, 93, 121, 105, 106, 140, 101, 124, 148, 131, 101, 90, 90, 100, 129, 100, 94, 96, 89, 144, 100, 107, 90, 137, 133, 97, 84, 99, 142, 126, 132, 144, 124, 112, 111, 169, 151, 132, 169, 127, 120, 101, 141, 99, 139, 132, 93, 136, 127] # 组距 bin_width = 8 max_value = max(data) min_value = min(data) bins = (max_value - min_value)//bin_width # 实际组距 real_width = (max_value - min_value)/bins # 设置大小 fig = plt.figure(figsize=(20,8)) plt.hist(data, bins) print([min_value + i*bin_width for i in range(bins)]) # x轴刻度 plt.xticks([min_value + i*real_width for i in range(bins)], rotation=45) plt.grid() plt.show()
需要注意的点:
1,组数的选择
组数要适当,较少会有太大的统计误差,太多规律不明显
当数据在100以内时,按数据多少一般分5-12组
当数据较多时可以按照组距进行分组
组距:是指每组两个端点的距离
组数:=极差/组距=(最大数据-最小数据)/组距
2,X轴的刻度
正常情况下实际组距会是小数,所以刻度需要按照实际组距来,否则或出现图形偏移的情况
实际组距=极差/组数
刻度列表=[最小数据+实际组距 * i for in range(组数 +1)]
3、频率直方图与频数直方图
频率分布直方图纵轴表示频率/组距,横轴表示各组组距,若求某一组的频率,就用纵轴的频率/组距*横轴的组距,即得到该组频数
频率=频数/数据总数
美国人口普查发现有1.24亿人在外工作。根据他们从家到上班地点所需要的时间,通过抽样统计出了下表的数据,这些数据能绘制成直方图吗
思考这个数据能绘制直方图吗?
给出的数据是统计之后的数据,所以为了达到直方图的效果,需要绘制条形图。
结论:一般来说能够使用plt.hist方法绘制直方图的是那些没有统计过的原始数据。
# 代码 import matplotlib as mpl import matplotlib.pyplot as plt # 设置中文 mpl.rcParams['font.sans-serif'] = ['Fangsong'] mpl.rcParams['font.size'] = 16 # 用条形图模拟直方图 # 数据 interval = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 60, 90, 150] width = [5, 5, 5, 5, 5, 5, 5, 5, 5, 15, 30, 60] quantity = [4180, 13687, 18618, 19634, 17981, 7190, 16369, 3212, 4122, 9200, 6461, 3435] # 画图 plt.figure(figsize=(20,8)) for i in range(len(width)): plt.bar([interval[i]+width[i]/2], [quantity[i]], width=width[i], color='orange') # plt.bar(interval[1:], quantity, width=5) # 刻度 plt.xticks(interval) # x轴 ,y周的信息 plt.show()