pandas + jupyter进行数据处理

前言

上一篇文章已经将python所有职位的数据全部爬取并保存了下来，接下来我们要进行数据的处理，从所有的python职位中筛选出有测试、开发、运维的关键字职位来进行对比分析python在开发、测试、运维中的使用程度，具体的关键字大家可以灵活选择。此文章只提供一种处理方法或思路，并不适用任何场景。

安装

anaconda安装

官网地址：https://www.anaconda.com/products/individual

它内部已经集成pandas、jupyter等一系列数据分析的开源库

数据处理

打开jupyter，开始编码

import pandas as pd
work = pd.read_csv('job.csv',encoding='gbk')
pd.read_csv('job.csv',encoding='gbk')

wk = work.sort_index(ascending=True)	#排序
DevOps = wk[wk['zhiwei'].str.contains('运维')]	#部分匹配关键字
test = wk[wk['zhiwei'].str.contains('测试')]
dev = wk[wk['zhiwei'].str.contains('开发')]
data = wk[wk['zhiwei'].str.contains('数据')]
data.shape[0] 	#查看列表的总行数
DevOps.shape[0]
dev.shape[0]
DevOps_to = DevOps['zhiwei']	#匹配zhiwei行的数据
test_to = test['zhiwei']
dev_to = dev['zhiwei']
data_to = data['zhiwei']
DevOps_to.to_csv('devops.csv')	#保存数据到新的csv
test_to.to_csv('test.csv')
dev_to.to_csv('dev.csv')
data_to.to_csv('data.csv')

从下面的编码和结果已经看出开发、运维、测试、数据岗位使用python

的数量。（因为进行了地区和学历以及工作年限的筛选所以总体的数据量不是很大。）数据：43，运维：47，开发：103，测试：54，虽然这些数据不能完全说明整体的情况，但依然也有部分参考的价值。

当然这些数据也都保存到了csv文本里。