新手小白的爬虫神器-无代码高效爬取数据

前言

2020年即将过去，回望过去一年是魔幻的一年，今年注定是不平常的一年，我想也是会载入史册，让人类永远铭记今年的重大事件。
全球疫情、中美贸易战、美国大选等一系列重大事件。今年也许是最好的时代同时也是最坏的时代，机遇和危机都是转瞬即逝，我们能做的只有把握当下，未雨绸缪，厚积薄发！

今天毕竟是2020年结束，2021年开始的第一天，不免有所感慨和总结。下面回归到技术博客。。。
年底是跳槽的好时机，最近查看招聘网的各个职位，想要将其爬取下来进行分析。刚开始写过代码进行爬取，奈何本人技术有限，对付高级的反爬虫系统显得心有余而力不足。
于是经过一段时间的查找发现了这个神器：web scraper ，并且它是开源免费的，虽然使用上有些小问题，但是基本满足我的需求。

安装

官网：https://www.webscraper.io/
它是一个谷歌插件，当然也支持火狐，其他的浏览器我就不清楚了。至于插件安装大家可以自己百度，有很多教程。

使用

安装好之后在浏览器的F12或者开发者工具里有一个Web Scraper集成的功能

创建网站地图
点击Create new sistemap
填写信息
Sitemap name ：名称（可以随便写，自己知道意思就行）
URL：爬取地址（填你要爬取的网站地址，我这里爬取的是51job，在此声明：此数据仅做个人找工作学习参考，无其他任何商用途径，也希望大家不要用做商用等违法途径。）
下面的地址能爬取第一页得数据
https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,1.html?lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
如果我们想要爬取后面多个页面呢，通过分析每一页的URL地址只是中间的数字进行累加，于是使用正则表达式进行匹配[1-8]，链接如下：
https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,[1-8].html？lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=

添加子节点
点击添加子节点
配置子节点
id:可以随便填，最好见文知意
type：选Text，因为我们是直接获取文本，如果需要获取链接则选link
点击select可以选择网页上的元素，选择2个会自动往下匹配相同的
抓取多个数据一定要勾选Multiple
然后选择_root做为父节点

一个简单的爬虫配置就完成了，下面开始爬取数据
5. 检查
点击Data preview出现你需要获取得数据内容，那么说明配置正确

6. 爬取
点击Scrape，然后点击开始运行

查看结果
点击Browse然后点击Refresh Data就可以查看下面抓取到得数据了
导出数据
点击Export data as CSV然后保存到你选择的目录

打开csv检查

至此数据爬取完成，那么下面进行数据筛选和处理，具体请看下一篇文章。