八爪鱼采集器之豆瓣电影Top250爬虫

一、在使用操作之前先一起了解一下八爪鱼这个采集数据工具。

  相比于python爬虫,八爪鱼使用更加简便,因为它是所见即得的方式,所以不需要编写代码(除了正则表达式,以及xpath,因为如果有布局不一致的页面,就需要用到)

 两种采集方式,简易采集vs自定义采集

  简易采集:集成一些热门网站采集模板,只需要告诉工具两个内容,1.采集网址  2.所需的账号密码

  自定义采集:可以灵活设计采集的信息。比较推荐这个,因为一些模板没办法满足自己需求。

二、采集流程步骤

 

 三、可以设置ip代理,UA等反爬(ip代理需要付费)也可以使用自己购买的ip代理接口

 流程

 接下来实际操作爬取豆瓣电影top250

1.八爪鱼安装https://www.bazhuayu.com  官网自行下载安装包,下载好后,设置安装文件夹无脑下一步。

2.注册免费账号,打开软件登陆页面后点击注册账号。

3.然后。。。就可以愉快的使用采集器了----------目标网站https://movie.douban.com/top250  豆瓣电影评分Top250

1.点击自定义采集

2.输入目标网址--并点击保存-会自动建立一个打开网页的流程

3.在打开的网页,滑倒底部,选择下一页的页面元素

4.点击选择后页。提示框中选择循环点击单个链接,实现循环获取下一页的操作

5.单击每个单元的内容,右边提示操作选择选中子元素

6.选中全部→采集以下数据→保存开始采集

7.启动本地采集,其他两个是要收费的。。云采集相当于提交采集操作人家的服务器帮你采集,你电脑关不关机都无所谓了

8.采集完后效果,可以保存svg,html,数据库等地方

 呃。。。由于没找到顺手的录频软件所以就不上传视频操作了。。。有问题可以评论问。

原文地址:https://www.cnblogs.com/HugJun/p/11111660.html