爬虫小总结

一、接触过几种爬虫模块?

urllib,requests

二、robots协议是什么?

规定哪些数据不能爬取,防君子不防小人

request模块没有使用硬性的语法对该协议进行生效

scrapy框架中硬性的语法对该协议进行了生效

三、如何处理验证码

使用三方平台,如云打码、打码兔

四、掌握几种数据解析的方式?

正则、xpath、bs4

五、如何爬取动态加载的页面数据?

1、通过selenium动态获取

2、基于ajax发送post请求,抓包工具抓取异步发起的请求(url)

六、接触过哪些反爬机制?如何处理?

1、robots协议:直接不遵守即可

2、UA:进行UA伪装

3、封IP:代理IP

4、验证码:通过打码平台对验证码进行识别

5、动态数据爬取:通过selenium

6、数据加密:

7、token:

七、在scrapy中接触过几种爬虫的类

Spider、CrawlSpider、RedisCrawlSpider、RedisSpider

八、如何实现分布式流程:安装scrapy-redis组件

RedisCrawlSpider、RedisSpider

原文地址:https://www.cnblogs.com/nanjo4373977/p/13026395.html