爬虫小总结

爬虫小总结

一、接触过几种爬虫模块？

urllib，requests

二、robots协议是什么？

规定哪些数据不能爬取，防君子不防小人

request模块没有使用硬性的语法对该协议进行生效

scrapy框架中硬性的语法对该协议进行了生效

三、如何处理验证码

使用三方平台，如云打码、打码兔

四、掌握几种数据解析的方式？

正则、xpath、bs4

五、如何爬取动态加载的页面数据？

1、通过selenium动态获取

2、基于ajax发送post请求，抓包工具抓取异步发起的请求（url）

六、接触过哪些反爬机制？如何处理？

1、robots协议：直接不遵守即可

2、UA：进行UA伪装

3、封IP：代理IP

4、验证码：通过打码平台对验证码进行识别

5、动态数据爬取：通过selenium

6、数据加密：

7、token：

七、在scrapy中接触过几种爬虫的类

Spider、CrawlSpider、RedisCrawlSpider、RedisSpider

八、如何实现分布式流程：安装scrapy-redis组件

RedisCrawlSpider、RedisSpider

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/nanjo4373977/p/13026395.html