爬虫基本原理

爬虫介绍

1 爬虫:网络蜘蛛
2 爬虫本质:模拟浏览器发送请求(requests,selenium)->下载网页代码->只提取有用的数据(bs4,xpath,re)->存放于数据库或文件中(文件,excel,mysql,redis,mongodb)
3 发送请求:请求地址(浏览器调试,抓包工具),请求头(难),请求体(难),请求方法
4 拿到响应:拿到响应体(json格式,xml格式,html格式(bs4,xpath),加密的未知格式(需要解密))
5 入库:Mongodb(json格式数据)
6 性能高一些(多线程,多进程,协程),只针对与python语言的cpython解释器(GIL:同一时刻只能由一个线程在执行)
    -io密集型:用线程
    -计算密集型:用进程
7 scrapy框架处理了性能
原文地址:https://www.cnblogs.com/ZhZhang12138/p/14885591.html