爬虫基本原理

爬虫介绍

1 爬虫：网络蜘蛛
2 爬虫本质：模拟浏览器发送请求（requests，selenium）->下载网页代码->只提取有用的数据（bs4，xpath，re）->存放于数据库或文件中（文件，excel，mysql，redis，mongodb）
3 发送请求：请求地址（浏览器调试，抓包工具），请求头（难），请求体（难），请求方法
4 拿到响应：拿到响应体（json格式，xml格式，html格式（bs4,xpath），加密的未知格式(需要解密)）
5 入库：Mongodb（json格式数据）
6 性能高一些（多线程，多进程，协程），只针对与python语言的cpython解释器（GIL：同一时刻只能由一个线程在执行）
    -io密集型：用线程
    -计算密集型：用进程
7 scrapy框架处理了性能