爬虫---简介

爬虫---简介

什么是爬虫?

编写程序, 模拟浏览器访问服务器, 从而获取动态资源

爬虫基本流程

发送请求

通过模块或库模拟浏览器, 向目标站点发送请求, 请求可以携带headers和参数等信息, 然后等待服务器响应
获取响应

服务器正常响应, 会返回一个response, 即页面内容, 可能是html, json或者二进制数据(音频视频图片)
数据解析

解析得到的响应内容, 可以通过正则表达式或beautifulSoup, xpath等解析器提炼出我们感兴趣的数据
保存数据

对解析出的数据, 进行保存, 可以保存到文件中, 可以保存到Redis, MongoDB等数据中

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/KX-Lau/p/13576893.html