爬虫原理及工具的小总结

爬虫原理及工具的小总结

一：获取网页

发送http请求获得网页源码

可使用库：urlib / requests

二：提取信息

获取网页源代码后，接下来就是分析网页源代码，从中提取我们想要的数据。

最常用最通用：正则表达式

根据一些网页节点属性的库：Beautiful Soup / pyquery / lxml

对于使用Ajax接口的网页代码：Selenium / Splash （模拟JavasScript渲染）

三：保存数据

文本：TXT / JSON

数据库：MySQL / MongoDB

远程服务器：SFTP

学习文档：静觅爬虫实战

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/kumata/p/9578529.html