爬虫原理及工具的小总结

一:获取网页

发送http请求获得网页源码

可使用库:urlib / requests

二:提取信息

获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。

最常用最通用:正则表达式

根据一些网页节点属性的库:Beautiful Soup / pyquery / lxml

对于使用Ajax接口的网页代码:Selenium / Splash (模拟JavasScript渲染)

三:保存数据

文本:TXT / JSON

数据库:MySQL / MongoDB

远程服务器:SFTP

学习文档:静觅爬虫实战

原文地址:https://www.cnblogs.com/kumata/p/9578529.html