11、爬虫的数据提取1

python 爬虫数据提取

常见的爬虫数据提取有三种方式:正则表达式,beautifulsoup模块, lxml模块

正则表达式

正则表达式手册

正则表达式截图

具体内容请点击连接,仔细阅读。
需要提及的是,与正则表达式匹配数据源类型是:str

beautifulsoup

beautifulsoup官方手册

在使用beautifulsoup需要爬取到数据解析成soup文档,在进行后续操作

lxml

lxml官方文档
同上

还有一种简单的方法,右键点击检查,选取要爬取的内容,右键 copy 即可,其他具体问题,请查阅其他相关资料。

原文地址:https://www.cnblogs.com/hefany/p/14230629.html