一个例子讲明爬虫解析库xpath

对爬取的网页进行数据解析有4中方式:

re正则

bs4

xpath

pyquery

这里着重介绍xpath

一。安装

pip install lxml

二。优点
解析效率比较高
通用性最强的

三。实例
from lxml import etree
from random import choice
import requests

user_agents = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"]
headers = {
    "User-Agent":choice(user_agents)
    }
url="https://www.qidian.com/mm/rank/yuepiao?chn=0"

response=requests.get(url,headers=headers)
e=etree.HTML(response.text)
names=e.xpath('//p[@class="author"]/a[1]/text()')
titles=e.xpath('//h4/a/text()')
for name,title in zip(names,titles):
    print(name,':',title)
结果是控制台输出显示解析到的作者和标题

四。说明
response.text 为获取的页面源文件编码

e.xpath() 按xpath语法编写过滤内容

xpath语法,可看了解,很简单的https://www.w3school.com.cn/xpath/xpath_syntax.asp

五。xpath调试工具
下载
xpath helper插件
将其拖入拓展程序

  安装完成后

 调整窗口如下

bs4

原文地址:https://www.cnblogs.com/hzcjd/p/12879161.html