Xpath语法详解

xpath 语法

　　response.selector属性返回内容相当于response的body构造了一个Selector对象。

　　Selector对象可以调用xpath()方法实现信息的解析提取。

　　在xpath()后使用extract()可以返回所有的元素结果。

　　若xpath()有问题，那么extract()会返回一个空列表。

　　在xpath()后使用extract_first()可以返回第一个元素结果。

选择直接子节点

　　{node}/{node1}: 选择从{node}的直接子节点中选择标签为{node1}节点.
　　/node[1] 返回的是所有父节点下，第一个出现的节点

选择所有的子节点

　　//{node}: 选择根节点下所有标签为{node}的子节点.
　　//{node}//{node1}: 选择根节点下所有标签为{node1}且父节点包含标签{node}的节点

从选择的子节点列表中选择第n个子节点

　　//{node}[n]: 先把兄弟节点聚合在一个list变成[list_1, list_2, ...], 然后从每个list中选择第n个, 如果list的长度不足n个则跳过.
　　(//{node})[n]: 把所有选择的节点放在一条list, 然后从这个list中选择第n个
　　//div[@id='details']/following-sibling::a[1] 获取id为details标签的下一个a标签
　　//div[@id='details']/following-sibling::*[N] 获取id为details标签后面的第N个标签
　　//div[@id='details']/preceding-sibling::a[1] 获取id为details标签的上一个a标签
　　//div[@id='details']/preceding-sibling::*[N] 获取id为details标签前面的第N个标签
　　//div[@class="details"]/span[last()] 获取span最后一个节点
　　//div[@class="details"]/span[last()-1] 获取span倒数第二个节点

　　获取第三个a标签的父标签："//a[@id=='3']/.."

使用节点属性作为选择条件

　　{node}[@{attr}='{val}']: 选中节点必须有名字为{attr}的属性, 且这个属性的值等于{val}.
　　{node}[contains(@{attr}, '{val}']: 选中节点必须有名字为'{attr}'的属性, 且这个属性的值包含{val}.

提取节点属性的值

　　{node}/@{attr}: 提取选择节的点中属性名为{attr}的值.

提取节点中的文本内容

　　{node}/text(): 提取当前选择节点的文本内容, 不包括子节点的文本.
　　{node}//text(): 提取选择节点的文本内容, 包括子节点的文本.

选取若干路径

　　//title | //price 选取文档中的所有 title 和 price 元素。

过滤特定的标签属性

　　//div[contains(@class,"details") and not(contains(name(.),"img"))]
　　//div[contains(@class,"details")][name(.)!='img']
　　//p[@class="details"]/*[not(name()="img")]
　　//node[contains(text(),substring] 所有节点名为node,且其文本中包含substring的节点
　　//div[@id="pagination"]//a[contains(text(),"下一页")] 所有包含“下一页”字符串的超链接节点
　　//*[count(span)=2] 所有包含两个span孩子节点的节点
　　//*[count(*)=2] 所有包含两个孩子节点的节点
　　//*[name()='dd'] 所有名字为dd的节点，等同于//dd
　　//*[string-length(name())=3] 名字长度为3个字母的节点
　　/child::dd 等价于/dd
　　//dd/descendant::* 所有以dd为其祖先的节点
　　//dd/parent::* dd节点的所有父节点
　　//dd[position() mod 2 = 0] 偶数位置的dd节点
　　author[not(last-name = "adv")] 所有不包含元素last-name值为adv的节点
　　P/text()[2] 当前上下文节点中的P节点的第二个文本节点
　　ancestor::BOOK[1] 离当前上下文节点最近的book祖先节点
　　//node[text()="next"] 锚文本内容等于next的node节点
　　//div[@class="details"]/span[last()] 获取span最后一个节点
　　//div[@class="details"]/span[last()-1] 获取span倒数第二个节点

　　starts-with：匹配属性节点对应开始位置的关键字，对应的有ends-with，//*[starts-with(@class,'copyRight')]
　　contain：匹配属性节点对应包含的关键字，//div[contains(@class,'login')]
　　and 与的关系，//div[contains(@id,'root') and contains(@id,'admin')]
　　not 返回所有非属性id=root的div，//div[not (@id='root')]
　　在xpath表达式中使用变量
　　在xpath表达式中是${varname}定义变量, 类似于bash

符号说明

　　/ 从根节点选取，使用绝对路径，路径必须完全匹配
　　// 从整个文档中选取，使用相对路径
　　. 从当前节点开始选取
　　.. 从当前节点父节点开始选取
　　@ 选取属性
　　/* 模糊匹配

XPath轴(XPath Axes)可定义某个相对于当前节点的节点集：

1、child 选取当前节点的所有子元素
2、parent 选取当前节点的父节点
3、descendant 选取当前节点的所有后代元素（子、孙等）
4、ancestor 选取当前节点的所有先辈（父、祖父等）
5、descendant-or-self 选取当前节点的所有后代元素（子、孙等）以及当前节点本身
6、ancestor-or-self 选取当前节点的所有先辈（父、祖父等）以及当前节点本身
7、preceding-sibling 选取当前节点之前的所有同级节点
8、following-sibling 选取当前节点之后的所有同级节点
9、preceding 选取文档中当前节点的开始标签之前的所有节点
10、following 选取文档中当前节点的结束标签之后的所有节点
11、self 选取当前节点
12、attribute 选取当前节点的所有属性
13、namespace 选取当前节点的所有命名空间节点

备注：
作者：Jason Zeng 于 2021-04-12
博客：http://www.cnblogs.com/zengming/
GItHub：https://github.com/lovelifeming
严正声明：
1.由于本博客部分资源来自互联网，版权均归原作者所有。转载的目的是用于学术交流与讨论学习，将不对任何资源负法律责任。
2.若无意中侵犯到您的版权利益，请来信联系我，我会在收到信息后会尽快给予处理！
3.所有资源内容仅供学习交流之用，请勿用作商业用途，谢谢。
4.如有转发请注明出处，来源于http://www.cnblogs.com/zengming/ ，谢谢合作。