xpath使用技巧

爬虫中我们对于元素的定位有多种方法,大致有:

Beautifulsoup、Xpath和正则表达式三种方式

其中效率比较为:

Beautifulsoup<Xpath<正则表达式

习惯了使用Beautifulsoup的新手在转为使用xpath时可能回遇到一个问题:

xpath的text()方法无法像Beautifulsoup那样直接获取一个标签下所有子标签的文本信息

解决问题的办法也很简单:

转为使用string()方法,但是在使用时不能像text()那样直接selector.xpath("//*[@id='endText']/string()")这样使用

1 createtime = selector.xpath("//*[@class='post_time_source']/text()")[0].strip().rstrip(' 来源:')
2 content = ''.join(selector.xpath("//*[@id='endText']")[0].xpath("string(.)")).replace('
','').replace('	','')
原文地址:https://www.cnblogs.com/crawer-1/p/8136055.html