xpath使用技巧

爬虫中我们对于元素的定位有多种方法，大致有：

Beautifulsoup、Xpath和正则表达式三种方式

其中效率比较为：

Beautifulsoup<Xpath<正则表达式

习惯了使用Beautifulsoup的新手在转为使用xpath时可能回遇到一个问题：

xpath的text()方法无法像Beautifulsoup那样直接获取一个标签下所有子标签的文本信息

解决问题的办法也很简单：

转为使用string()方法，但是在使用时不能像text()那样直接selector.xpath("//*[@id='endText']/string()")这样使用

1 createtime = selector.xpath("//*[@class='post_time_source']/text()")[0].strip().rstrip('　来源:')
2 content = ''.join(selector.xpath("//*[@id='endText']")[0].xpath("string(.)")).replace('
','').replace('	','')