成功抓取豆瓣读书的所有书籍

判断是不是“ 出版年:”
//*[@id="info"]//span[@class="pl"]/text()
因为id="info"里面的span有嵌套的span,所以:
2个//的含义: bookstore//book 选择属于 bookstore 元素后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置
<span>
<span class="pl"> 译者</span>:<a class="" href="/search/%E5%88%98%E5%A7%BF%E5%90%9B">刘姿君</a>
</span>
有意义的都有属性 class="pl"
<span> 来组合行内元素,以便通过样式来格式化它们。
注释:span 没有固定的格式表现。当对它应用样式时,它才会产生视觉上的变化。
如果不对 span 应用样式,那么 span 元素中的文本与其他文本不会任何视觉上的差异。
.xpath('string(.)')
可以取出当前节点下的所有文字内容(不包括标签内部的)
提取出来的有空格,如何去除
strip() 把头和尾的空格去掉
a.strip()
[u' 2008-9'] 'list' object has no attribute 'strip'
Data truncated for column,这个可能是数据有空格什么的,就是格式不对。可以用strip()处理下。
出版年: 2009年09月04日, 需要把year字段的值的长度放大一些
原文地址:https://www.cnblogs.com/elesos/p/7940923.html