Scrapy 问题锦集(后边继续更新)

1.这个问题要么换3.6要么改源码

File “c:usersadministrator.user-20160420aeappdatalocalprogramspythonpyt
hon37-32libsite-packages wistedconchmanhole.py”, line 154
def write(self, data, async=False):
^
SyntaxError: invalid syntax

2.robots.txt:

DEBUG: Forbidden by robots.txt:

这个文件中规定了本站点允许的爬虫机器爬取的范围,因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限,出错是因为使用的爬虫爬取内容违背这个robot.txt。所以只要让爬虫不遵守该协议就好了,具体做法是找到settings文件里的ROBOTSTXT_OBEY设置成False。
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

3.xpath的text()和extract()

extract()这个是获取到标签的所有信息
text()则是将该标签的的值获取到,也就是>这里的值<

4.403解决,settings下面用这个就行

USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5’

5.json.loads和jumps的区别

json.dumps : dict转成str
json.loads:str转成dict

6.scrapy 打印页面出现编码不正确

print(html.decode('utf-8', 'ignore')) #这样子是py3默认utf8 打印 不用utf-8打印就行
  1. xpath 如何去掉换行和空格
normalize-space(//*[@class="entry-meta-hide-on-mobile"]/text())
translate():替换字符,产生新的字符串

8.Unknown command: crawl

这个是没有进到项目根目录

小白技术社
原文地址:https://www.cnblogs.com/xbjss/p/13326706.html