成功抓取douban 所有电影

之前爬了250,想爬所有的电影
Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/d+')), callback="parse_item"),
修改为
start_urls = ["https://movie.douban.com/subject/26611090/"]
rules = [
Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/d+'), restrict_xpaths='//*[@id="recommendations"]/div'),
callback="parse_item", follow=True),
]
提取 喜欢这部电影的人也喜欢  推荐的10部电影,这样应该不会出现太多电视剧。
问题:
解决,插入库之前判断。如果数据不符合格式,可传默认值0分等。或丢弃
1,如果存在了,就更新下分数和投票数据

最后爬到 https://movie.douban.com/subject/2127013 共 41924 行
2017-11-15 11:30:56 ERROR:Item 404:https://movie.douban.com/subject/2970103/?from=subject-page
原文地址:https://www.cnblogs.com/elesos/p/7940907.html