豆瓣爬虫

工具:
Python、scrapy、Mongodb

背景:
已经在Mongodb里面store了带爬取的链接,需要完善的是对链接字段添加并更新到数据库

字段:
简介 introduction
主演 actors
导演 director
编剧 screenwriter
国家 country
上映日期 date
上映国家
语言 language
片长 duration
IMDB imdb
类型 kind
评分 score
评论 comments
影评 reviews
又名 nickname
豆瓣评分 score
等级 rating
等级评分人数 rating_sum
等级星级 rating_per
评分对比 rating_betterthan

项目中为了克服豆瓣的反扒机制,设置代理池,通过代理爬虫22000时间花费大概20分钟,每分钟1000+,速度凑合

GitHub douban_spider

原文地址:https://www.cnblogs.com/zswbky/p/8454092.html