python爬虫豆瓣网

import requests
from bs4 import BeautifulSoup
url = 'http://www.douban.com'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text,'lxml')
titles = soup.select('#anony-events > div > div.main > div > ul > li > div.info > div.title > a')
times = soup.select('#anony-events > div > div.main > div > ul > li > div.info > div.datetime')
didian = soup.select('#anony-events > div > div.main > div > ul > li > div.info > address')
scores = soup.select('#anony-events > div > div.main > div > ul > li > div.info > div.follow')
for title,time,di,score in zip(titles,times,didian,scores):
    data = {
        'title':title.get_text(),
        'time':time.get_text(),
        'di':di.get_text(),
        'score':score.get_text()
    }
    for key,value in data.items():
        print(key,':',value)
    print('------------------------------')

简单爬取豆瓣网同城活动内容,爬取结果:

di :
金阳东街18号万科都荟体验...

title :
万科携手设计地图100 献上原创“家剧”大片

time :
5月29日 周日 - 6月12日 周日

score :
23人关注

------------------------------
di :
云南路50号和光陶社

title :
色诱——小草釉画展

time :
5月23日 周一 - 6月6日 周一

score :
52人关注

------------------------------
di :
长江路101号 南京文化艺术中心

title :
蓝色多瑙河四手联弹钢琴音乐会
正在售票

time :
8月20日 周六 19:30 - 21:00

score :
12人关注

------------------------------
di :
玄武区长江路101号南京文化...

title :
南京站-爱乐汇·“天空之城”久石让&宫崎骏动漫作品视...
正在售票

time :
7月15日 周五 19:30 - 21:30

score :
10人关注

------------------------------

原文地址:https://www.cnblogs.com/chenyaling/p/5556589.html