python爬虫匹配实现步骤

import requests,re
url='https://movie.douban.com/top250'
urlcontent=requests.get(url).text
#正则
'''
实现步骤:
1,先逐个匹配字段
2.对各个字段正则进行拼接
3,实现整体抓取
id:.*?(d+)</em.*?
title:'title.*?>(.*?)<'
rat:.*?average.*?(d+.d).*?
comment_num:.*?(d+)人.*
'''
com=re.compile('.*?(d+)</em.*?title.*?>(.*?)<.*?average.*?(d+.d).*?(d+)人',re.S)
ret=com.finditer(urlcontent)
for i in ret:
    print({'id':i.group(1),'title':i.group(2),'rat':i.group(3),'comment_num':i.group(4)})
原文地址:https://www.cnblogs.com/huay/p/10846082.html