大二下学期团队项目(爬取豆瓣电影)

 前面爬取的豆瓣电影没有国家地区与语言,主要是因为豆瓣电影的网页结构:

 以前学习的解析内容都是通过标签,拿取标签内的文字信息,这里的文本信息在标签外面,当时不知道可以用正则表达式。

通过正则表达式可以方便的匹配到标签之外的文字信息。

url_bean = 'https://movie.douban.com/subject/26752088/'

    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
    }

    text=requests.get(url=url_bean,headers=headers).text
    ex=' <span class="pl">制片国家/地区:</span> (.*?)<br/>'
    test=re.findall(ex,text,re.S)
    ex2='<span class="pl">语言:</span> (.*?)<br/>'
    test = re.findall(ex2, text, re.S)
    summary = test[0].replace(" / ", " ")
    print(summary)
原文地址:https://www.cnblogs.com/fengchuiguobanxia/p/14725041.html