爬虫综合大作业

作业要求来源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075

一.把爬取的内容保存取MySQL数据库

import pandas as pd
import pymysql
from sqlalchemy import create_engine
conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
engine = create_engine(conInfo,encoding='utf-8')
df = pd.DataFrame(allnews)
df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False）

二.爬虫综合大作业

选择一个热点或者你感兴趣的主题。
选择爬取的对象与范围。
了解爬取对象的限制与约束。
爬取相应内容。
做数据分析与文本分析。
形成一篇文章，有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明。
文章公开发布。

参考：

32个Python爬虫项目

都是谁在反对996？

Python和Java薪资最高，C#最低！

给《流浪地球》评1星的都是什么心态？

《都挺好》弹幕数据，比剧情还精彩？

爬了自己的微信好友，原来他们是这样的人……

春节人口迁徙大数据报告！

七夕前消费趋势数据

爬了一下天猫上的Bra购买记录，有了一些羞羞哒的发现...

Python做了六百万字的歌词分析，告诉你中国Rapper都在唱些啥

分析了42万字歌词后，终于搞清楚民谣歌手唱什么了

十二星座的真实面目

唐朝诗人之间的关系到底是什么样的？

中国姓氏排行榜

三.爬虫注意事项

1.设置合理的爬取间隔，不会给对方运维人员造成压力，也可以防止程序被迫中止。

import time
import random
time.sleep(random.random()*3)

2.设置合理的user-agent，模拟成真实的浏览器去提取内容。

首先打开你的浏览器输入：about:version。
用户代理:
收集一些比较常用的浏览器的user-agent放到列表里面。
然后import random，使用随机获取一个user-agent
定义请求头字典headers={’User-Agen‘：}
发送request.get时，带上自定义了User-Agen的headers

3.需要登录

发送request.get时，带上自定义了Cookie的headers

headers={’User-Agen‘：

'Cookie': }

4.使用代理IP

通过更换IP来达到不断高效爬取数据的目的。

headers = {
    "User-Agent": "",
}
proxies = {
    "http": " ",
    "https": " ",
}
response = requests.get(url, headers=headers, proxies=proxies)

四、爬取豆瓣的影评

爬取《流浪地球》的好、中、差短评并分词分析。

import os
import requests
import codecs
from bs4 import BeautifulSoup

# 给请求指定一个请求头来模拟chrome浏览器
global headers
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
server = 'https://movie.douban.com/subject/26266893/comments'
# 定义存储位置
global save_path
save_path = os.getcwd()+"\Text\"+'短评_差评.txt'
global page_max
page_max = 25
global comments
comments = ''


# 获取短评内容

def get_comments(page):

    req = requests.get(url=page)
    html = req.content
    html_doc = str(html, 'utf-8')
    bf = BeautifulSoup(html_doc, 'html.parser')
    comment = bf.find_all(class_="short")
    for short in comment:
        global comments
        comments = comments + short.text

# 写入文件
def write_txt(chapter, content, code):
    with codecs.open(chapter, 'a', encoding=code)as f:
        f.write(content)

# 主方法
def main():
    for i in range(0, page_max):
        try:
            page = server + '?start='+str(i*20)+'&limit=20&sort=new_score&status=P&percent_type=1'
            get_comments(page)
            write_txt(save_path, comments, 'utf8')
        except Exception as e:

            print(e)

if __name__ == '__main__':
    main()

爬取内容

以下为各类高频词分析

# -*- coding: utf-8 -*-
"""

@author: Rozmin
"""

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba

txt = open(r'短评_差评.txt', 'r', encoding='utf-8').read()
s = [line.strip() for line in open('CIyun.txt', encoding='utf-8').readlines()]
jieba.load_userdict(s)
wordcut = jieba.lcut(txt)
wdict = {}
for word in wordcut:
    if word not in s:
        if len(word) == 1:
            continue
        else:
            wdict[word] = wdict.get(word, 0) + 1
wc = list(wdict.items())
wc.sort(key=lambda x: x[1], reverse=True)
for i in range(25):
    print(wc[i])
cut_text = " ".join(wordcut)
'print(cut_text)'
mywc = WordCloud(font_path='msyh.ttc').generate(cut_text)
plt.imshow(mywc)
plt.axis("off")
plt.show()

抓取高频词前30

import jieba
import os

txt = open(os.getcwd()+"\Text\"+"短评_好评.txt","r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}

for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word, 0) + 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)

for i in range(0, 1):
    word, count = items[i]
print("{0:<6}{1:>6}".format(word, count))

好评的高频词分析：

中评的高频词分析：

差评的高频词分析：

前十好评高频出现词汇：

前十中评高频出现词汇：

前十差评高频出现词汇：

前十高频词汇分析基本没有任何参考价值，基本就是科幻、地球、特效、电影，这些都是电影的基本元素，其它的都是一些中性词汇。

然后，分析了11-30的高频词汇，提取了部分关键词：

好评：

中评：

差评：

总结

同类评分电影中，小破球的一星占比出奇的高。不管是意识形态还是商业利益，《流浪地球》注定要被美分狗和《战狼》PTSD 患者往死里整。《流浪地球》的评价问题已经不仅仅是一部电影的问题。《流浪地球》的口碑一度遭遇了严重下滑，更有人在豆瓣评分上恶意刷评价、改评价，导致电影评分从最初的高分8.5一下狂跌至7.9分。