林文豪————第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 1. 爬取电视剧《在一起》的评论 2.数据处理 3.生成词云 4.将代码上传到Github
作业源代码 https://github.com/KKBKKO/first-personal-work
学号 211806122
步骤 花费时间
1.采集影评数据 3h
2.处理数据 4h
3.数据生成词云图 2h
4.上传到Github 1h

1.评论爬取
(1)打开腾讯视频搜索电视剧《在一起》,点击进入评论区。

(2)对网页的request请求进行分析,可以发现网页是异步加载的。

(3)查看更多评论得到新的响应。

(4)打开控制台,点开network,可以得到当前页面的resquest-url,多次刷新查看评论并进行观察,会发现每次都会有一个V2开头的标签,点开可以发现评论信息。

(5)会发现url的规律,变化的只有尾部的数字和"cursor="后面的数字,于是可以根据这个进行爬取数据了,并把它保存在txt文件中。

2.数据处理
使用正则爬取

获得评论

3.生成词云

4.上传到Github
·通过命令进入到自己需要操作的文件夹内,进入master模式。
·连接我的github仓库
·输入"git clone"仓库HTTPS地址,将远程仓库的项目克隆到本地仓库

cd进入first-personal-work文件,"git branch -a"查看所有分支
输入"git checkout crawl"切换分支

输入"git add 文件名",将文件添加到暂存区

个人感悟
这次的个人编程作业对我来说着实有着不小的难度,通过网上查询资料与向同学请教才跌跌撞撞出来,认识到了自己的欠缺与不足。通过这次的任务,也了解到了很多有趣实用的知识,希望开学后可以更好的进行学习。未来的路还很长,希望自己可以一路披荆斩棘,攻克一个又一个的难关。

原文地址:https://www.cnblogs.com/kkbkl/p/14447038.html