Hadoop综合大作业

本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

一、将爬虫大作业产生的csv文件上传到HDFS

 

 

二、对CSV文件进行预处理生成无标题文本文件

 

三、把hdfs中的文本文件最终导入到数据仓库Hive中

 

四、在Hive中查看并分析数据

 

五、用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

1、查询总共有多少条评论数据

分析:从查询的数据可以看出,爬取到的《何以为家》评论中,总共有13778条评论数据。

2、查询不重复ID的评论数

分析:去掉重复id之后,查询到共有9293名用户参与《何以为家》这部电影的评论。

3、查询评论数前20名的城市

分析:从以上查询到的数据显示,北上广深的观影用户排名前四,深圳位居榜首。

4、查询各个评分等级的数量

分析:从以上评分等级的数量分布来看,评分4.0以上的占非常大一部分,可以看出大家对这部电影还是相当满意。

5、查询上映第一天的评论量

分析:查询到上映当天的评论数为896条,也就是上映的两个钟里就有近千名用户参与评论。

6、查询上映第一天评分为5分的评论数

分析:从上映当天896条数据中,查询出其中有604位观众给了5分评价,可见这部电影的评价是很高的。

7、查询评论次数最多的20个用户

分析:查询出评论数最多的前20个用户,由于评分只能评一次,推断出这20名用户至少4刷了这部电影。

8、查询城市中评分为5分的数量最多的前20名

分析:查询了评5分最多的前20名城市,其中北上广深由于参评用户多,固然居于前五名,成都值得一提,超过了上海。

9、查询城市中评分低于2分的数量最多的前20名

分析:查询了评分低于2分的用户数排名前20的城市发现,参评用户数第三的北京仅排到第11位,可见北京的观众反响还是不错的。

10、查询深圳评分等级的分布情况

分析:深圳作为参评人数最多的城市,从以上查询的数据可知,绝大部分的观众给出的分数都为3.5以上,总体上满意度还挺高。

总结:综上所述,《何以为家》这部电影的满意度很高,给出5分的观众占了评论总数的绝大部分,从观影评论的地区来看,像北上广深这种经济发展较快的城市会观影较多,而发展较慢的城市观影人数也会相应的减少。从上映第一天的评分情况也可以看出这部电影的反响很不错。总的来说,《何以为家》这部电影还是值得大家去观看的~

原文地址:https://www.cnblogs.com/sanshuishu/p/11024106.html