Hadoop综合大作业

Hadoop综合大作业

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

 3.把hdfs中的文本文件最终导入到数据仓库Hive中

 

 4.删除文件第一行记录,即字段名称

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

(1)查询前二十条信息的评论时间

(2)查询前二十条评论点赞数

 

(3)查询前二十条评论的用户

(4)查询前20个用户的观看情况

(5)查询前20个用户的评分情况

(6)查询前3条评论

(7)查询不重复id的评论数

(8)查询不重复昵称的评论数

总结分析:第一次在hadoop上分析数据,估计很容易发生一些不知名的错误,通过对在豆瓣对电影《流浪地球》的相关数据分析可以发现:网友对《流浪地球》评分相当高,有65%的推荐率和25%的力荐率。从词云可以看出来《流浪地球》的评论中科幻电影,中国,科幻,国产出现频率很高,可以看出网友把这种高质量的科幻片和中国,国产联系起来。因此网友应该对于国产科幻片开始有一定的信心。最后从数据分析来看《流浪地球》是值得一看的国产科幻片。

原文地址:https://www.cnblogs.com/LRZluck/p/11060283.html