Hadoop综合大作业

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

(1)在HDFS里创建一个目录用于存放待分析的大数据文件。

(2)把文件上传到HDFS。

 

2.对CSV文件进行预处理生成无标题文本文件

 (1)创建一个pre_deal.sh脚本文件对csv文件进行预处理,为数据编号。

(2)由csv文件转换为无标题的文本文件

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

(1)启动Hadoop系统,进入Hive数据仓库创建数据库

(2)创建一个comments表把数据导入到Hive中

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

  • 查询数据总数。

  • 统计不重复的总数,即用户总数

  • 查看前20条评论的内容

 

  • 统计被点赞过的评论的数量。

  • 统计点赞超过100的评论的数量。

 

  • 查看点赞数前10的评论内容及点赞数量

  •  统计有被回复的评论数

 

  •  查看内容提到高考的评论

  • 查看内容提到开通会员的评论

 

  •  统计评论中开通会员的用户数

 

  •  统计内容包含喜欢,好听的评论数。

 

  • 查看喜欢这首歌的评论内容

总结:评论总数为4015,用户数为3398,其中很多用户认为歌曲很励志,许多临近高考的听众,同时也有很多听众在评论中提到歌曲很好听,很喜欢,甚至为了这一首歌开通了会员。点赞数量最多的用户香喷喷的肉包拥有1950000个点赞,评论内容为:这歌又叫做《有本事你翻唱啊》、《拒绝大合唱的歌》、《调高到唱背过气的歌》、《歌词不会哼哼过去的歌》。

原文地址:https://www.cnblogs.com/leo0724/p/11061050.html