大数据应用期末总评

 

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

前言:

  根据之前博客搭的hadoop,对之前爬取出来的数据进行分析。

操作:

  1.将爬取的数据集abcde.csv展示出来:

  2.去掉标题行:

  3.对数据集文件进行预处理操作,并生成abcde.txt文件:

  4.启动hadoop集群,启动HDFS:

  5.将数据集上传到hdfs:

  6.创建数据库并导入数据:

7.对导入的数据进行计数,有4980条数据:

8.对学历要求进行分析,发现不限:1677,本科:2415,硕士:253,博士:5

 8.对城市分布进行分析发现北京占数最多,为1642,上海次之,为935,广州第三,593

9.对公司人数进行分析,500以上人数的公司约占四分之一,50人以下的公司占404,说明实习僧招聘的公司规模的人数不算少。

10.对发布的公司进行分组排序,发现帮范儿招聘职位最多,高达64,可能为猎头公司。

11.对职位分类进行了分析,发现计算机/互联网相关的分类占数最多,仍未饱和,前景不错:

原文地址:https://www.cnblogs.com/GMUK/p/11058734.html