Hadoop综合大作业

在hadoop上对英文小说《教父II·西西里人》进行词频统计;

  • 开启所有的服务,并将txt文件放在wc文件夹里:

  • 将txt文件上传至hdfs,启动hive:

  • 将导入文件导入到新建的表novel里:

  • 进行词频统计并放入表note_count表中:

  • 查询前20:

  • 用Hive对爬虫大作业产生的csv文件进行数据分析:

  • 进入文件路径并查看数据前5:

  • 查看上传成功的文件的前20个数据:

  • 查看数据总条数:

原文地址:https://www.cnblogs.com/polvem/p/9087859.html