hadoop综合大作业

启动Hadoop

start-all.sh

把本地文件上传到hdfs文件系统,然后查看(之前已经把下载的英文小说上传到hdfs了)

usr/local/hadoop/bin/hdfs dfs -put ~/wc/w.txt /user/hadoop/input

usr/local/hadoop/bin/hdfs dfs -ls input

启动hive

hive

建个表text

create table text(line string);

把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

load data inpath 'input' overwrite into table text;


create table word_count as
select word,count(1) as count from
(select explode(split(line,' '))as word from text) w
group by word
order by word;

使用select命令查看结果

2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

我爬取的是ImportNew网站里的文章然后进行词频统计后放到jieba.csv文件中:

先把爬取的文件上传到邮箱,然后在虚拟机上下载并放到本地的wc文件中:

启动hadoop:

将本地系统wc文件夹里的books.csv上传至hdfs文件系统中:

启动hive:

对csv文件转换为txt文件

建个表text2

把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

使用select命令查看结果

原文地址:https://www.cnblogs.com/god1924668503/p/9066636.html