hadoop综合大作业

启动Hadoop

start-all.sh

把本地文件上传到hdfs文件系统，然后查看（之前已经把下载的英文小说上传到hdfs了）

usr/local/hadoop/bin/hdfs dfs -put ~/wc/w.txt /user/hadoop/input

usr/local/hadoop/bin/hdfs dfs -ls input

启动hive

hive

建个表text

create table text(line string);

把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

load data inpath 'input' overwrite into table text;


create table word_count as
select word,count(1) as count from
(select explode(split(line,' '))as word from text) w
group by word
order by word;

使用select命令查看结果

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

我爬取的是ImportNew网站里的文章然后进行词频统计后放到jieba.csv文件中：

先把爬取的文件上传到邮箱，然后在虚拟机上下载并放到本地的wc文件中：

启动hadoop：

将本地系统wc文件夹里的books.csv上传至hdfs文件系统中：

启动hive：

对csv文件转换为txt文件

建个表text2

把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

使用select命令查看结果