Hive

Hive是基于HDFS的分布式数据仓库,可以说是Hadoop的一个插件工具,能够将HDFS结构化文件映射成数据库关系表

Hive最大的特点就是能够将类SQL语句转换成MapReduce,然后提交给Hadoop分布式执行。

使用Hive的使用跟MySQL有点类似,但是Hive不支持修改数据。

//删除表
DROP
TABLE IF EXISTS WEBSITE; //创建外部表,并指定外部表数据文件位置
create EXTERNAL table DJ_ZDWZ_YMGX (id int, access_time bigint) row format delimited fields terminated by ' ' stored as textfile LOCATION 'hdfs://master:8020/tmp/kafkadata/YMGX/partition1'; //执行查询语句,并将查询结果写入HDFS
insert overwrite local directory '/home/tgl/q201' select DISTINCT a.id, a.ym, c.ip, d.ym from WEBSITE a, TJ c, JG d where a.id=c.id and c.ip=d.ip;
原文地址:https://www.cnblogs.com/vincent-vg/p/6550418.html