hive操作

创建一个内部表：

hive> CREATE TABLE IF NOT EXISTS student1 (sno INT,name STRING,age INT,sex STRING)
> ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE;

查看

hive> show tables;

创建外部表：

hive> CREATE EXTERNAL TABLE IF NOT EXISTS student2 (sno INT,sname STRING,age INT,sex STRING)
　　> ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
　　> STORED AS TEXTFILE LOCATION '/user/external';

查询

删除表test1表

查看表结构

添加字段并查看表结构

修改表名

查看修改

修改回原来的

创建和已知表结构相同的表

查看表结构

加载本地数据

查看

加载HDFS中的数据

单表插入

先创建表

查看表结构是否相同

将student1中的数据插入student11

hive> INSERT OVERWRITE TABLE student111 SELECT * FROM student11;

查看

多表插入

创建表

将student1中的数据同时插入student3和student4

hive> FROM student1 INSERT OVERWRITE TABLE student3 SELECT *
> INSERT OVERWRITE TABLE student4 SELECT *;

查询某个字段

where条件查询

all和distinct的区别：

limit限制查询条数

group by分组查询的使用：

创建表

导入数据

查看

计算表的行数

创建去重后存放数据的表

将去重后的数据导入group_gender_sum表

hive> INSERT OVERWRITE TABLE group_gender_sum SELECT group_test.gender, COUNT (DISTINCT
group_test.uid) FROM group_test GROUP BY group_test.gender;

注意：聚合操作可以同时进行多个操作，但是不能有两个聚合操作有不同的distinct列。

下面给出测试：

先创建一个表：group_gender_agg

将group_test聚合后的数据插入到group_gender_agg

hive> INSERT OVERWRITE TABLE group_gender_agg SELECT group_test.gender,COUNT(DISTINCT gr
oup_test.uid),COUNT(*),sum(DISTINCT group_test.uid) > FROM group_test GROUP BY group_test.gender;

下面的查询就是错误的，不能包含多个distinct。不能通过同时操作两个不同的列。

hive> INSERT OVERWRITE TABLE group_gender_agg
> SELECT group_test.gender,COUNT(DISTINCT group_test.uid),COUNT(DISTINCT group_test.ip)
> FROM group_test > GROUP BY group_test.gender;