Hive 查询语句的一些优化

声明:本文内容中的效率对比都是参照大佬博客写的,我只是一个搬运工。。。

group  by  和  distinct 去重

区别

俩者都有去重的作用,用法上当然也有区别:

distinct:

distinct是将所有查询的字段进行对比去重,所有字段都完全相同才会去重

    distinct 必须放在查询字段开头进行查询,这样就会导致如果后面还有字段,解析器会默认将它也划入去重的字段中,如 select distinct name,id from user,只有名字和id相同才会去重

所以在实际应用中,我们经常结合count ()来返回不重复数据的条数————count(distinct id)

group by:

group by 根据字段进行去重,字段相同就会去重

如果想进行统计行数的操作,还得再嵌套一个表

就效率而言,

不管是加不加索引 group by 都比 distinct 快。因此使用的时候建议选 group by

参考链接:

https://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html

https://blog.csdn.net/dm_source/article/details/80246586

count (*) 、count(1)、count (column)

首先讲一下用法:

(1)count(*)---包括所有列,返回表中的记录数,相当于统计表的行数,在统计结果的时候,不会忽略列值为NULL的记录。

(2)count(1)---忽略所有列,1表示一个固定值,也可以用count(2)、count(3)代替,在统计结果的时候,不会忽略列值为NULL的记录。与count(*)作用相同

(3)count(列名)---只包括列名指定列,返回指定列的记录数,在统计结果的时候,会忽略列值为NULL的记录(不包括空字符串和0),即列值为NULL的记录不统计在内。

(4)count(distinct 列名)---只包括列名指定列,返回指定列的不同值的记录数,在统计结果的时候,在统计结果的时候,会忽略列值为NULL的记录(不包括空字符串和0),即列值为NULL的记录不统计在内。

执行效率比较:

(1)如果列为主键,count(列名)效率优于count(1)

(2)如果列不为主键,count(1)效率优于count(列名)

(3)如果表中存在主键,count(主键列名)效率最优

(4)如果表中只有一列,则count(*)效率最优

(5)如果表有多列,且不存在主键,则count(1)效率优于count(*)

参考博客https://www.cnblogs.com/-flq/p/10302965.html

原文地址:https://www.cnblogs.com/yangxusun9/p/12686007.html