HiveQL:调优

1.使用EXPLAN/EXPLAN EXTENDED查看执行计划

-- 待补充

2.本地模式

/*
有时候hive查询数据量是非常小的，这种情况下，为查询触发执行任务对的时间消耗有可能比实际job执行时间要多得多。对于大多数这种情况，Hive可以通过本地模式在单台机器上(或某些时候在单个进程中)处理所有的任务，这样对于小数据集，执行时间明显被缩短。
*/
set mapred.tmp.dir = local

3.并行执行

/*Hive会将一个查询转化成一个或者多个阶段。默认情况下，Hive一次只会执行一个阶段。不过，某个特定的的job可能包含众多的阶段，而这些阶段并非是完全相互依赖的，也就是说有些阶段是可以并行执行的，这样坑使得整个job的执行时间缩短。
*/
-- 设置参数
hive.exec.parallel = true
SET hive.exec.parallel.thread.number=16;

4.严格模式

/*
Hive提供了一个严格模式，可以防止用户执行那些可能产生一些不合适的查询
*/
-- 设置参数
hive.mapred.mode = true
/*
可以进制三类查询
1.对于分区表，除非WHERE语句中含有分区字段过滤条件来限制数据范围，否则不允许执行。避免全表扫描占用过大资源
2.对于使用ORDER BY语句的查询，要求必须使用LIMIT语句，因为ORDER BY为了执行排序过程会将所有的结果数据分发到同一个reducer中进行处理，强制要求用户增加整个LIMIT语句可以防止reducer而外执行很长一段时间。
3.限制笛卡尔积查询。对于关系行数据库，用户在JOIN时不用ON用WHERE语句，执行优化器会会将WHERE转化成ON,但是hive不会执行这种优化
*/

5.调整mapper和reducer个数

/*
Hive是按照输入数据的数据量大小来确定reducer个数的，我们可以通过dfs -count命令来计算输入量的大小
*/
hive.exec.reducers.bytes.per.reducer --默认是为1GB
mapred.reduce.tasks -- 可以设置reduce task的大小，但是不推荐设置确定的，会导致会变慢。
hive.exec.reducers.max -- 在共享集群上处理大任务时，为了控制资源控制情况，可以阻止某个查询消耗太多的reducer资源。

6.JVM重用

-- 待补充

7.动态分区调整

-- 设置参数
hive.exec.dynamic.partition.mode = strict -- 严格模式时，至少有一个为静态分区
hive.exec.max.dynamic.partitions -- 限制最大的动态分区的个数
hive.exec.max.dynamic.partitions.pernode --

8.推测执行

/*
推测执行是hadoop的一个功能，其可以触发执行一些重复的任务(task).目标是通过加快task的结果以及进行侦测将执行满的TaskTracker加入到黑名单的方式提高整体的效率。
*/
mapred.map.tasks.speculative.execution = true
mapred.reduce.tasks.speculative.execution = true