Hive之优化

Hive之优化

第一节:简介

hive的优化 --- mapreduce的优化

1个reducetask对应的数据量最好不超过2G

reducetask的个数最好不超过0.95*datanode的个数

第二节:优化手段

一、合理选择排序

二、合理做笛卡尔积

 

三、in/exists效率低

hive 高效实现手段

inner join

left semi join

四、insert选择

能使用多重插入,就不使用单重插入。

五、合理分桶

1、join 性能

合理的分桶会提升join的性能

原文地址:https://www.cnblogs.com/lizm166/p/13355013.html