Hive Map数据长尾问题

个人实践(数据倾斜):

1.当大表join小表时,将小表转化为内存即可,即开启小表优化。

(set hive.auto.convert.join=true;)

2.尽量避免count(distinct xxx)的使用,如果存在重复行,则在子查询中先进行group by去重操作。

(set hive.groupby.skewindata=true)

3.小文件问题,当上线之前存在测试的少量数据,则先进行删除操作,再进行计算。或者开启map端小文件聚合

(set hive.map.aggr=true)

Map倾斜:

原因与方法:

拓展:

Hive抽样及随机数抽样

Hive表进行关联查询解决长尾和数据倾斜问题

Hive性能优化及数据倾斜问题

原文地址:https://www.cnblogs.com/-courage/p/14037751.html