Hive Map数据长尾问题

Hive Map数据长尾问题

个人实践（数据倾斜）：

1.当大表join小表时，将小表转化为内存即可，即开启小表优化。

（set hive.auto.convert.join=true;）

2.尽量避免count(distinct xxx)的使用，如果存在重复行，则在子查询中先进行group by去重操作。

（set hive.groupby.skewindata=true）

3.小文件问题，当上线之前存在测试的少量数据，则先进行删除操作，再进行计算。或者开启map端小文件聚合

（set hive.map.aggr=true）

Map倾斜：

原因与方法：

拓展：

Hive抽样及随机数抽样

Hive表进行关联查询解决长尾和数据倾斜问题

Hive性能优化及数据倾斜问题

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/-courage/p/14037751.html