Hive on Spark 和Hive on mr执行结果不一致原因剖析

一、Hive 执行引擎概述

  目前hive执行引擎支持三种,包括mr、spark和Tz;mr是hive最早支持的数据类型,执行速度最慢,但是性能上也是最为稳定的;spark和Tz是后续支持的执行引擎,也是将hive的SQL语句转换为spark可以识别的sparksql语句进行执行。

二、当有空表出现时,spark和mr执行引擎结果不一样问题排查

 示例:select * from a left join b a.id = b.id left join c on a.id = c.id;

如果C表是空表,会导致spark引擎和mr引擎执行结果不一致;

经过和presto的执行结果对比发现,presto的执行结果和mr的执行结果是一样,结果显示如下:

 三、不一致原因分析

   一般来说hive在执行SQL时,默认开启了hive.auto.convert.join = true;此时会把小表放入内存中,由于C表是空表也就是最小的表;此时c表被broadcast,此时小表会放入到内存中;而换成spark执行引擎只后,发现该参数没有生效,导致与c表进行left join的字段都变成了空字段;

  当把该参数设置为false之后set hive.auto.convert.join = false,再执行,mr和spark的结果一样了

原文地址:https://www.cnblogs.com/chhyan-dream/p/14484615.html