holodesk表存储-列重复值太多,导致存储占用空间翻很多倍

holodesk为了权衡列式存储的解压带来的性能影响,采用的是行列式混合存储架构,这种架构再压缩列重复数据时会比单纯的列式存储架构的压缩比要小;

orc表采用的列式压缩方式,对列重复数据具有很好的压缩性能,所以两种表类型对应的压缩格式不同,导致两种表在重复数据较多时占用的存储空间相差较大;

当然,这种情况只有在列重复数据比较多时才会发生。面对没有重复值的数据时,二者的压缩比相差很小。

实际使用时候发现orc存储表占用了600M,而holodesk表存储占用了6.7G,相差了10倍左右,表格中字段大约有字段82个,

这就说明了:

  1. holodesk存储需要放一些列重复值想对较少的数据
  2. 一般是经过过滤之后的数据
  3. 一般是经过计算之后的数据,而且数据量要大于200M,否则分桶分区达不到最优的效果
原文地址:https://www.cnblogs.com/wang3680/p/12467423.html