Hive表设计压缩问题

对于压缩算法的选择，我们倾向于对不同场景选择不同的压缩算法。

数仓一般被分为三层:
ODS层: 源数据层 , 主要和数据源打交道
原始日志一般采用 textFile存储，我们可以创建临时外部表，location指定原始日志位置，可以查询导入到ODS层,存储格式, 一般采用：ORC + ZLIB (从文件到表的导入操作, 也可以使用 load data 操作，而load data 只能适用于普通文本类型)

DW层: 数据仓库层, 主要使用进行数据分析工作
对于DW层, 表数据的格式, 一般采用的 : ORC + snappy的压缩.

APP(dm ADS)层: 数据应用层数据展示层 , 主要是用于存储分析的结果数据
后期如果要对接BI, 可以将结果数据, 从APP层将数据导出到交互式的数据库(mysql)中,从而提升BI查询数据的效率,对于APP层, 表数据的格式, 一般采用的 textFile.

----------------------------------

测试, 不同的文件存储格式, 对应压缩比如何: 压缩后文件大小和解压的效率
请问压缩方案, 是不是压得越小, 越好呢? 并不是, 在选择压缩方案的时候, 要选择一个压的效率和解压效率都相对而言比较高

textFile存储文件大小为: 18.1M
ORC存储文件大小为 :2.8M 列式存储, 而且内置了一种ZLIB压缩算法
orc将压缩算法去掉, 不压缩: 7.7 M
PARQUET存储文件大小为: 13.1 M

不同格式存储同一份数据, 最终文件大小比较:

ORC > PARQUET > textFile

不同类型的查询时间比较:

textFile查询的时间为: 14.307 秒
ORC查询的时间为: 10.815
parquet查询的时间为: 12.217

ORC > parquet > textFile

由此可见, 一般采用文件存储格式为 ORC格式

提供在DW层, 构件表的标准建表方案:
create table log_orc_snappy(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘ ‘
STORED AS orc tblproperties ("orc.compress"="SNAPPY");

注意: 虽然使用snappy, 没有使用ORC默认的压缩算法形成文件更小, 但是带来好处, 大大提升压缩效率和解压效率

以后工作中:
1) dw层采用 ORC + snappy
2) 在查询分析数据的时候, 开启 map 和 reduce端的压缩方案 ;

参考：

Hive官网

https://www.yht7.com/news/111585

https://ericsahit.github.io/2017/09/10/Hive%E5%8D%87%E7%BA%A7%E5%85%A8%E5%A7%BF%E5%8A%BF/