数据编码与压缩

数据压缩-维基百科最下面的有关于各种经典压缩方法的索引

ZIP压缩算法详细分析及解压实例解释
【数据压缩】LZ78算法原理及实现

Golomb及指数哥伦布编码原理介绍及实现
Gamma编码及Delta编码概述

Doclist压缩方法简介

Data Encoding and Compression - Vertica
Encoding Types - Vertica

存储引擎 · InfluxDB中文文档
Beringei高性能时间序列内存数据库原理

Lemire D , Boytsov L . Decoding billions of integers per second through vectorization[J]. Software: Practice and Experience, 2015, 45. 其中的RELATED WORK总结的挺好的。论文的中文翻译

An Experimental Study of Bitmap Compression vs.Inverted List Compression

全局压缩-革命性的数据库技术讲Succinct Data Structure相关的

我将TurboPFor的代码使用gcc预处理了下,看出来TurboPFor的压缩底层主要调用bitpack和vint文件里的函数。其内部主要有四种压缩类型。

当使用支持无需解压即可直接访问的压缩函数(如p4encx32)时,其底层只用了bitpacking with exceptions(bitmap)(好像只有这个压缩类型有异常值的额外存储位),没有用其他三种(constantbitpackingbitpacking with exceptions (variable byte)这三种好像得没有存储原样存储异常值额外存储位的设计)压缩类型。

附录

powturbo/TurboPFor-Integer-Compression: Fastest Integer Compression 是TurboPFor的源代码,其中还汇总了整数压缩的代码
TurboPFor: an analysis的原理

How fast is bit packing?
压缩为王-阿里第五届中间件复赛总结

原文地址:https://www.cnblogs.com/Tifa-Best/p/13306027.html