Hadoop数据压缩技术

一、Hadoop数据压缩及其优缺点

   1、压缩技术的好处与坏处

    好处:

  • 减少存储磁盘空间
  • 降低IO(网络的IO和磁盘的IO)
  • 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。

   坏处:

  • 由于使用数据时,需要先将数据解压,加重了CPU的负荷。

    使用压缩的基本原则:

  •  运算密集型的job,少用压缩
  • IO密集型的job,多用压缩

  2、压缩格式

压缩格式 Hadoop自带 算法 文件扩展名 是否可以切分 工具 Hadoop编码/解码器
Default 是,直接使用 Default .deflate N/A org.apache.hadoop.io.compress.DefaultCodec
Gzip 是,直接使用 Default .gz gzip org.apache.hadoop.io.compress.GzipCodec
bzip 是,直接使用 bzip2 .bz2 bzip2 org.apache.hadoop.io.compress.BZip2Codec
LZO 否,需要安装 LZO .lzo Lzop com.hadoop.compression.lzo.LzopCodec
LZ4 否,需要安装 lZ4 .lz4 N/A com.hadoop.compression.lzo.Lz4Codec
Snappy 否,需要安装 Snappy

.snappy

N/A org.apache.hadoop.io.compress.SnappyCodec

3、优缺点

压缩格式 优点 缺点
gzip

压缩比在四种压缩方式中比较高;hadoop本身支持,在应用中处理gizp格式的文件和直接处理文本一样;有hadoop native库,大部分linux系统都自带gzip命令,使用方便。

不支持split
lzo 压缩/解压速度也比加快,合理 的压缩率;支持split,是hadoop中最流行的压缩格式,支持hadoop native库;需要在linux系统下自行安装lzop命令,使用方便 压缩率比gizp要低;hadoop本身不支持,需要安装;lzo虽然支持split,但需要对lzo文件建索引,否则hadoop也是会把lzo文件看成一个普通文件(为了支持split需要建索引,需要指定inputformat为lzo格式)
snappy 压缩速度快;支持hadoop native库 不支持split;压缩比低;hadoop本身不支持,需要安装;linux系统下没有对应的命令d.bzip2
bzip2 支持split;具有很高的压缩率,比gzip压缩率都高;hadoop本身支持,但不支持native;在linux系统自带bzip2命令,使用方便 压缩/解压速度慢;不支持native

二、总结

   1、不同的场景选择不同的压缩方式,如果选择高压缩比,那么对于cpu的性能要求要高,同事压缩/解压耗时也长;

   2、选择压缩比低,对于磁盘Io、网络IO的时间要多,空间占据要多;对于支持分割的,可以实现并行处理。

  应用场景:一般用在HDFS、Hive、HBase中会使用,一般较多的是结合Spark来一起使用。

  

原文地址:https://www.cnblogs.com/chhyan-dream/p/12024842.html