054 压缩

一:介绍

1.介绍

  减少了网络IO

  减少了磁盘的IO存储

  所用的压缩必须具有可分割性。

2.mapreduce中的压缩

  切片了再读取。

  

二:Mapreduce压缩

1.常见的格式

  

2.检查是否有压缩本地包

  lz4是lzo的升级版。

  

  -------------------------------------------------------------默认的压缩类-------------------------

  

3.解压,添加压缩包

  这个可以使用hadoop源码包进行编译。

  在linux先安装snappy库,才支持snappy压缩。

  然后需要hadoop-snappy-master,自己编译。

  

 4.Hadoop中,没有压缩格式的验证

  

  历史服务器

  

5.Hadoop中,map端的压缩 

  bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar
  wordcount -Dmapreduce.map.output.compress=true
  -Dmapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec
  /input /outputCom

  

  历史服务器:

  

三:Hive中的压缩

1.Hive中,没有压缩的默认设置

  

  历史服务器

  

2.Hive中,压缩的设置

  另外加上live的特别配置,intermediate=true;

  

  历史服务器

  

  

  

原文地址:https://www.cnblogs.com/juncaoit/p/6067703.html