hdfs老数据压缩备份的一些问题20120521

要做的事情:将生产集群里的老数据压缩备份到另一个集群。

要解决的问题:1,选择哪种压缩格式?经过几番尝试发现bzip2不错,压缩比最高,而且在hdfs里面不用解压缩就能被mapreduce读取(bzip2支持分割);

         2,怎么把集群里的文件压缩?在哪里压缩好?有没有方法设置文件导入备份集群时就自动压缩成bzip2?

        最好写程序来压缩。 

       4,如何把文件从生产集群复制到备份集群中去?

  

原文地址:https://www.cnblogs.com/tangtianfly/p/2511764.html