将众多小文件输入Hadoop的解决方案 可挂载的HDFS

配置HDFS为可挂载后:

1-可挂载后才支持非完整POSIX语义;

2-仍然不支持随机写入,仍然为“一次写入,多次读取”;

3-可能误用,导致众多小文件;

1-使用Solr存储和检索小文件;

2-使用HBase存储小文件,使用路径和文件名称做为键;

3-使用容器格式,如SequenceFiles或Avro,合并小文件。

原文地址:https://www.cnblogs.com/rsapaper/p/7665724.html