通过流的方式操作hadoop的API

通过流的方式操作hadoop的API

功能:

可以直接用来操作hadoop的文件系统

可以用在mapreduce的outputformat中设置RecordWrite

参考:

概念理解 http://blog.csdn.net/qq_30366667/article/details/73293452

实例  http://blog.csdn.net/wt346326775/article/details/53446185

文件的读取

使用hdfs提供的客户端开发库来调用DistributedFileSystem对象的open()方法来打开希望读取的文件,并连接输入流FSDataInputStream,客户端开发库向namenode请求元数据,得到要读取的文件的快列表和每个block的映射地址,然后客户端开发库对这个输入流调用read()方法来读取数据,开发库选取离客户端最近的datanode来读取block,每读取一个块都会检查完整性,读取完毕关闭流;

文件的写入

客户端开发库通过对DistributedFileSystem对象的调用create()函数来创建文件,并确定路径,连接输出流;

原文地址:https://www.cnblogs.com/schoolbag/p/8483556.html