Hadoop的IO操作

Hadoop的API官网：http：//hadoop.apache.org/common/docs/current/api/index.html

相关的包

org.apache.hadoop.io

org.apache.hadoop.io.compress

org.apache.hadoop.io.file.tfile

org.apache.hadoop.io.serializer.arvo

Apache官网的sort900实验用了900台主机

淘宝用了1500台主机来存储数据。

Hadoop采用CRC-32来校验数据。

数据完整性：

1：本地文件的IO检查

校验和机制的相关的类：org.apache.hadoop.fs.ChecksumFileSystem来读取相关的类

禁用校验和机制：修改src/core/core-default.xml中的fs.file.impl的值为org.apache.hadoop.fs.RawLocalFileSystem

2：HDFS的文件IO检查

(1)datanode接收数据后存储数据前

(2)客户端读取datanode上的数据时

(3)datanode后台守护进程的定期检测

3：数据恢复策略

(1)检查已恢复标签

(2)统计各个备份数据的恢复状态

(3)副本同步

hadoop fs -get [ignoreCrc] [-crc] <src> <localdst>

数据压缩：

1：减少存储空间

2：加快传送速度

org.apache.hadoop.io.compress包中

代码如下：

conf.setBoolen("mapred.compress.map.output",true)

conf.setBoolen("mapred.output.compress",true)

conf.setBoolen("mapred.output.compression.type","Block")

conf.setClass("mapred.output.compression.codec",GzipCodec.class,CompressionCodec.class)

数据序列化

（1）进程间通信

（2）数据持久化存储

org.apache.hadoop.io.Writable类和java.lang.Comparable类

1.Writable类定义了两个方法：

序列化输出数据流： void write（Dataoutput out） throw IOException

反序列化输入数据流：void readFields（Datainput in）throw IOException

2.Comparable类定义了三个方法：

comparreTo方法，hashCode方法，equals方法

3.WritableComparable的write方法，readFields方法，comparreTo方法，hashCode方法，equals方法

java.util.Comparator

Comparator类的compare方法

RawComparator类

WritableComparator

NullWritable

ByteWritable和BytesWritable

ObjectWritable

ArraryWritable和TwoDArraryWritable

Text

MapWritable和sortedMapWritable

CompressedWritable

GenericWritable

VesiondWritable

针对Hadoop的文件类

SequenceFile类和MapFile类

SequenceFile类记录的是key-value对，是序列化后的二进制文件

有三种类型结构：

1：未压缩的key-value对

2：记录压缩的key-value对，只有value被压缩

3：block 压缩的key-value对，key和value分别被压缩