Hadoop IO操作之序列化

前言：为什么Hadoop基本类型还要定义序列化？

　　1、Hadoop在集群之间通信或者RPC调用时需要序列化，而且要求序列化要快，且体积要小，占用带宽小。

　　2、java的序列化机制占用大量计算开销，且序列化结构体积过大，它的引用机制也导致大文件不能被切分，浪费空间，此外，很难对其他语言进行扩展使用。

　　3、java 的反序列化过程每次都会构造新的对象，不能复用对象。

Hadoop定义了两个序列化相关的接口

　　-Writable

　　-Comparable

WritableComparable接口相当于继承了上述两个接口的新接口。

Public interface WritableComparable<T> extends Writable,Comparable<T>
Writable接口

　　　基于DataInput与DataOutput的简单高效可序列化接口，就是org.apache.hadoop.io.Writable接口

　　　几乎所有的hadoop可序列化对象都必须实现这个接口有2个方法，Write，readFiles

下面以IntWritable为例，它把java的int类型封装成了Writable序列化格式，并且可以通过set（）设置它的值

　　　-new IntWritable().set(100); 　　-new IntWritable(100);

　　　 WritableComparable接口

　　类似java的Comparable接口，用于类型的比较。MR其中一个阶段叫排序，默认使用Key来排序。Hadoop提供了一个优化接口RawComparator。

　　Public interface RawComparator<T> extends Comparator<T>{
　　　　Public int compare(byte[] b1,int s1,int l1,byte[] b2,int s2,int l2);
　　}
　　可以比较b1和b2，允许执行者直接比较数据流记录，而无须先把数据流反序列化成对象，这样可以避免新建对象的开销

　　例子：

A implements Writable,comparable{

write(DataInputStream);

DataInputStream readFiles();

comparaTo (B b){ // 二次排序

if(b.x > a.x)

}

equals();

hascode();

}

A实现了上述两种接口,就可以作为hadoop的类.