hadoop单线程实现server多socket连接读取数据原理分析

一、问题引出。

Hadoop 的Server 采用了Java 的NIO，这样的话就仅需要为每一个socket 连接建立一个线程，读取socket 上的数据。在Server 中，只需要一个线程，就可以accept 新的连接请求和读取socket上的数据。为什么只需一个线程就解决问题了？

二、java NIO的分析

Java NIO旨在快速搬运大量东西，大大提高I/O效率。

（1）引入了buffer和channel。Buffer:是一块连续的内存块。NIO 数据读或写的中转地。Channel:数据的源头或者数据的目的地用于向 buffer 提供数据或者读取 buffer 数据 ,buffer 对象的唯一接口。可以将buffer当成运煤的卡车，channel是存储煤（数据）的煤矿。

（2） Selector 的出现。大大改善了多个 Java Socket的效率。在没有NIO的时候，轮询多个socket是通过read阻塞来完成，即使是非阻塞模式，我们在轮询socket是否就绪的时候依然需要使用系统调用。而Selector的出现，把就绪选择交给了操作系统（我们熟知的selec函数），把就绪判断和读取数据分开，不仅性能上大有改善，而且使得代码上更加清晰。

（3）异步非阻塞 I/O 支持。对于传统的阻塞I/O来说，一调用read，write函数时，线程便进入阻塞态，当数据到来时，线程被唤醒进而读取数据，没有数据时，线程一直处于blocked，不能去做其他的事情，异步非阻塞I/O，一旦有数据来了，线程才去读数据，没有数据时，线程可以解放出来去做其他的事情。

之所以通过一个线程就可以完成多个连接的数据读取任务，是因为Selector采用观察者模式实现，每一个socket连接都封装成channel，并将channel向selector注册， Selector内部原理实际是在做一个对所注册的channel的轮询访问，不断的轮询(目前就这一个算法)，一旦轮询到一个channel有所注册的事情发生，比如数据来了，他就会站起来报告，交出一把钥匙，让我们通过这把钥匙来读取这个channel的内容。内部具体实现是传回一组SelectionKey,线程读取这些Key,就会获得刚刚注册过的socketchannel,然后从这个Channel中读取数据。java NIO很好的解决了每来一个连接就分一个线程的资源浪费，效率不高的问题。