select、poll和epoll

I/O复用：

　　在一个进程或者多个进程的需要多个I/O，不能阻塞在一个I/O上而停止不前，而是用到I/O复用。进程预先告知内核需要哪些I/O描述符，内核一旦发现指定的一个或多个I/O条件就绪，则通知进程进行相应操作，这就是I/O复用。

使用场合：

1、客户处理多个描述符（交互式输入和网络套接字）

2、TCP服务器既处理监听套接字，又处理连接套接字

3、一服务器既处理TCP又处理UDP

4、一服务器要处理多个服务或多个协议

select函数:

允许进程指示内核等待多个事件中的任何一个发生，且只在有一个或多个事件发生或经历一段指定的时间后才唤醒它。

其中：maxfdp1表示探测描述符中的最大值加一（因为描述符从0开始，其表示个数），后面三个参数依次表示读、写和异常描述符集，最后一个表示等待时间。timeout：NULL 永远等待；正数，等待一段时间后返回；0，不等待，检查描述符后立即返回。

#include <sys/select.h>
#include <sys/time.h>
int select(int maxfdp1, fd_set *readset, fd_set *writeset, fd_set *exceptset, const struct timeval *timeout);  
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　返回：若有就绪描述符则为其数目，若超时为0，出错为-1

struct timeval
{
   long tv_sec;　　//seconds
   long tv_usec;      //microseconds
};

void FD_ZERO(fd_set *fdset);    //clear all bits in fdset
void FD_SET(int fd, fd_set *fdset);   //trun on the bit in fdset 
void FD_CLR(int fd, fd_set *fdset);　　//turn off the bit for fd in fdset
void FD_ISSET(int fd, fd_set *fdset);　　//is the bit for fd on in fdset

poll函数

　　与select函数大致相同，不同在于select描述符最大个数FD_SETSIZE，poll可更大。且传递的结构不同，poll对每个描述符管理起来，select分别用三个数组管理起来。timeout：INFTIM永远等待，0立即返回，正数等待指定毫秒数返回。

#include <poll.h>
int poll(struct pollfd *fdarray, unsigned long nfds, int timeout);　　//返回：若有就需描述符则为其数目，超时为0，出错为-1
struct pollfd
{
　　int fd;　　//descriptor to check
　　short events;　　//events of interest on fd
　　short revents;　　//events that pccurred on fd
};

总结：参考http://www.open-open.com/lib/view/open1410403215664.html#articleHeader0

select缺点：1、单进程可监视文件描述符最大限制1024个，可更改。但select采用轮询方式扫描文件描述符，文件描述符数量越多性能越差（Linux内核中：#define _FD_SETSIZE 1024）

2、内核、用户空间内存拷贝，select需要赋值大量的句柄数据结构，产生巨大开销；

3、select返回整个句柄数组，应用程序需要遍历数组查找就绪文件描述符；

4、select水平触发，应用程序如果没有完成对一个已经就绪的文件描述符进行IO操作，那么之后每次select调用还是会将其桃枝进程

poll：相比select只是数据结构发生变化，用一个结构体数组来表示监视的文件描述符，每一个结构存储监视的文件描述符和其监视事件，并在其中返回监视结果。其监视文件数量没有限制。但是其他缺点和select一样。

例如：服务器需要支持100万并发连接，在_FD_SETSIZE为1024的情况下，我们至少需要创建1K歌进程才能实现100万的并发连接，除进程间上下文切换的时间开销，从内核、用户空间的内存拷贝，数组轮询等都是系统难以承受和实现的。因此基于select模型的服务器，要达到10万级别的并发访问控制，是很难完成的。

epoll

　　就上面例子中，select/poll都是服务器进程每次都把这100万个连接告诉操作系统（从用户赋值句柄数据结构到内核），让操作系统内核查询这些套接字上是否有事件发生，该过程资源消耗较大，因此select/poll一般只能处理几千的并发连接。

epoll的设计和实现与select完全不同。epoll通过Linux内核中申请一个建议的文件系统（B+树），吧原先的select/poll分为：

1、epoll_creat()简历一个epoll对象（epoll文件系统中为这个句柄对象分配资源）

2、epoll_ctl向epoll对象中添加监视的描述符；

3、epoll_wait收集发生的事件的连接；

epoll实现思路：

　　当某一进程调用epoll_creat方法，Linux内核会创建一个eventpoll结构体，这个结构体中有两个成员与epoll的使用方式密切相关

struct eventpoll{
    ....
    /*红黑树的根节点，这颗树中存储着所有添加到epoll中的需要监控的事件*/
    struct rb_root  rbr;
    /*双链表中则存放着将要通过epoll_wait返回给用户的满足条件的事件*/
    struct list_head rdlist;
    ....
};

　　每一个epoll对象都有一个eventpoll结构体，用于存放通过epoll_ctl方法将epoll对象中添加进来的事件。这些事件都会挂载在红黑树中，如此重复添加的事件也可以通过红黑树而高效的识别出来。

　　所有添加到epoll中的事件都会与设备（网卡）驱动程序简历回调关系，当相应的事件发生时会调用这个回调方法。该回调方法在内核中叫ep_poll_callback，它将发生的事件添加到rdlist双链表中。

对于每一个事件都会建立epitem结构体：

struct epitem{
    struct rb_node  rbn;//红黑树节点
    struct list_head    rdllink;//双向链表节点
    struct epoll_filefd  ffd;  //事件句柄信息
    struct eventpoll *ep;    //指向其所属的eventpoll对象
    struct epoll_event event; //期待发生的事件类型
}

　　当调用epoll_wait检查是否有事件发生时，只需要检查eventpoll对象中的rdlist双链表中是否有epitem元素即可。如果rdlist不为空，则把发生的事件赋值到用户态，同时将时间数量返回。