我理解的epoll(一)——实现分析
epoll项目中用了几次,但是对于其原理只是一知半解。我希望通过几篇blog能加深对她的理解。
我认为epoll是同步IO,因为他在调用epoll_wait时,内核在有I/O就绪前是阻塞的,虽然可以将timeout设置为0,此时就是非阻塞的了。但这不是变成忙轮询了么?
select和epoll的比较
select的缺点:
1、支持一个进程打开大数目的socket描述符(FD):epoll支持的数目是进程打开文件的数目,具体数目可以cat /proc/sys/fs/file-max察看,差不多10玩非。而select只支持1024。虽然后来可以自己修改,但是引入了第二个缺点。
2、IO效率不随FD数目增加而线性下降:虽然监听的FD很多,但是很多时候只有少数处于活跃,但是每次调用select还是不得不轮询所有的预监听的FD集合,导致效率成线性下降。因为select只告知用户准备好的fd的数目,没有告知具体是哪些FD准备好了。epoll不存在这样的问题,epoll_wait得到的是准备好的fd的集合。每一次扫描该集合都是有效的。
3、每次调用select都需要重新设置fdset,并重新传到内核,而epoll只需要调用epoll_ctrl对已经传到内核的fdset进行add,del或者modify操作。
epoll的简单实现
知道这些缺点并没什么卵用,必须弄清楚其内部实现,才能对以上差异了解的更加透彻。这些差异中,最重要的是epoll性能不会随着FD的增加呈线程下降。这是怎么做到的呢。这要从epoll_create说起。
int epfd = epoll_create(size); //size代表一次监听的最大FD数目,因为早起版本是用hashtable实现的,现在是rbtree,所以size已经没有意义了。
疑问:epoll_create为何要返回一个fd?后面在回答。
epoll_create的时候创建了一个 struct eventpoll 结构体(内核自己创建的),每次创建epoll_create时,返回一个文件描述符epfd,内核就是通过这个数据结构来管理epoll的,或者说这个fd和这个struct evenpoll绑定了。
struct eventpoll { spin_lock_t lock; //对本数据结构的访问 struct mutex mtx; //防止使用时被删除 wait_queue_head_t wq; //sys_epoll_wait() 使用的等待队列 wait_queue_head_t poll_wait; //file->poll()使用的等待队列 struct list_head rdllist; //事件满足条件的链表 struct rb_root rbr; //用于管理所有fd的红黑树(树根) struct epitem *ovflist; //将事件到达的fd进行链接起来发送至用户空间 }
当向系统中添加一个fd时,就创建一个epitem结构体,这是内核管理epoll的基本数据结构:
struct epitem { struct rb_node rbn; //用于主结构管理的红黑树 struct list_head rdllink; //事件就绪队列 struct epitem *next; //用于主结构体中的链表 struct epoll_filefd ffd; //这个结构体对应的被监听的文件描述符信息 int nwait; //poll操作中事件的个数 struct list_head pwqlist; //双向链表,保存着被监视文件的等待队列,功能类似于select/poll中的poll_table struct eventpoll *ep; //该项属于哪个主结构体(多个epitm从属于一个eventpoll) struct list_head fllink; //双向链表,用来链接被监视的文件描述符对应的struct file。因为file里有f_ep_link,用来保存所有监视这个文件的epoll节点 struct epoll_event event; //注册的感兴趣的事件,也就是用户空间的epoll_event }
struct evenpoll结构中最重要的就是 struct rb_root rbr 和 struct list_head rdllist 。struct rb_node rbn是红黑树的根结点,epoll_ctrl向内核注册的要监听的fd都在这棵树上操作,比如add,del,modify。同时epoll_create还创建了一个事件满足条件的链表struct list_head rdllist,存放着就绪事件。
这样说来,内核中维护了一棵红黑树,大致的结构如下:
epol_wait得到的就绪事件都是从struct list_head rdllist中拷贝出来的。这是怎么做到的呢?epoll_ctl的时候还向内核中断处理程序注册一个回调函数ep_poll_callback,告诉内核,如果这个fd的中断到了,就把它放到准备就绪list链表里(rdllist)。所以,ep_poll_callback函数主要的功能是将被监视文件的等待事件就绪时,将文件对应的epitem实例添加到就绪队列中,当用户调用epoll_wait()时,内核会将就绪队列中的事件报告给用户。
介绍完epoll的大体流程,说一下epoll_ctl的函数原型:
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
epfd:epoll_create创建的文件句柄。
op:有三个值。EPOLL_CTL_ADD、EPOLL_CTL_DEL、EPOLL_CTL_MOD。 看字面意思就知道了怎么用了,其中由于struct eventpoll内部是红黑树,所以反复对同一个fd进行EPOLL_CTL_ADD没有效果。
fd:要监听的文件描述符。
event:是一个和fd关联的结构体,内部结构如下:
typedef union epoll_data {
void *ptr;
int fd;
uint32_t u32;
uint64_t u64;
} epoll_data_t; struct epoll_event {
uint32_t events; /* Epoll events */
epoll_data_t data; /* User data variable */
};
一般使用方式为:event.data.fd = fd,还要指定事件类型和触发方式:event.events = EPOLLIN | EPOLLET。
关于触发LT和ET触发方式,下文再说。epoll支持的事件类型,已经有很多资料了,就不细说了。
下面简要分析一下epoll的工作过程:
(1)epoll_wait调用ep_poll监听事件就绪队列rdlist,为空挂起,不为空被唤醒。
(2)fd状态改变,导致fd对应的ep_poll_callback被调用,将fd关联的epitem结构放到rdlist上。
(3)ep_events_transfer将rdllist上epitem的拷贝到txlist中,并将rdlist清空。
(4)ep_send_events(很关键)将扫描txlist上的每个epitem,并调用其关联fd对用的poll方法,取得fd关联的新的events,将fd和封装到struct epoll_event内,发送到用户态。通过epoll_wait返回。之后如果这个epitem对应的fd是LT模式监听且取得的events是用户所关心的,则将其重新加入回rdlist,否则(ET模式)不在加入rdlist。
ET事件发生仅通知一次的原因是只被添加到rdlist中一次,而LT可以有多次添加的机会。
有两种情况下ep_poll_callback会添加rdlist:
情况1:fd状态发生改变,从不可读变成可读,或者从不可写变成可写。
情况2:fd可读,或可写。
LT模式下,情况1、2都可以触发ep_poll_callback添加rddlist。
ET模式下,只有情况1能触发ep_poll_callback添加rddlist。
我理解的epoll(一)——实现分析的更多相关文章
- epoll源码分析
epoll源码分析 最近在使用libev过程中遇到一个场景:一个fd从一个ev_loop迁移到另一个ev_loop,会出现这个fd同时存在两个epoll的瞬间.不禁要问了,一个fd同时被两个epoll ...
- epoll源码分析(基于linux-5.1.4)
API epoll提供给用户进程的接口有如下四个,本文基于linux-5.1.4源码详细分析每个API具体做了啥工作,通过UML时序图理清内核内部的函数调用关系. int epoll_create1( ...
- (转)浅析epoll – epoll例子以及分析
原文地址:http://www.cppfans.org/1419.html 浅析epoll – epoll例子以及分析 上篇我们讲到epoll的函数和性能.这一篇用用这些个函数,给出一个最简单的epo ...
- 我理解的epoll(二)——ET、LT的实例分析
https://www.cnblogs.com/yuuyuu/p/5103744.html 这篇文章已经写的很清楚了,暂时不展开论述了. http://blog.csdn.net/weiyuefei/ ...
- select, poll, epoll的实现分析
select, poll, epoll都是Linux上的IO多路复用机制.知其然知其所以然,为了更好地理解其底层实现,这几天我阅读了这三个系统调用的源码. 以下源代码摘自Linux4.4.0内核. 预 ...
- epoll源码分析(转)
在create后会创建eventpoll对象保存在一个匿名fd的file struct的private指针中,然后进程睡在等待队列上面. 对于等待的fd,通过poll机制在准备好之后会调用相应的cal ...
- Linux内核分析--理解进程调度时机、跟踪分析进程调度和进程切换的过程
ID:fuchen1994 姓名:江军 作业要求: 理解Linux系统中进程调度的时机,可以在内核代码中搜索schedule()函数,看都是哪里调用了schedule(),判断我们课程内容中的总结是否 ...
- epoll实现机制分析
本文只介绍epoll的主要流程而不是分析源代码,如果需要了解更多的细节可以自己翻阅相关的内核源代码. 相关内核代码: fs/eventpoll.c 判断一个tcp套接字上是否有激活事件:net/ipv ...
- 深入理解JVM一java堆分析
上一节介绍了针对JVM的监控工具,包括JPS可以查看当前所有的java进程,jstack查看线程栈可以帮助你分析是否有死锁等情况,jmap可以导出java堆文件在MAT工具上进行分析等等.这些工具都非 ...
随机推荐
- shell编程(2)
一.变量简介 变量是任何一种编程语言都必不可少的组成部分,变量用来存放各种数据.脚本语言在定义变量时通常不需要指明类型,直接赋值即可,shell变量也遵循这个规则. 在Bash shell 中,每一个 ...
- EasyUI入门配置
EasyUI是一款基于jQuery的前端插件,简化了开发,免去编写复杂的js和css即可实现不错的显示效果. 基本配置: index.html <!DOCTYPE html> <ht ...
- pyenv激活虚拟环境失败
在使用 pyenv 版本管理工具时激活虚拟环境报错 $ pyenv virtualenvs #列出当前虚拟环境 $ pyenv activate env-3.6.0 #激活虚拟环境 报错信息: Fa ...
- ubuntu下virtualbox的安装、卸载
一.添加VirtualBox的源并安装5.1版本 virtualbox官网:https://www.virtualbox.org/wiki/Download_Old_Builds 虽然也可以直接安装d ...
- ldap客户端工具ldap admin tool
官网下载:非免费软件,自己破解 http://www.ldapbrowsermac.com/
- 02.02 lamp环境搭建笔记
lamp环境 在linux中安装 apache.mysql.php三种软件环境,同时需要安装他 某些插件. cp /etc/apt/sources.list /etc/apt/sources.list ...
- Ubuntu 18.04 更换阿里源
1.备份 sudo cp /etc/apt/source.list /etc/apa/source.list.bak 2.编辑 sudo vim /etc/apt/source.list 3.修改内容 ...
- 幻数浅析(Magic Number)
在源代码编写中,有这么一种情况:编码者在写源代码的时候,使用了一个数字,比如0x2123,0.021f等,他当时是明白这个数字的意思的,但是别的程序员看他的代码,可能很难理解,甚至,过了一段时间,代码 ...
- 解决Eclipse中文文档注释错位-处女座的悲哀!
1.右键打开eclips属性 2.选择兼容性为win8,然后打开Eclipse即可解决 作者:醉烟 出处:https://www.cnblogs.com/WangLei2018/ 本文版权归作者 ...
- Hadoop学习(4)-mapreduce的一些注意事项
关于mapreduce的一些注意细节 如果把mapreduce程序打包放到了liux下去运行, 命令java –cp xxx.jar 主类名 如果报错了,说明是缺少相关的依赖jar包 用命令had ...