TCP源码—系统调用
1、socket
SYSCALL_DEFINE3(socket, int, family, int, type, int, protocol)
sys_socket->sock_create->__sock_create(入参有效性校验)->sock_alloc(申请分配新的inode,初始化inode->i_op=sockfs_inode_ops,创建socket)->[__sock_create]inet_create[pf->create]->[sys_socket]sock_map_fd[分配fd、创建file,并与sock之间相互关联]->sock_alloc_file(在sockfs中创建文件,设置sock->file = file、file->private_data = sock)->alloc_file(在sockfs中创建文件,设置file->f_op=socket_file_ops)->[sock_map_fd]fd_install(关联fd和file,current->files->fdt[fd]=file)
inet_create(sock类型为socket,sk为sock,从inetsw_array中查找对应的answer,sock->ops = answer->ops,创建初始化sk并与sock关联)->sk_alloc(从tcp_prot的slab中创建tcp_sock,初始化sk->sk_prot = sk->sk_prot_creator=answer->prot)->[inet_create]sock_init_data(sk->sk_socket = sock,sock->sk=sk,sk_data_ready等成员初始化工作)->[inet_create]tcp_v4_init_sock[sk->sk_prot->init](icsk->icsk_af_ops = &ipv4_specific、tcpmd5相关初始化tcp_sk(sk)->af_specific = &tcp_sock_ipv4_specific)->tcp_init_sock(初始化cwnd、sndbuf等TCP相关参数)
sock_mnt{sock_init}[sock_alloc]:sock_fs_type文件系统的superblock,文件系统相关操作 sockfs_ops sockfs_dentry_operations
inet_family_ops{inet_init}:对应famile为PF_INET的creat操作,sys_socket系统调用最终通过函数指针调用inet_create
2、bind
SYSCALL_DEFINE3(bind, int, fd, struct sockaddr __user *, umyaddr, int, addrlen)
sys_bind->sockfd_lookup_light(查找fd对应大的socket)->[sys_bind]move_addr_to_kernel(复制用户空间结构到sockaddr_storage)->inet_bind[sock->ops->bind]->inet_csk_get_port[sk->sk_prot->get_port]->inet_csk_bind_conflict[inet_csk(sk)->icsk_af_ops->bind_conflict]
sockfd_lookup_light(根据fd查找到socket)->sock_from_file(返回file->private_data)
inet_bind:
1、会根据ip_nonlocal_bind参数设置以及IP_TRANSPARENT、IP_FREEBIND选项决定是否允许绑定非合法IP
2、如果绑定端口号低于1024,判断是否有权绑定
3、TCP_CLOSE状态并且之前没有绑定过端口(inet->inet_num为0表示之前没有绑定过),才能重新绑定
4、绑定ip地址,inet->inet_rcv_saddr = inet->inet_saddr = addr->sin_addr.s_addr。inet_rcv_saddr用来做hash查找,inet_saddr用来做传输,广播和多播地址设置inet_saddr=0。
5、IP_BIND_ADDRESS_NO_PORT选项设置为1的时候不允许入参端口号为0,否则入参端口号为0代表由内核自动选择
6、调用inet_csk_get_port[sk->sk_prot->get_port]进行端口绑定操作
7、如果成功设置了有效的端口号,进行如下更新
if(inet->inet_rcv_saddr)
sk->sk_userlocks |= SOCK_BINDADDR_LOCK;
if(snum)
sk->sk_userlocks |= SOCK_BINDPORT_LOCK;
inet->inet_sport = htons(inet->inet_num);
inet->inet_daddr =0;
inet->inet_dport =0;
inet_csk_get_port:
SO_BINDTODEVICE选项可以设置绑定接口,即sk->sk_bound_dev_if,通过这个选项设置不同的接口后则可以绑定到相同的端口和ip地址上
SO_REUSEADDR:必要不为listen状态就可以重复绑定相同的地址端口。但是即使设置该选项,自动选择端口的时候仍然会尽量避免选定重复的IP和端口
SO_REUSEPORT:只要用户uid相同或已绑定的sk处于TW状态就可以抢占。 设置SO_REUSEPORT选项后,同一个用户两个套接字可以同时listen相同的端口和地址,而SO_REUSEADDR则不行。
inet_get_local_port_range:
通过顺序锁保护获取ip_local_port_range参数范围
inet_is_local_reserved_port:
ip_local_reserved_ports参数的设置保存在Bit arrays数据结构中,判断一个端口是否为预留端口(需要编译宏CONFIG_SYSCTL生效)
inet_bind_hash[inet_csk_get_port]:
更新inet_sk(sk)->inet_num = snum,并把sk添加到对应tb的owners队列中
Q:不进行bind操作 直接listen可以嘛?重复进行bind操作可以吗?listen状态进行重新绑定?
A:不进行bind直接进行listen的时候会自动选择端口。不能重复进行bind操作。只能在closed状态下进行bind操作。
3、listen
SYSCALL_DEFINE2(listen, int, fd, int, backlog)
sys_listen(会在入参backlog和somaxconn之间取小向后传递)->sockfd_lookup_light->[sys_listen]inet_listen[sock->ops->listen]->inet_csk_listen_start->reqsk_queue_alloc(初始化icsk_accept_queue中的参数,包括TFO队列)->[inet_listen]inet_csk_get_port[sk->sk_prot->get_port]->[inet_listen]inet_hash[sk->sk_prot->hash]->__inet_hash
sock_net(sock->sk)->core.sysctl_somaxconn:/proc/sys/net/core/somaxconn 默认为128
inet_listen:
socket状态只有为SS_UNCONNECTED且类型为SOCK_STREAM才能进行listen操作
TCP状态只能是CLOSE或者LISTEN才能进行listen操作,LISTEN状态下进行listen操作的时候重新更新backlog,sk->sk_max_ack_backlog = backlog,fastopen队列的maxlen在listen后不能更新。
tcp_fastopen设置:如果TFO_SERVER_ENABLE(2)有设置,且没有通过socket选项初始化fastopen队列长度的时候
如果TFO_SERVER_WO_SOCKOPT1(0x400)设置,则更新fastopenq.max_qlen=min(backlog, somaxconn)
如果TFO_SERVER_WO_SOCKOPT2(0x800)设置,则更新fastopenq.max_qlen=min(backlog, tcp_fastopen)
inet_csk_listen_start:
初始化accept队列、逻辑TFO队列、TFO RST队列、逻辑半连接队列、delay ACK等
通过inet_csk_get_port[sk->sk_prot->get_port]获取port成功的时候,通过inet_hash把sock添加到listen队列
__inet_hash
根据绑定的本地端口和net空间散列到hash桶中,sk->sk_prot->h.hashinfo->listening_hash[inet_sk_listen_hashfn(sk)],listening_hash哈希表大小为固定的INET_LHTABLE_SIZE(32)。
4、accept
SYSCALL_DEFINE3(accept, int, fd, struct sockaddr __user *, upeer_sockaddr, int __user *, upeer_addrlen) ->sys_accept4(fd, upeer_sockaddr, upeer_addrlen, 0)
SYSCALL_DEFINE4(accept4, int, fd, struct sockaddr __user *, upeer_sockaddr, int __user *, upeer_addrlen, int, flags)
sys_accept4->sockfd_lookup_light->[sys_accept4]sock_alloc(分配分配inode,创建新的child socket)->[sys_accept4]get_unused_fd_flags(分配fd)->[sys_accept4]sock_alloc_file(在文件系统创建文件)->[sys_accept4]inet_accept[sock->ops->accept](最后设置newsock状态为SS_CONNECTED)->inet_csk_accept[sk1->sk_prot->accept]->inet_csk_wait_for_connect(根据超时时间等待连接)->reqsk_queue_remove(从accept队列取出head)->[inet_accept](关联newsock和sk2)
inet_csk_accept:
如果sock状态不为LISTEN,返回错误
如果accept队列为空,根据O_NONBLOCK选择超时等待或者立即返回。超时时间sk->sk_rcvtimeo默认为MAX_SCHEDULE_TIMEOUT(有符号的longmax),可以通过SO_RCVTIMEO选项来设置,设置值会向上取整到HZ精度。
accept后,普通连接直接释放req,TFO下如果连接还没完成三次握手则设置req->sk = NULL,否则同样释放req。
Q:多个进程或者线程同时accept先唤醒那个?
A:多个程序运行产生的进程accept的时候,会根据随机数进行随机选择,参考__inet_lookup_listener
多个线程accept的时候,多个线程实际对应一个sk,accept的时候会把自己的wait描述符添加到等待队列的尾部。唤醒的时候则是从head先唤醒,因此多线程accept的时候,先accept的线程先被唤醒。
通过fork产生的多个进程的accept实际对应一个sk,处理与多线程accept相同。
Q:进程accept后进行fork,其中只有子进程进行close操作,连接会关闭嘛?
A:不会,fork后父进程和子进程实际引用一个文件描述符,需要父进程和子进程都close后,TCP连接才会关闭。
5、connect
SYSCALL_DEFINE3(connect, int, fd, struct sockaddr __user *, uservaddr, int, addrlen)
sys_connect->sockfd_lookup_light->[sys_connect]inet_stream_connect[sock->ops->connect]->__inet_stream_connect->tcp_v4_connect[sk->sk_prot->connect]->[__inet_stream_connect]inet_wait_for_connect
__inet_stream_connect:
连接目标地址不能为AF_UNSPEC
socket状态为SS_UNCONNECTED,TCP状态为CLOSED才能进行连接
根据O_NONBLOCK计算超时时间
连接成功后更新socket状态为SS_CONNECTED
tcp_v4_connect:
如过有ip选项,则初始化下一跳地址
获取到下一跳的路由,如果获取失败或者路由是多播或者广播,则返回错误 ,如果没有指定源地址根据查找到的路由初始化源地址
__inet_check_established->twsk_unique->tcp_twsk_unique[sk->sk_prot->twsk_prot->twsk_unique]
__inet_check_established:
判断选定的端口是否和ehash中连接冲突,
1、如果在ehsah中找到了源地址、目标地址、源端口、目标端口、接口、net命名空间都完全一样的sk2,
sk2如果为timewait状态且tcp_twsk_unique返回1,则把sk插入到ehash并从ehash中删除tw(sk2),并根据入参可能会从bhash中删除tw
其他情况则不能使用该端口,即不能重复连接
2、如果没有在ehash中找到相符的sk2,则同样端口分配成功,sk加入ehash。
tcp_twsk_unique:
如果tcptw有记录时间戳信息,并且记录时间距离当前超过1s,tcp_tw_reuse有效的时候,则把tcptw中记录的时间戳信息记录到sk中,并返回1
tcp_connect[tcp_v4_connect]:
初始化连接相关参数tcp_connect_init
分配SKB、初始化SKB、添加到写队列、获取连接的ECN信息
发送SKB,TFO下使用tcp_send_syn_data,普通连接使用tcp_transmit_skb
启动重传定时器ICSK_TIME_RETRANS
tcp_disconnect:
Q:connect的时候射设置连接到0.0.0.0:0怎么处理?
A:目的端口为0,目的地址和源地址会根据选出来的路由entry的目的地址和源地址进行设置,最终都会设置为127.0.0.1,源端口则会根据inet_hash_connect来选定,选定的时候会根据源地址、目的地址和目的端口先生成一个随机的offset,然后根据这个offset来随机选择源端口
Q:__inet_hash_connect中端口bhash冲突的场景下,怎么添加到ehash链表中的?
如果这个sk是第一个绑定这个端口的sk,那么直接在__inet_hash_connect中插入ehash,否则通过__inet_check_established插入到ehash
TCP源码—系统调用的更多相关文章
- TCP源码—epoll源码及测试
一.epoll_create & epoll_create1 SYSCALL_DEFINE1(epoll_create, int, size) sys_epoll_create->sys ...
- TCP源码—连接建立
一.SYN报文处理: 公共部分:tcp_v4_rcv->tcp_v4_do_rcv->tcp_v4_cookie_check(无处理动作)->tcp_rcv_state_proces ...
- Linux进阶之Linux破解密码、yum源配置、防火墙设置及源码包安装
一.老师语录: 所有要求笔试的公司都是垃圾公司 笔试(是考所有的涉及到的点) 要有自己的卖点.专长(给自己个标签)(至少一个) 生产环境中,尽量使用mv(mv到一个没用的目录下),少使用rm 二.防火 ...
- TCP/IP源码(59)——TCP中的三个接收队列
http://blog.chinaunix.net/uid-23629988-id-3482647.html TCP/IP源码(59)——TCP中的三个接收队列 作者:gfree.wind@gmai ...
- TCP/IP协议栈源码图解分析系列10:linux内核协议栈中对于socket相关API的实现
题记:本系列文章的目的是抛开书本从Linux内核源代码的角度详细分析TCP/IP协议栈内核相关技术 轻松搞定TCP/IP协议栈,原创文章欢迎交流, byhankswang@gmail.com linu ...
- tcp的半连接与完全连接队列(三)源码分析
TCP 协议中的 SYN queue 和 accept queue 处理 若要理解本文意图说明的问题,可能需要以下知识背景: listen 系统调用的 backlog 参数含义,以及与 net.cor ...
- TCP最大报文段MSS源码分析
概述 本文主要对MSS相关的几个字段结合源码流程进行分析: 字段含义 user_mss(tcp_options_received)–用户配置的mss,优先级最高: mss_clamp(tcp_opti ...
- 从linux源码看socket(tcp)的timeout
从linux源码看socket(tcp)的timeout 前言 网络编程中超时时间是一个重要但又容易被忽略的问题,对其的设置需要仔细斟酌.在经历了数次物理机宕机之后,笔者详细的考察了在网络编程(tcp ...
- 从Linux源码看Socket(TCP)Client端的Connect
从Linux源码看Socket(TCP)Client端的Connect 前言 笔者一直觉得如果能知道从应用到框架再到操作系统的每一处代码,是一件Exciting的事情. 今天笔者就来从Linux源码的 ...
随机推荐
- Apache httpd Server Notes
1. httpd启动.停止以及重启 启动: apachectl –f $PATH_TO_CONF/httpd.conf 停止及重启 apachectl –k stop/restart/graceful ...
- Flask中那些特殊的装饰器
模板相关的装饰器 @app.template_global() 用法: @app.template_global() # 记得加括号 def jiafa(a, b): # 这个方法每调用一次就需要传一 ...
- Linux awk基础笔记
正则表达式含义与构成:用单个字符串来描述或者匹配一系列符合某个句法规则的字符串,一般是由普通字符与特殊字符组成 awk 选项 '模式或者命令{编辑指令}' 文件名 awk '//{print}' aw ...
- “子查询返回的值不止一个。当子查询跟随在 =、!=、<、<=、>、>= 之后,或子查询用作表达式时,这种情况是不允许的。”SQL查询错误解析
为了实现下述代码,首先得有数据库和相应的表格,本文用的是https://blog.csdn.net/qaz13177_58_/article/details/5575711/中的案例,即先用链接中那些 ...
- 用elk+filebeat监控容器日志
elk 为 elasticsearch(查询搜索引擎),logstash(对日志进行分析和过滤,然后转发给elasticsearch),kibana(一个web图形界面用于可视化elasticsea ...
- BZOJ3436_小K的农场_KEY
题目传送门 差分约束基础,对于每种关系建不同的边,求是否有负环. code: /************************************************************ ...
- 手机蓝牙APP扫描设备的时候异常断开(未完成)
1.手机蓝牙APP打开立马就出现异常,测试在公司有这个问题,在宿舍没这个问题,怀疑是公司设备太多,导致扫描空间不够,或者扫描到奇怪的设备.数组越界之类,明天用log看一下 2. 看样子出了一个erro ...
- Clojure基础课程2-Clojure中的数据长啥样?
本文来自网易云社区 作者:李诺 " Clojure is elegant and pragmatic; it helps me focus more on solving business ...
- 解决美图看看不出现在“Open with”的子菜单中的问题
最近由于特殊需求,要使用美图看看,Win10系统,美图看看工作倒也正常,但出现一个比较郁闷的情况,就是只能在“Open with”的最下面一个子菜单中选择“Choose another app”,然后 ...
- dva框架之redux相关
dva封装了redux,减少很多重复代码比如action reducers 常量等,本文简单介绍dva redux操作流程. 利用官网的一个加减操作小实例来操作: dva所有的redux操作是放在mo ...