从Linux源码角度看套接字的Listen及连接队列

news2024/9/24 19:14:54

今天就从Linux源码的角度看下Server端的Socket在进行listen的时候到底做了哪些事情(基于Linux 3.10内核),当然由于listen的backlog参数和半连接hash表以及全连接队列都相关,在这里也一块讲了。

Server端Socket需要Listen

众所周知,一个Server端Socket的建立,需要socket、bind、listen、accept四个步骤。 今天笔者就聚焦于Listen这个步骤。

代码如下:

void start_server(){
    // server fd
    int sockfd_server;
    // accept fd 
    int sockfd;
    int call_err;
    struct sockaddr_in sock_addr;
	 ......
    call_err=bind(sockfd_server,(struct sockaddr*)(&sock_addr),sizeof(sock_addr));
    if(call_err == -1){
        fprintf(stdout,"bind error!\n");
        exit(1);
    }
    // 这边就是我们今天的聚焦点listen
    call_err=listen(sockfd_server,MAX_BACK_LOG);
    if(call_err == -1){
        fprintf(stdout,"listen error!\n");
        exit(1);
    }
}

首先我们通过socket系统调用创建了一个socket,其中指定了SOCK_STREAM,而且最后一个参数为0,也就是建立了一个通常所有的TCP Socket。在这里,我们直接给出TCP Socket所对应的ops也就是操作函数。

资料直通车:最新Linux内核源码资料文档+视频资料

内核学习地址:Linux内核源码/内存调优/文件系统/进程管理/设备驱动/网络协议栈

 

Listen系统调用

好了,现在我们直接进入Listen系统调用吧。

#include <sys/socket.h>
// 成功返回0,错误返回-1,同时错误码设置在errno
int listen(int sockfd, int backlog);

注意,这边的listen调用是被glibc的INLINE_SYSCALL装过一层,其将返回值修正为只有0和-1这两个选择,同时将错误码的绝对值设置在errno内。 这里面的backlog是个非常重要的参数,如果设置不好,是个很隐蔽的坑。
对于java开发者而言,基本用的现成的框架,而java本身默认的backlog设置大小只有50。这就会引起一些微妙的现象,这个在本文中会进行讲解。

接下来,我们就进入Linux内核源码栈吧

listen
	|->INLINE_SYSCALL(listen......)
		|->SYSCALL_DEFINE2(listen, int, fd, int, backlog)
			/* 检测对应的描述符fd是否存在,不存在,返回-BADF
			|->sockfd_lookup_light
			/* 限定传过来的backlog最大值不超出 /proc/sys/net/core/somaxconn
			|->if ((unsigned int)backlog > somaxconn) backlog = somaxconn
			|->sock->ops->listen(sock, backlog) <=> inet_listen

值得注意的是,Kernel对于我们传进来的backlog值做了一次调整,让其无法>内核参数设置中的somaxconn。

inet_listen

接下来就是核心调用程序inet_listen了。

int inet_listen(struct socket *sock, int backlog)
{

	/* Really, if the socket is already in listen state
	 * we can only allow the backlog to be adjusted.
	 *if ((sysctl_tcp_fastopen & TFO_SERVER_ENABLE) != 0 &&
		    inet_csk(sk)->icsk_accept_queue.fastopenq == NULL) {
		    fastopen的逻辑
        
if ((sysctl_tcp_fastopen & TFO_SERVER_WO_SOCKOPT1) != 0)
				err = fastopen_init_queue(sk, backlog);
			else if ((sysctl_tcp_fastopen &
				  TFO_SERVER_WO_SOCKOPT2) != 0)
				err = fastopen_init_queue(sk,
				    ((uint)sysctl_tcp_fastopen) >> 16);
			else
				err = 0;
			if (err)
				goto out;
		}
	if(old_state != TCP_LISTEN) {
	
		err = inet_csk_listen_start(sk, backlog);
	}
	sk->sk_max_ack_backlog =backlog;
	......
}

从这段代码中,第一个有意思的地方就是,listen这个系统调用可以重复调用!第二次调用的时候仅仅只能修改其backlog队列长度(虽然感觉没啥必要)。

首先,我们看下除fastopen之外的逻辑(fastopen以后开单章详细讨论)。也就是最后的inet_csk_listen_start调用。

int inet_csk_listen_start(struct sock *sk, const int nr_table_entries)
{
	......
	// 这里的nr_table_entries即为调整过后的backlog
	// 但是在此函数内部会进一步将nr_table_entries = min(backlog,sysctl_max_syn_backlog)这个逻辑
	int rc = reqsk_queue_alloc(&icsk->icsk_accept_queue, nr_table_entries);
	......
	inet_csk_delack_init(sk);
	// 设置socket为listen状态
	sk->sk_state = TCP_LISTEN;
	// 检查端口号
	if (!sk->sk_prot->get_port(sk, inet->inet_num)){
		// 清除掉dst cache
		sk_dst_reset(sk);
		// 将当前sock链入listening_hash
		// 这样,当SYN到来的时候就能通过__inet_lookup_listen函数找到这个listen中的sock
		sk->sk_prot->hash(sk);
	}
	sk->sk_state = TCP_CLOSE;
	__reqsk_queue_destroy(&icsk->icsk_accept_queue);
	// 端口已经被占用,返回错误码-EADDRINUSE
	return -EADDRINUSE;
}

这里最重要的一个调用sk->sk_prot->hash(sk),也就是inet_hash,其将当前sock链入全局的listen hash表,这样就可以在SYN包到来的时候寻找到对应的listen sock了。如下图所示:

如图中所示,如果开启了SO_REUSEPORT的话,可以让不同的Socket listen(监听)同一个端口,这样就能在内核进行创建连接的负载均衡。在Nginx 1.9.1版本开启了之后,其压测性能达到3倍!

半连接队列hash表和全连接队列

在笔者一开始翻阅的资料里面,都提到。tcp的连接队列有两个,一个是sync_queue,另一个accept_queue。但笔者仔细阅读了一下源码,其实并非如此。事实上,sync_queue其实是个hash表(syn_table)。另一个队列是icsk_accept_queue。

所以在本篇文章里面,将其称为reqsk_queue(request_socket_queue的简称)。 在这里,笔者先给出这两个queue在三次握手时候的出现时机。如下图所示:

当然了,除了上面提到的qlen和sk_ack_backlog这两个计数器之外,还有一个qlen_young,其作用如下:

qlen_young: 
记录的是刚有SYN到达,
没有被SYN_ACK重传定时器重传过SYN_ACK
同时也没有完成过三次握手的sock数量

如下图所示:

至于SYN_ACK的重传定时器在内核中的代码为下面所示:

static void tcp_synack_timer(struct sock *sk)
{
	inet_csk_reqsk_queue_prune(sk, TCP_SYNQ_INTERVAL,
				   TCP_TIMEOUT_INIT, TCP_RTO_MAX);
}

这个定时器在半连接队列不为空的情况下,以200ms(TCP_SYNQ_INTERVAL)为间隔运行一次。限于篇幅,笔者就在这里不多讨论了。

为什么要存在半连接队列

因为根据TCP协议的特点,会存在半连接这样的网络攻击存在,即不停的发SYN包,而从不回应SYN_ACK。如果发一个SYN包就让Kernel建立一个消耗极大的sock,那么很容易就内存耗尽。所以内核在三次握手成功之前,只分配一个占用内存极小的request_sock,以防止这种攻击的现象,再配合syn_cookie机制,尽量抵御这种半连接攻击的风险。

半连接hash表和全连接队列的限制

由于全连接队列里面保存的是占用内存很大的普通sock,所以Kernel给其加了一个最大长度的限制。这个限制为:

下面三者中的最小值

1.listen系统调用中传进去的backlog

2./proc/sys/inet/ipv4/tcp_max_syn_backlog

3./proc/sys/net/core/somaxconn
即min(backlog,tcp_ma_syn_backlog,somaxcon)

如果超过这个somaxconn会被内核丢弃,如下图所示:

这种情况的连接丢弃会发生比较诡异的现象。在不设置tcp_abort_on_overflow的时候,client端无法感知,就会导致即在第一笔调用的时候才会知道对端连接丢弃了。

那么,怎么让client端在这种情况下感知呢,我们可以设置一下tcp_abort_on_overflow

echo '1' > tcp_abort_on_overflow

设置后,如下图所示:

当然了,最直接的还是调大backlog

listen(fd,2048)
echo '2048' > /proc/sys/inet/ipv4/tcp_max_syn_backlog
echo '2048' > /proc/sys/net/core/somaxconn

backlog对半连接队列的影响

这个backlog对半连接队列也有影响,如下代码所示:

/* TW buckets are converted to open requests without
	 * limitations, they conserve resources and peer is
	 * evidently real one.
	 */
	// 在开启SYN cookie的情况下,如果半连接队列长度超过backlog,则发送cookie
	// 否则丢弃
	if (inet_csk_reqsk_queue_is_full(sk) && !isn) {
		want_cookie = tcp_syn_flood_action(sk, skb, "TCP");
		if (!want_cookie)
			goto drop;
	}

	/* Accept backlog is full. If we have already queued enough
	 * of warm entries in syn queue, drop request. It is better than
	 * clogging syn queue with openreqs with exponentially increasing
	 * timeout.
	 */
	// 在全连接队列满的情况下,如果有young_ack,那么直接丢弃
	if (sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) > 1) {
		NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_LISTENOVERFLOWS);
		goto drop;
	}

我们在dmesg里面经常看到的

Possible SYN flooding on port 8080

就是由于半连接队列满以后,Kernel发送cookie校验而导致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/372436.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

archlinux docker配置php5.3

一直在维护一下10年前的老项目&#xff0c;是基于php5.3开发的。一直在使用windows虚拟机在开发php5.3。最近就想尝试在archlinux主系统中开发。 什么是php PHP 是一种广泛使用的通用脚本语言&#xff0c;特别适合 Web 开发&#xff0c;可以嵌入到 HTML 中。 AUR安装php5.3 …

【C语言进阶】了解计算机的程序环境和预处理过程 掌握计算机预处理操作

​ ​&#x1f4dd;个人主页&#xff1a;Sherry的成长之路 &#x1f3e0;学习社区&#xff1a;Sherry的成长之路&#xff08;个人社区&#xff09; &#x1f4d6;专栏链接&#xff1a;C语言进阶 &#x1f3af;长路漫漫浩浩&#xff0c;万事皆有期待 文章目录1.编译与链接1.1 程…

WebGPU学习(4)---使用 UniformBuffer

接下来让我们使用 UniformBuffer。UniformBuffer 是一个只读内存区域&#xff0c;可以在着色器上访问。 这次&#xff0c;我们将传递给着色器的矩阵存储在 UniformBuffer 中。演示示例 1.在顶点着色器中的 UniformBuffer 这次我们在顶点着色器里定义一个名为Uniforms的新结构体…

TCP 的演化史-sack 与 reordering metric

就着 TCP 本身说事&#xff0c;而不是高谈阔论关于它是如何不合时宜&#xff0c;然后摆出一个更务虚的更新。 从一个 case 开始。 按照现在 Linux TCP(遵守 RFC) 实现&#xff0c;以下是一个将会导致 reordering 更新的 sack 序列&#xff1a; 考虑一种情况&#xff0c;这两个…

【Spring】谈谈你对IOC和AOP理解(2023最新)

目录一.IOC(Inversion of Control)1.IOC是什么&#xff1f;2.IOC的实现原理二.AOP(Aspect Oriented Programming)1.AOP是什么&#xff1f;2.AOP的实现原理3.说一下AOP都有哪些基本理念&#xff1f;或者是AOP的术语4.Advice(通知)的类型有哪些5.AOP的应用场景6.使用AOP实例(日志…

jvisualvm远程监控Java程序

启用远程监控&#xff1a; 方式一&#xff1a;启动参数进行配置 启动远程应用需指定jmx相关配置 java -jar -Djava.rmi.server.hostname远程服务ip -Dcom.sun.management.jmxremote.port18888 -Dcom.sun.management.jmxremotetrue -Dcom.sun.management.jmxremote.sslfa…

运动耳机推荐、最值得入手的运动耳机清单共享

现在市面上各式各样的运动蓝牙耳机着实让人挑花了眼,怎样才能从纷繁复杂的市场中挑选出专业性、安全性、舒适性等各个方面都做地可圈可点的运动蓝牙耳机可真不是一件易事啊&#xff0c;甚至连不少老朋友都会踩坑&#xff0c;为了能让大家挑到真正的运动蓝牙耳机&#xff0c;为此…

Dev C++ 调试功能详细总结

原文链接&#xff1a; Dev C 调试功能详细总结https://mp.weixin.qq.com/s/H9VwLNcJ0tY3j3265R0_7Q 大家好&#xff0c;我是CodeAllen&#xff08;康哥&#xff09;&#xff0c;今天是2023年2月25日&#xff0c;继上一篇介绍了我在Windows端经常用来验证代码的工具Dev C的基本…

pytest测试框架——pytest.ini用法

这里写目录标题一、pytest用法总结二、pytest.ini是什么三、改变运行规则pytest.inicheck_demo.py执行测试用例四、添加默认参数五、指定执行目录六、日志配置七、pytest插件分类八、pytest常用插件九、改变测试用例的执行顺序十、pytest并行与分布式执行十一、pytest内置插件h…

【经典蓝牙】蓝牙AVRCP协议分析

协议简介 蓝牙AVRCP协议是蓝牙设备之间音视频的控制协议。定义了音频/视频的控制、浏览、查询、通知等一系列的命令集。常用来蓝牙耳机对手机的音乐进行控制&#xff0c;以及获取手机的音乐信息等场景。AVRCP协议有两个角色&#xff0c;分别是controller&#xff08;CT&#x…

MFC 使用GridCtrl表格控件

1、以前使用GridCtrl大多作为静态库&#xff0c;但是程序使用的时候体积会很大&#xff0c;有网友询问能不能封装为动态库使用&#xff0c;刚好最近抽空仔细看了一下&#xff0c;封装出来。 2、具体封装过程不再赘述&#xff0c;具体测试如下所示&#xff1a; CGridCtrl m_Gri…

JavaScript Window

文章目录JavaScript Window浏览器对象模型 (BOM)Window 对象Window 尺寸其他 Window 方法JavaScript Window 浏览器对象模型 (BOM) 使 JavaScript 有能力与浏览器"对话"。 浏览器对象模型 (BOM) 浏览器对象模型&#xff08;Browser Object Model (BOM)&#xff09;…

LeetCode100_100. 相同的树

LeetCode100_100. 相同的树 一、描述 给你两棵二叉树的根节点 p 和 q &#xff0c;编写一个函数来检验这两棵树是否相同。 如果两个树在结构上相同&#xff0c;并且节点具有相同的值&#xff0c;则认为它们是相同的。 示例 1&#xff1a; 输入&#xff1a;p [1,2,3], q […

【数据结构】手撕红黑树

目录 一、红黑树简介 1、红黑树的简介 2、红黑树的性质 二、红黑树的插入&#xff08;看叔叔的颜色就行&#xff09; 1、为什么新插入的节点必须给红色&#xff1f; 2、插入红色节点后&#xff0c;判定红黑树性质是否被破坏 2.1情况一&#xff1a;uncle存在且为红 2.2情…

微信商城小程序怎么做_分享实体店做微信商城小程序制作步骤

各行各业都在用微商城小程序开店&#xff0c;不管是餐饮店还是便利店&#xff0c;还是五金店。都是可以利用微信小程序开一个线上店铺。实现线上跟线下店铺更加全面的结合。维护好自己的老客户。让您的客户给您拉新&#xff0c;带来新客户。小程序经过这几年的快速发展和不断升…

【量化回测必看!】Backtrader保姆级教学+免费行情源 框架介绍

前言 想开始量化学习不知道如何入手&#xff1f;市面上的学习资料太多不知道该怎么看&#xff1f; 博主将从零基础讲解回测框架&#xff0c;一步步完成量化数据源的搭建&#xff0c;让你10天内成为量化高手 博主同时将视频课程内容在B站更新&#xff0c;可以关注“量化NPC”获…

学习 Python 之 Pygame 开发魂斗罗(五)

学习 Python 之 Pygame 开发魂斗罗&#xff08;五&#xff09;继续编写魂斗罗1. 加载地图2. 修改角色尺寸和地面高度继续编写魂斗罗 在上次的博客学习 Python 之 Pygame 开发魂斗罗&#xff08;四&#xff09;中&#xff0c;我们完成了角色的移动和跳跃还有射击&#xff0c;由…

Redis源码---整体架构

目录 前言 Redis目录结构 前言 deps目录 src 目录 tests 目录 utils 目录 重要的配置文件 Redis 功能模块与源码对应 前言 服务器实例 数据库数据类型与操作 高可靠性和高可扩展性 辅助功能 前言 以先面后点的方法推进无特殊说明&#xff0c;都是基于 Redis 5.0.…

AI Codec,视频模板技术,高效视频处理,RTC+AI,感知编码,CV-CUDA,窄带高清AI...

AI Codec&#xff0c;NPU硬件加速Topic《基于AI和NPU的Codec变革》孔德辉 中兴微电子 多媒体技术总监伴随通信容量&#xff08;包括5G以及千兆有线网络&#xff09;的发展&#xff0c;高带宽为更多用户接入超高清视频提供了可能。但是随着用户数量的增加&#xff0c;高质量的压…

排序基础之选择排序法

目录 前言 一、什么是选择排序 二、实现选择排序 三、使用泛型扩展 四、使用自定义类型测试 前言 今天天气不错&#xff0c;这么好的天气不干点啥实在是有点可惜了&#xff0c;于是乎&#xff0c;拿出键盘撸一把&#xff01; 来&#xff0c;今天来学习一下排序算法中的选…