实例讲解:通过三个案例搞懂tcp的那些冷门知识

news2024/9/24 3:24:58

最近在做数据库相关的事情,碰到了很多TCP相关的问题,新的场景新的挑战,有很多之前并没有掌握透彻的点,大大开了一把眼界,选了几个案例分享一下。

案例一:TCP中并不是所有的RST都有效

背景知识

在TCP协议中,包含RST标识位的包,用来异常的关闭连接。在TCP的设计中它是不可或缺的,发送RST段关闭连接时,不必等缓冲区的数据都发送出去,直接丢弃缓冲区中的数据。而接收端收到RST段后,也不必发送ACK来确认。

问题现象

某客户连接数据库经常出现连接中断,但是经过反复排查,后端数据库实例排查没有执行异常或者Crash等问题,客户端Connection reset的堆栈如下图:

图片

经过复现及双端抓包的初步定位,找到了一个可疑点,TCP交互的过程中客户端发了一个RST(后经查明是客户端本地的一些安全相关iptables规则导致),但是神奇的是,这个RST并没有影响TCP数据的交互,双方很愉快的无视了这个RST,很开心的继续数据交互,然而10s钟之后,连接突然中断,参看如下抓包:

图片

关键点分析

从抓包现象看,在客户端发了一个RST之后,双方的TCP数据交互似乎没有受到任何影响,无论是数据传输还是ACK都很正常,在本轮数据交互结束后,TCP连接又正常的空闲了一会,10s之后连接突然被RST掉,这里就有两个有意思的问题了:

  1. TCP数据交互过程中,在一方发了RST以后,连接一定会终止么

  2. 连接会立即终止么,还是会等10s

查看一下RFC的官方解释:

图片

简单来说,就是RST包并不是一定有效的,除了在TCP握手阶段,其他情况下,RST包的Seq号,都必须in the window,这个in the window其实很难从字面理解,经过对Linux内核代码的辅助分析,确定了其含义实际就是指TCP的 —— 滑动窗口,准确说是滑动窗口中的接收窗口。

我们直接检查Linux内核源码,内核在收到一个TCP报文后进入如下处理逻辑:

图片

下面是内核中关于如何确定Seq合法性的部分:

图片

总结

Q:TCP数据交互过程中,在一方发了RST以后,连接一定会终止么?

A:不一定会终止,需要看这个RST的Seq是否在接收方的接收窗口之内,如上例中就因为Seq号较小,所以不是一个合法的RST被Linux内核无视了。

Q:连接会立即终止么,还是会等10s?

A:连接会立即终止,上面的例子中过了10s终止,正是因为,linux内核对RFC严格实现,无视了RST报文,但是客户端和数据库之间经过的SLB(云负载均衡设备),却处理了RST报文,导致10s(SLB 10s 后清理session)之后关闭了TCP连接

这个案例告诉我们,透彻的掌握底层知识,其实是很有用的,否则一旦遇到问题,(自证清白并指向root cause)都不知道往哪个方向排查。

相关视频推荐

4个小时搞懂tcp/ip协议栈,从tcp/ip协议栈原理到实现一个网络协议栈

深入理解Linux内核《网络协议栈架构》

突破Linux内核网络协议栈瓶颈的技术方案-dpdk+vpp

免费学习地址:c/c++ linux服务器开发/后台架构师

需要C/C++ Linux服务器架构师学习资料加qun812855908获取(资料包括C/C++,Linux,golang技术,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK,ffmpeg等),免费分享

 

案例二:Linux内核究竟有多少TCP端口可用

背景知识

我们平时有一个常识,Linux内核一共只有65535个端口号可用,也就意味着一台机器在不考虑多网卡的情况下最多只能开放65535个TCP端口。

但是经常看到有单机百万TCP连接,是如何做到的呢,这是因为,TCP是采用四元组(Client端IP + Client端Port + Server端IP + Server端Port)作为TCP连接的唯一标识的。如果作为TCP的Server端,无论有多少Client端连接过来,本地只需要占用同一个端口号。而如果作为TCP的Client端,当连接的对端是同一个IP + Port,那确实每一个连接需要占用一个本地端口,但如果连接的对端不是同一个IP + Port,那么其实本地是可以复用端口的,所以实际上Linux中有效可用的端口是很多的(只要四元组不重复即可)。

问题现象

作为一个分布式数据库,其中每个节点都是需要和其他每一个节点都建立一个TCP连接,用于数据的交换,那么假设有100个数据库节点,在每一个节点上就会需要100个TCP连接。当然由于是多进程模型,所以实际上是每个并发需要100个TCP连接。假如有100个并发,那就需要1W个TCP连接。但事实上1W个TCP连接也不算多,由之前介绍的背景知识我们可以得知,这远远不会达到Linux内核的瓶颈。

但是我们却经常遇到端口不够用的情况, 也就是“bind:Address already in use”:

图片

其实看到这里,很多同学已经在猜测问题的关键点了,经典的TCP time_wait 问题呗,关于TCP的 time_wait 的背景介绍以及应对方法不是本文的重点就不赘述了,可以自行了解。乍一看,系统中有50W的 time_wait 连接,才65535的端口号,必然不可用:

图片

但是这个猜测是错误的!因为系统参数 net.ipv4.tcp_tw_reuse 早就已经被打开了,所以不会由于 time_wait 问题导致上述现象发生,理论上说在开启 net.ipv4.cp_tw_reuse 的情况下,只要对端IP + Port 不重复,可用的端口是很多的,因为每一个对端IP + Port都有65535个可用端口:

图片

问题分析

  1. Linux中究竟有多少个端口是可以被使用

  2. 为什么在 tcp_tw_reuse 情况下,端口依然不够用

Linux有多少端口可以被有效使用

理论来说,端口号是16位整型,一共有65535个端口可以被使用,但是Linux操作系统有一个系统参数,用来控制端口号的分配:

net.ipv4.ip_local_port_range

我们知道,在写网络应用程序的时候,有两种使用端口的方式:

  • 方式一:显式指定端口号 —— 通过 bind() 系统调用,显式的指定bind一个端口号,比如 bind(8080) 然后再执行 listen() 或者 connect() 等系统调用时,会使用应用程序在 bind() 中指定的端口号。

  • 方式二:系统自动分配 —— bind() 系统调用参数传0即 bind(0) 然后执行 listen()。或者不调用 bind(),直接 connect(),此时是由Linux内核随机分配一个端口号,Linux内核会在 net.ipv4.ip_local_port_range 系统参数指定的范围内,随机分配一个没有被占用的端口。

例如如下情况,相当于 1-20000 是系统保留端口号(除非按方法一显式指定端口号),自动分配的时候,只会从 20000 - 65535 之间随机选择一个端口,而不会使用小于20000的端口:

图片

为什么在 tcp_tw_reuse=1 情况下,端口依然不够用

细心的同学可能已经发现了,报错信息全部都是 bind() 这个系统调用失败,而没有一个是 connect() 失败。在我们的数据库分布式节点中,所有 connect() 调用(即作为TCP client端)都成功了,但是作为TCP server的 bind(0) + listen() 操作却有很多没成功,报错信息是端口不足。

由于我们在源码中,使用了 bind(0) + listen() 的方式(而不是bind某一个固定端口),即由操作系统随机选择监听端口号,问题的根因,正是这里。connect() 调用依然能从 net.ipv4.ip_local_port_range 池子里捞出端口来,但是 bind(0) 却不行了。为什么,因为两个看似行为相似的系统调用,底层的实现行为却是不一样的。

源码之前,了无秘密:bind() 系统调用在进行随机端口选择时,判断是否可用是走的 inet_csk_bind_conflict ,其中排除了存在 time_wait 状态连接的端口:

图片

而 connect() 系统调用在进行随机端口的选择时,是走 __inet_check_established 判断可用性的,其中不但允许复用存在 TIME_WAIT 连接的端口,还针对存在TIME_WAIT的连接的端口进行了如下判断比较,以确定是否可以复用:

图片

一张图总结一下:

图片

于是答案就明了了,bind(0) 和 connect()冲突了,ip_local_port_range 的池子里被 50W 个 connect() 遗留的 time_wait 占满了,导致 bind(0) 失败。知道了原因,修复方案就比较简单了,将 bind(0) 改为bind指定port,然后在应用层自己维护一个池子,每次从池子中随机地分配即可。

总结

Q:Linux中究竟有多少个端口是可以被有效使用的?

A:Linux一共有65535个端口可用,其中 ip_local_port_range 范围内的可以被系统随机分配,其他需要指定绑定使用,同一个端口只要TCP连接四元组不完全相同可以无限复用。

Q:什么在 tcp_tw_reuse=1 情况下,端口依然不够用?

A:connect() 系统调用和 bind(0) 系统调用在随机绑定端口的时候选择限制不同,bind(0) 会忽略存在 time_wait 连接的端口。

这个案例告诉我们,如果对某一个知识点比如 time_wait,比如Linux究竟有多少Port可用知道一点,但是只是一知半解,就很容易陷入思维陷阱,忽略真正的Root Case,要掌握就要透彻。

案例三:诡异的幽灵连接

背景知识

TCP三次握手,SYN、SYN-ACK、ACK是所有人耳熟能详的常识,但是具体到Socket代码层面,是如何和三次握手的过程对应的,恐怕就不是那么了解了,可以看一下如下图,理解一下:

图片

这个过程的关键点是,在Linux中,一般情况下都是内核代理三次握手的,也就是说,当你client端调用 connect() 之后内核负责发送SYN,接收SYN-ACK,发送ACK。然后 connect() 系统调用才会返回,客户端侧握手成功。

而服务端的Linux内核会在收到SYN之后负责回复SYN-ACK再等待ACK之后才会让 accept() 返回,从而完成服务端侧握手。于是Linux内核就需要引入半连接队列(用于存放收到SYN,但还没收到ACK的连接)和全连接队列(用于存放已经完成3次握手,但是应用层代码还没有完成 accept() 的连接)两个概念,用于存放在握手中的连接。

问题现象

我们的分布式数据库在初始化阶段,每两个节点之间两两建立TCP连接,为后续数据传输做准备。但是在节点数比较多时,比如320节点的情况下,很容易出现初始化阶段卡死,经过代码追踪,卡死的原因是,发起TCP握手侧已经成功完成的了 connect() 动作,认为TCP已建立成功,但是TCP对端却没有握手成功,还在等待对方建立TCP连接,从而整个集群一直没有完成初始化。

关键点分析

看过之前的背景介绍,聪明的小伙伴一定会好奇,假如我们上层的 accpet() 调用没有那么及时(应用层压力大,上层代码在干别的),那么全连接队列是有可能会满的,满的情况会是如何效果,我们下面就重点看一下全连接队列满的时候会发生什么。

当全连接队列满时,connect() 和 accept() 侧是什么表现行为?

实践是检验真理的最好途径

我们直接上测试程序。

client.c :

图片


server.c :

图片

通过执行上述代码,我们观察Linux 3.10版本内核在全连接队列满的情况下的现象。神奇的事情发生了,服务端全连接队列已满,该连接被丢掉,但是客户端 connect() 系统调用却已经返回成功,客户端以为这个TCP连接握手成功了,但是服务端却不知道,这个连接犹如幽灵一般存在了一瞬又消失了:

图片

这个问题对应的抓包如下:

图片

正如问题中所述的现象,在一个320个节点的集群中,总会有个别节点,明明 connect() 返回成功了,但是对端却没有成功,因为3.10内核在全连接队列满的情况下,会先回复SYN-ACK,然后移进全连接队列时才发现满了于是丢弃连接,这样从客户端看来TCP连接成功了,但是服务端却什么都不知道。

Linux 4.9版本内核在全连接队列满时的行为

在4.9内核中,对于全连接队列满的处理,就不一样,connect() 系统调用不会成功,一直阻塞,也就是说能够避免幽灵连接的产生:

图片

抓包报文交互如下,可以看到Server端没有回复SYN-ACK,客户端一直在重传SYN:

图片

事实上,在刚遇到这个问题的时候,我第一时间就怀疑到了全连接队列满的情况,但是悲剧的是看的源码是Linux 3.10的,而随手找的一个本地日常测试的ECS却刚好是Linux 4.9内核的,导致写了个demo测试例子却死活没有复现问题。排除了所有其他原因,再次绕回来的时候已经是一周之后了(这是一个悲伤的故事)。

总结

Q:当全连接队列满时,connect() 和 accept() 侧是什么表现行为?

A:Linux 3.10内核和新版本内核行为不一致,如果在Linux 3.10内核,会出现客户端假连接成功的问题,Linux 4.9内核就不会出现问题。

这个案例告诉我们,实践是检验真理的最好方式,但是实践的时候也一定要睁大眼睛看清楚环境差异,如Linux内核这般稳定的东西,也不是一成不变的。唯一不变的是变化,也许你也是可以来数据库内核玩玩底层技术的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/817873.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT+知乎,20分钟超越专业大V的调教方法

AI技术正在迅速发展,渗透到我们的生活中,尤其在内容营销领域。 AI算法帮助我们生成文本、优化搜索引擎排名,提升用户体验等,这些创新正在塑造时代的前进方向,AI也将引领未来十年的变革。对于每个创业者、内容创作者和…

什么是MES,什么是WMS,MES与WMS有什么区别?

什么是MES?什么是WMS?以及MES(制造执行系统)与WMS(仓库管理系统)的区别,下面分为三块跟大家详细讲解。 一、什么是MES? 1、概念: MES(英文全称&#xff1a…

Socket本质、实战演示两个进程建立TCP连接通信的过程

文章目录 Socket是什么引入面试题, 使你更深刻的理解四元组 Socket网络通信大体流程实战演示TCP连接建立过程需要用到的linux 查看网络的一些命令测试的程序一些准备工作启动服务端, 并没有调用accept启动客户端开启服务accept Socket是什么 通俗来说,Socket是套接字,是一种编…

文件IO练习

一、用read函数完成文件大小计算 #include <stdio.h> #include <string.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <unistd.h> int main(int argc, const char *argv[]) {int fd open("./1.tx…

子组件因多次监听导致重复调用接口问题

问题原因&#xff1a; 有多个tab切换页面&#xff0c;因为内容一致&#xff0c;写了一个公共组件&#xff0c;这个组件我每次监听当前tab点击的index值&#xff0c;因为有3个tab&#xff0c;就会监听三次&#xff0c;所以每个tab里对应的接口就会相应的调用3次接口&#xff0c…

分布式ID性能评测:CosId VS 美团 Leaf

环境 MacBook Pro (M1)JDK 17JMH 1.36运行在本机 Docker 内的 mariadb:10.6.4 运行 CosId SegmentChainId 模式&#xff0c;基准测试代码&#xff1a; Benchmarkpublic long generate() {return segmentChainId.generate();}Leaf 基准测试代码&#xff1a; Benchmarkpublic l…

如何进行软件回归测试

什么是软件回归测试&#xff0c;如何进行回归测试&#xff0c;进行回归测试时有哪些常用的方法&#xff1f; 回归测试是指修改了旧代码后&#xff0c;重新进行测试以确认修改没有引入新的错误或导致其他代码产生错误的一种测试方法。回归测试是指重复以前的全部或部分的相同功能…

Java版本spring cloud + spring boot企业电子招投标系统源代码

&#xfeff;项目说明 随着公司的快速发展&#xff0c;企业人员和经营规模不断壮大&#xff0c;公司对内部招采管理的提升提出了更高的要求。在企业里建立一个公平、公开、公正的采购环境&#xff0c;最大限度控制采购成本至关重要。符合国家电子招投标法律法规及相关规范&…

07 定时器处理非活动连接(上)

07 定时器处理非活动连接&#xff08;上&#xff09; 基础知识 非活跃&#xff0c;是指客户端&#xff08;这里是浏览器&#xff09;与服务器端建立连接后&#xff0c;长时间不交换数据&#xff0c;一直占用服务器端的文件描述符&#xff0c;导致连接资源的浪费。 定时事件&a…

kotlin 编写一个简单的天气预报app(三)broadcast换成eventbus

使用eventbus替换broadcast 将从Broadcast切换到EventBus有以下几个好处&#xff1a; 解耦性&#xff1a;通过使用EventBus&#xff0c;您可以实现组件之间的解耦。传统的Broadcast机制需要发送方和接收方明确知道对方的存在&#xff0c;并且需要在代码中设置Intent过滤器和广…

c++ | 动态链接库 | 小结

//环境 linux c //生成动态链接库 //然后调用动态链接库中的函数//出现的问题以及解决//注意在win和在linux中调用动态链接库的函数是不一样的//在要生成链接库的cpp文件中比如以后要调用本文件中的某个函数&#xff0c;需要extern "c" 把你定的函数“再封装”避免重…

java实现日期拆分的方法

java实现日期拆分的方法 本文实例讲述了java实现日期拆分的方法。分享给大家供大家参考。具体如下&#xff1a; 如&#xff1a;计算6-1至6-5之间的日期天数及具体日期&#xff0c;预期的结果是得到&#xff1a; 6-1 6-2 6-3 6-4 6-5 以下是我利用java 日历类做的实现&am…

XtarBackup 8.0.33-28 prepare 速度提升 20 倍!

在这篇博文中&#xff0c;我们将描述 Percona XtraBackup 8.0.33-28 的改进&#xff0c;这显著减少了备份准备所需的时间&#xff0c;以便进行恢复操作。 Percona XtraBackup 中的这一改进显着缩短了新节点加入 Percona XtraDB 集群&#xff08;PXC&#xff09; 所需的时间。 …

多模光模块中Lens透镜的关键作用

随着现代通信技术的飞速发展&#xff0c;多模光模块已经成为光通信系统中不可或缺的关键组件。这些模块可实现高速、高容量的数据传输&#xff0c;广泛应用于数据中心、局域网和广域网等领域。在多模光模块中&#xff0c;透镜作为其中的重要组成部分&#xff0c;扮演着至关重要…

一些网络知识总结(自用)

一些网络知识总结&#xff08;自用&#xff09; 1. 进制的转换 所有进制转换成十进制就是把字面值*权数 比如16进制 5AEF 转成10机制话就是 1* 151614321064 * 5 2. ip地址网段的概念&#xff0c;可用ip&#xff0c;广播地址 比如一个ip为10.1.1.1/24那么他的网络号就是前…

C++继承特性(3)——类的默认成员函数

目录 前情回顾&#xff1a; 一.构造函数和析构函数&#xff1a; 情况1&#xff1a;子类没有写构造和析构函数时&#xff1a; 运行结果&#xff1a; 构造函数&#xff1a; 析构函数&#xff1a; 情况2&#xff1a;父类的构造函数并没有为成员变量初始化赋值&#xff0c;而…

论文阅读-BotPercent: Estimating Twitter Bot Populations from Groups to Crowds

目录 摘要 引言 方法 数据集 BotPercent架构 实验结果 活跃用户中的Bot数量 Bot Population among Comment Sections Bot Participation in Content Moderation Votes Bot Population in Different Countries’ Politics 论文链接&#xff1a;https://arxiv.org/pdf/23…

BES2700 SDK绝对时间获取方法

1 代码 2 实验 log 需要换算下

CLIP-GCD: Simple Language Guided Generalized Category Discovery(论文翻译)

CLIP-GCD: Simple Language Guided Generalized Category Discovery 摘要1 介绍2 相关工作2.1 NCD2.2 无监督聚类2.3 自监督和多模态预训练 3 方法3.1 GCD 问题设置3.2 我们的方法3.2.1 使用CLIP 在GCD 4 实验4.1 模型架构细节4.2 数据集和评估4.3 和最先进水平比较4.4 分析4.5…

echarts柱状图横坐标文字过长的解决办法

背景&#xff1a;echarts图中横坐标显示的文字过长&#xff0c;导致字都堆积在一块如下图所示 解决办法 一&#xff1a;可以尝试修改‘axisLabel’的‘rotate’和‘interval’参数&#xff0c;‘rotate’参数可以设置标签的旋转角度&#xff0c;可以避免标签之间的重叠&#x…