计算机网络——如何保证 TCP 传输的可靠性

TCP 是传输层上的协议，它是可靠的，面向连接的。

概括

1. 设置传输格式，包括分为 TCP 段、使用校验和、使用序列号

2. 数据丢失之后的重传，超时重传、快速重传、SACK 选择确认、D-SACK 重复选择确认

3. 流量控制，控制数据包的传输速度，避免接受方处理不及时导致数据丢失，使用的是滑动窗口的方法

4. 拥塞控制，控制传输速度，避免传输数据包过多导致网路拥塞，主要算法：慢启动、拥塞避免、拥塞发生、快速恢复

传输内容形式

图片来源：小林coding

1. 基于数据块传输

TCP 传输数据时，不是直接一整个数据直接发送给接收端，而是分成很多数据段，叫做TCP 段或者报文段去发送，比如一个文件很大时，如果直接发送整个文件，传输的过程就不好控制。

2. 对每个数据段分配一个序列号

TCP 将数据分段之后，为了避免其中一个数据段在传输过程中丢失，就给每个数据段分配系列号，通过验证数据段的序列号来判断是否发生了丢失，或者这个数据段是否重复发送了

3. 校验和

TCP 保证首部和数据的校验和，目的是检验数据在传输工程中的变化，如果收到的数据段的校验和有差错，就表示数据发生了变化，就会丢弃这段。

在传输过程中，难免会因为各种原因，导致数据包发生丢失，丢失后的数据包就会通过重传机制来重新发送确保数据的完整性。

重传机制

TCP 实现可靠传输的方式之一，是通过序列号和确认应答机制。

TCP 中，发送端的数据到达接收端之后，接收端和发送一个 ACK 应答信息，表示已经收到了数据包。但是如果发生了数据丢失，比如发送端的数据丢失了，接收端根本没接收到，或者接收端接收到了，应答信息在中间丢了，都会触发重传机制来确保数据发送接收成功。

常见的重传机制：超时重传、快速重传、SACK（选择重传）、D-SACK （重复选择重传）

超时重传

顾名思义，超时重传就是通过设定一个超时时间，当发送数据之后，这个时间内没有接收到应答信息，发送端就认为数据丢失了，就会重新发送丢失的数据包。

但是问题在于，如何去设置超时时间，超时时间设置长了可能包都丢了有一会儿了才发现丢包了，就像你走马路上每隔一段时间摸下手机在不在口袋里，结果手机都丢了很久了你才摸包发现手机丢了。如果设置过短，就会出现数据还没丢，发送端就判断数据丢失了触发了重传，这样就浪费了资源。

首先确认两个概念：

RTT：往返时间，也就是数据包从发送出去一直到接收到 ACK 应答信息的时间。

RTO：重传超时，也就是超时时间。

在实际中只需要 RTO 超时时间略大于 RTT 往返时间即可，如果在往返时间之后还没有接收到应答，就到了 RTO 超时时间，就触发了超时重传。具体计算方法和公式这里就不贴了。

还有需要注意的就是，如果超时重发的数据，再次超时了，TCP 会将超时时间设为两倍。

快速重传

快速重传，不等待指定的时间，而是根据接收到发送的 ACK 应答信息来判断重传时机。

发送 Seq 1，接收到了回复 ACK2，理解为我收到了 Seq1，现在需要 Seq2；
发送 Seq2，发生了丢失，后续又发送了 Seq3，回复 ACK2；
后续继续发送 4 和 5，因为 2 一直没有收到，于是都回复 ACK2；
此时发送端接收到了三次相同的 ACK ，直到了 Seq 2丢失了，于是在过期时间之前就重传该数据包

解决了超时时间的问题，仍然有一个问题。当 Seq 2 和 3 都发生了丢失，因为一直没接收到 Seq2，所以回复的都是 ACK2。那么此时应该发送端怎么判断哪个包发生了丢失。

如果只重传 Seq2，接收端在这之前接收了 4，5，6，后来在接收到2 后，期待3，发现没有接收到，所以又要进行三次相同的回复，效率低。

如果将从 Seq2之后的三个数据包都重发，很明显出现了重复的数据报，浪费了资源。

SACK 选择确认

选择确认是在返回的 ACK 报文中加上 SACK ，作用是让接收端接收到数据包之后返回一个明确收到某一个数据包的应答报文。

举个例子，比如现在发送端发送一个 Seq 100 的数据包，接收端接收之后返回一个 ACK 100 的应答报文，当该数据包丢失之后，后续比如发送一个 Seq 200 的丢失了，再发送 Seq 300 的数据包，此时接收端返回的应答报文应该是 ACK 200，和 SACK 300，再发送一个 Seq 400 时，返回 ACK 200+SACK 400，三次过后，接收端没有收到 SACK 200 的选择应答，所以接收端重发 Seq 200。

D-SACK 重复选择确认

发送方重传的本质原因是没有接收到接收方的应答报文 ACK，而没有收到应答报文又有两种情况：

1. 数据包丢失或者网络阻塞

2. 数据包到达了接收方，而 ACK 应答报文丢失

出现重复数据包一半是网络阻塞和ACK 应答丢失造成的。当 ACK 应答报文丢失之后，实际数据包，比如 Seq 200 是发送到了接收端的，可是发送端认为没有发送到，所以会触发快速重传，重传之后的数据包到达接收端之后，再次返回 ACK 600 + SACK 200的，以为已经到了 ACK 600，表示600前面的数据包已经送达，而 SACK 200就表示这个 Seq 200 是重复的。

这就是重复选择确认。

流量控制

当发送方发送数据包存在一定速率，当速率过快，接收方不能及时处理这些数据，就可能导致数据包丢失。想要控制数据包的发送速率，使用了滑动窗口 的概念用来控制速率。

在之前说到的发送数据包都是收一个回复一个，很明显效率很低，引入滑动窗口，会在操作系统开辟一个缓冲区，当数据包到达接收方放入缓冲区，等待当前正在处理的数据包处理完成再从缓冲区取。这样就可以实现发送方连续发送多个数据包而不用等待每一个数据包的应答报文。

打个比方，有一家面馆，原来只有一个座位供顾客坐着吃面，其他人只能打包回去吃，这样就会少很多想要坐着吃的顾客，后来面馆赚钱了，把店面扩大了，座位增加到了10个，只要顾客吃面的速率和来顾客的速率差不多，就不会有顾客因为看见店里满了而选择另一家店了。顾客就相当于数据包，当接收方不能及时处理数据包时，就让数据包去缓冲区等着被处理。如果发送方速率过快，就会导致缓冲区满了而丢失数据包。

需要注意的是，滑动窗口大小会被操作系统控制，不是一直不变的。