0.TCP协议格式

编辑

一.确认应答(安全机制)

二.超时重传(安全机制)

1.SYN丢包

2.ACK丢包

三.连接管理(安全机制)

1.三次握手建立连接

编辑

2.四次挥手断开连接

3.建立和断开连接

四.滑动窗口(效率机制)

五.流量控制(效率机制)

六.拥塞控制(安全机制)

七.延迟应答(效率机制)

八.捎带应答(效率机制)

九.面向字节流

1.粘包问题

2.具体的现象

3.解决方案

1.在消息末尾加上特殊的分隔符来标识消息的结束

2.使用一个专门用来描述消息体长度的字段，来标识消息体的具体长度

十.TCP异常情况

1.程序崩溃

2.正常关机

3.主机掉电操作

4.网线断开

十一.常见面试题

0.TCP协议格式

传输层协议

源/目的端口号：表示数据是从哪个进程来，到哪个进程去；
32位序号/32位确认号：后面详细讲；
4位TCP报头长度：表示该TCP头部有多少个32位bit（有多少个4字节）；所以TCP头部最大长是
15 * 4 = 60
6位标志位:
URG ：紧急指针是否有效

ACK ：确认号是否有效

PSH ：提示接收端应用程序立刻从 TCP 缓冲区把数据读走

RST ：对方要求重新建立连接；我们把携带 RST 标识的称为 复位报文段

SYN ：请求建立连接；我们把携带 SYN 标识的称为 同步报文段 FIN ：通知对方，本端要关闭了，我们称携带 FIN 标识的为 结束报文段
SYN：请求建立连接；我们把携带SYN标识的称为同步报文段FIN：通知对方，本端要关闭了，我们称携带FIN标识的为结束报文段
16位窗口大小：后面再说
16位校验和：发送端填充，CRC校验。接收端校验不通过，则认为数据有问题。此处的检验和不光
包含TCP首部，也包含TCP数据部分。
16位紧急指针：标识哪部分数据是紧急数据；
40字节头部选项：暂时忽略；

TCP 对数据传输提供的管控机制，主要体现在两个方面：安全和效率。

这些机制和多线程的设计原则类似：保证数据传输安全的前提下，尽可能的提高传输效率。

一.确认应答(安全机制)

如果我们给一个人发送多条信息,由于网络的问题,可能会出现,乱序的问题.比如我们发送两条信息:1.你好.2.吃了吗? 由于网络问题,可能会出现接收方先接受到了"吃了吗?",后接受到了"你好.",这样的情况我们是不想出现的,因此确认应答机制可以很好的解决这种问题.

如下图,为了解决这种问题,每次发送消息的时候,TCP数据中的字节进行了编号,比如主机B接受到了1-1000byte的数据,32位序列号中1-1000标志已经接受到了1000个字节,确认序列号返回1001,表示下次从第1001个字节进行发送.

TCP将每个字节的数据都进行了编号。即为序列号。

每一个 ACK 都带有对应的确认序列号，意思是告诉发送者，我已经收到了哪些数据；下一次你从哪里开始发。

每次发消息的时候将SYN置为1

每次接受消息确认的时候,将ACK置为1

二.超时重传(安全机制)

1.SYN丢包

主机A发送数据(SYN)给主机B,可能由于网络拥挤等原因,消息无法到达主机B,因此主机B也不会给主机A发送确认应发ACK.如果主机A特定时间内没有接收到主机B发送来的确认应答ACK,就会将上次的数据进行重发

2.ACK丢包

主机B接受到了主机A的数据,并且发送了确认应答ACK,但是由于网络拥堵等原因,ACK发送了丢包,主机A并没有主机B发送来的ACK应答.

这个时候也会触发超时重传机制.由于我们发送的消息主机B已经接受到了主机A发送的数据,只不过ACK应答丢包.主机B没有必要存储重复的数据,因此第二次发送消息的时候(超时重传),可以利用前面提到的序列号(前面一次发送序列号已经保存,第二次发送的时候已经存在这个序列号了),就可以很容易做到去重的效果,主机B只需要发送一个确认应答的ACK就可以了.

三.连接管理(安全机制)

在正常情况下, TCP 要经过三次握手建立连接,四次挥手断开连接

1.三次握手建立连接

对于网络通信来说,三次握手可以检查双发的收发能力是否正常,例如高铁每天都会空跑一趟.

从下图可以看出,通过两次SYN和ACK的过程可以确保双方的收发能力都没有问题,在这个基础上就可以进行正常的数据发送和接收

由于接收方的ACK和SYN可以合并为一次通信完成(都是在传输层进行发送,在后面的捎带机制也有讲解),提高了效率,四次握手可以简化为三次握手

三次握手标志位发生的变化

2.四次挥手断开连接

发送方发送断开连接,被接收方接收和应答,接收方会做一些断开前的准备工作.

一般来说FIN是由应用程序发起的,比如调用close()方法,所以是应用层面的,之后接收到发送方ACK应答,服务器就可以释放资源

为什么断开连接四次挥手不能转变为三次?

第一个ACK是操作系统(传输层)实现的TCP应答,第二个FIN是应用程序层面的,这两个操作是有时间差的,大概率是不会合并在一起的.

3.建立和断开连接

服务端状态转化：

[CLOSED -> LISTEN] 服务器端调用listen后进入LISTEN状态，等待客户端连接；
[LISTEN -> SYN_RCVD] 一旦监听到连接请求（同步报文段），就将该连接放入内核等待队列中，并向客户端发送SYN确认报文。
[SYN_RCVD -> ESTABLISHED] 服务端一旦收到客户端的确认报文，就进入ESTABLISHED状态，可以进行读写数据了。
[ESTABLISHED -> CLOSE_WAIT] 当客户端主动关闭连接（调用close），服务器会收到结束报文段，服务器返回确认报文段并进入CLOSE_WAIT；
[CLOSE_WAIT -> LAST_ACK] 进入CLOSE_WAIT后说明服务器准备关闭连接（需要处理完之前的数据）；当服务器真正调用close关闭连接时，会向客户端发送FIN，此时服务器进入
LAST_ACK状态，等待最后一个ACK到来（这个ACK是客户端确认收到了FIN）
[LAST_ACK -> CLOSED] 服务器收到了对FIN的ACK，彻底关闭连接。

客户端状态转化：

[CLOSED -> SYN_SENT] 客户端调用connect，发送同步报文段；
[SYN_SENT -> ESTABLISHED] connect调用成功，则进入ESTABLISHED状态，开始读写数据；
[ESTABLISHED -> FIN_WAIT_1] 客户端主动调用close时，向服务器发送结束报文段，同时进入FIN_WAIT_1；
[FIN_WAIT_1 -> FIN_WAIT_2] 客户端收到服务器对结束报文段的确认，则进FIN_WAIT_2，
开始等待服务器的结束报文段；[FIN_WAIT_2 -> TIME_WAIT] 客户端收到服务器发来的结束报文段，进入TIME_WAIT，并发出LAST_ACK；
[TIME_WAIT -> CLOSED] 客户端要等待一个2MSL（Max Segment Life，报文最大生存时间）的时间，才会进入CLOSED状态。

四.滑动窗口(效率机制)

刚才我们讨论了确认应答策略,对每一个发送的数据段,都要给一个 ACK 确认应答.收到 ACK 后再发送下一个数据段.这样做有一个比较大的缺点,就是性能较差.尤其是数据往返的时间较长的时候.

因此,我们设计了滑动窗口,一次发送特定数目的数据,可以大大提高效率.下面的案例窗口的大小为4,即一次可以发送四条SYN请求,当主机A接收到主机B发送的ACK应答的时候,滑动窗口向下进行移动,此时可以发送下一条的数据(4001--5000).

窗口大小指的是无需等待确认应答而可以继续发送数据的最大值。上图的窗口大小就是4000个字节（四个段）。
发送前四个段的时候，不需要等待任何ACK，直接发送；
收到第一个ACK后，滑动窗口向后移动，继续发送第五个段的数据；依次类推；
操作系统内核为了维护这个滑动窗口，需要开辟发送缓冲区来记录当前还有哪些数据没有应答；只有确认应答过的数据，才能从缓冲区删掉；
窗口越大，则网络的吞吐率就越高；
假设窗口无限大,这个时候就效率就相当于UDP了.

那如果发生了丢包的问题,该如何解决呢?下面还是分两种情况进行考虑.

情况一：数据包已经抵达，ACK被丢了。

这种情况下,部分ACK丢包了不要紧,可以根据后面的ACK进行确定.

比如确定序列为1001的ACK丢包了,但是后面2001的ACK应答被主机A成功接收了,我们可以根据这个应答确定前面的数据(1001)都已经接收了,因为如果没有接收到1--1000数据,序列号不会改变,就不会发送2001的ACK应答.

现实案例:别人问你学历,你说是初中,这说明你已经上过小学了.

考虑一下,如果最后一次ACK丢包,会发生什么情况?这个时候后面已经没有ACK应答了,因此这个时候我们只能触发超时重传完成最后一次的SYN和ACK应答.

情况二：数据包就直接丢了。

当某一段报文段丢失之后，发送端会一直收到 1001 这样的ACK，就像是在提醒发送端 "我想要的是 1001" 一样；
如果发送端主机连续三次收到了同样一个 "1001" 这样的应答，就会将对应的数据 1001 -2000 重新发送；
这个时候接收端收到了 1001 之后，再次返回的ACK就是7001了（因为2001 - 7000）接收端其实之前就已经收到了，被放到了接收端操作系统内核的接收缓冲区中；

这种机制被称为 "高速重发控制"（也叫 "快重传"）。

五.流量控制(效率机制)

主要是确定滑动窗口的大小，通过发送方与接收方动态协商来确认

每个程序在启动的时候都会去申请系统资源,发送和接收方缓冲区就是申请来的资源.

每次进行ACK应答的时候,ACK应答中将剩余空间的大小放在16位窗口大小,表示具体可以接收多少数据,通过接收方反制发送方对窗口大小的限制,发送方不能为了提高效率而无限的扩展窗口的大小.

如果接收方的处理能力比较低,可能会出现缓冲区装满的情况,这个时候窗口的大小变为0,这个时候发送方不能再发送数据给接收.

解决窗口大小问题

那么问题来了， 16 位数字最大表示 65535 ，那么 TCP 窗口最大就是 65535 字节么？

实际上， TCP 首部 40 字节选项中还包含了一个窗口扩大因子 M ，实际窗口大小是窗口字段的值左移 M 位；

六.拥塞控制(安全机制)

虽然TCP有了滑动窗口这个大杀器，能够高效可靠的发送大量的数据。但是如果在刚开始阶段就发送大量的数据，仍然可能引发问题。
因为网络上有很多的计算机，可能当前的网络状态就已经比较拥堵。在不清楚当前网络状态下，贸然发送大量的数据，是很有可能引起雪上加霜的。
TCP引入 慢启动 机制，先发少量的数据，探探路，摸清当前的网络拥堵状态，再决定按照多大的速度传输数据；

发送方第一次发送数据，窗口大小是1
接下来每一次发送数据，窗口大小以指数扩大2 4 8 16
当达到初始阈值时，不再以指数扩大，而是线性的方式增长，每次加1
当窗口达到或个值时，出现了大量的丢包现象，也就是说频繁的出现超时重传，就说明网络出现了堵塞
拥塞窗口的大小直接回到最小值1，新的拥塞窗口阈值也会被调整=当前拥塞窗口值/2
重复1-5步

具体窗口的大小以以下两个因素决定:①接收方缓存区的大小 ②拥塞控制中根据网络的状态确定下来的窗口大小 我们一般取两者的较小值作为实际窗口的大小

少量的丢包，我们仅仅是触发超时重传；大量的丢包，我们就认为网络拥塞；
当TCP通信开始后，网络吞吐量会逐渐上升；随着网络发生拥堵，吞吐量会立刻下降；

拥塞控制，归根结底是TCP协议想尽可能快的把数据传输给对方，但是又要避免给网络造成太大压力的折中方案。

七.延迟应答(效率机制)

如果接收数据的主机立刻返回ACK应答，这时候返回的窗口可能比较小

假设接收端缓冲区为1M。一次收到了500K的数据；如果立刻应答，返回的窗口就是500K；但实际上可能处理端处理的速度很快，10ms之内就把500K数据从缓冲区消费掉了；
在这种情况下，接收端处理还远没有达到自己的极限，即使窗口再放大一些，也能处理过来；
如果接收端稍微等一会再应答，比如等待200ms再应答，那么这个时候返回的窗口大小就是1M；