本系列文章为《TCP/IP网络编程----尹圣雨》学习笔记,前面的系列文章链接如下
TCP/IP网络编程:P1->理解网络编程和套接字
TCP/IP网络编程:P2->套接字类型与协议设置
TCP/IP网络编程:P3->地址族与数据序列
TCP/IP网络编程:P4->基于TCP的服务器端/客户端(上)
TCP/IP网络编程:P5->基于TCP的服务器端/客户端(下)
文章目录
- 一、理解UDP
- 1.1 UDP套接字的特点
- 1.2 UDP内部工作原理
- 1.3 UDP的高效使用
- 二、实现基于UDP的服务器端/客户端
- 2.1 UDP中的服务器端和客户端没有连接
- 2.2 UDP服务器端和客户端均只需1个套接字
- 2.3 基于UDP的数据I/O函数
- 2.4 基于UDP的回声服务器端/客户端
- 2.4.1 服务器端代码
- 2.4.2 客户端代码
- 2.5 UDP客户端套接字的地址分配
- 三、存在数据边界的UDP套接字
- 3.1 存在数据边界的UDP套接字
- 3.2 已连接(connected)UDP套接字与未连接(unconnected)UDP套接字
- 3.3 创建已连接UDP套接字
一、理解UDP
我们在第4章学习TCP的过程中,还同时了解了TCP/IP协议栈。在4层TCP/IP模型中,上数第二层传输(Transport)层分为TCP和UDP这2种。数据交换过程可以分为通过TCP套接字完成的TCP方式和通过UDP套接字完成的UDP方式。
1.1 UDP套接字的特点
UDP概述
信件与UDP
下面通过信件说明UDP的工作原理,这是讲解UDP时使用的传统示例,它与UDP特性完全相符。寄信前应先在信封上填好寄信人和收信人的地址,之后贴上邮票放进邮筒即可。
----信件的特点使我们无法确认对方是否收到。
----邮寄过程中也可能发生信件丢失的情况。
也就是说,信件是一种不可靠的传输方式。与之类似,UDP提供的同样是不可靠的数据传输服务。
问题: 既然如此,TCP应该是更优质的协议吧?
答: 如果只考虑可靠性,TCP的确比UDP好。
①但UDP的结构上比TCP更简洁。UDP不会发送类似ACK的应答消息,也不会像SEQ那样给数据包分配序号。因此,UDP的性能有时比TCP高出很多。编程中实现UDP也比TCP简单。
②另外,UDP的可靠性虽比不上TCP,但也不会像想象中那么频繁地发生数据损毁。因此,在更重视性能而非可靠性的情况下,UDP是一种很好的选择。
③为了提供可靠的数据传输服务,TCP在不可靠的IP层进行流控制,而UDP就缺少这种流控制机制。
问题: UDP和TCP的差异只在于流控制机制吗?
答: 是的,流控制是区分UDP和TCP的最重要的标志。若从TCP中除去流控制,所剩内容也屈指可数。也就是说,TCP的生命在于流控制。第5章讲过的与对方套接字连接及断开连接过程也属于流控制的一部分。
提示
虽然电话比信件要快,但是…
我把TCP比喻为电话,把UDP比喻为信件。但这只是形容协议工作方式,并没有包含数据交换速率。
----请不要误认为“电话的速度比信件快,因此TCP的数据收发速率也比UDP快”。实际上正好相反。
----TCP的速度无法超过UDP,但在收发某些类型的数据时有可能接近UDP。例如,每次交换的数据量越大,TCP的传输速率就越接近UDP的传输速率。
1.2 UDP内部工作原理
UDP内部工作原理
与TCP不同,UDP不会进行流控制,接下来具体讨论UDP的作用:
从图中可以看出,IP的作用就是让离开主机B的UDP数据包准确传递到主机A。但把UDP包最终交给主机A的的某一UDP套接字的过程则是由UDP完成的。UDP最重要的作用就是根据端口号将传到主机的数据包交付给最终的UDP套接字。
1.3 UDP的高效使用
何时使用UDP更有效
虽然貌似大部分网络编程都基于TCP实现,但也有一些是基于UDP实现的。讲解前希望各位明白,UDP也具有一定的可靠性。
----网络传输特性导致信息丢失频发,可若要传递压缩文件(发送1万个数据包时,只要丢失1个就会产生问题),则必须使用TCP,因为压缩文件只要丢失一部分就很难解压。
----但通过网络实时传输视频或音频时的情况有所不同。对于多媒体数据而言,丢失一部分也没有太大问题,这只会引起短暂的画面抖动或出现细微的杂音。但因为需要提供实时服务,速度就成为非常重要的因素。因此,第5章的流控制就显得有些多余,此时需要考虑使用UDP。
但UDP并非每次都快于TCP,TCP比UDP慢的原因通常有以下两点:
①收发数据前后进行的连接设置及清除过程。
②收发数据过程中为保证可靠性而添加的流控制
因此,如果收发的数据量小但需要频繁连接时,UDP比TCP更高效。
二、实现基于UDP的服务器端/客户端
2.1 UDP中的服务器端和客户端没有连接
UDP服务器端/客户端不像TCP那样在连接状态下交换数据,因此与TCP不同,无需经过连接过程。也就是说,不必调用TCP连接过程中调用的listen函数和accept函数。UDP中只有创建套接字的过程和数据交换的过程。
2.2 UDP服务器端和客户端均只需1个套接字
①TCP中,套接字之间应该是一对一关系。若要向10个客户端提供服务,则除了守门的服务器套接字外,还需要10个服务器端套接字。
②但在UDP中,不管是服务器端还是客户端都只需要1个套接字。之前解释UDP原理时举了信件的例子,收发信件时使用的邮筒可以比喻为UDP套接字。只要附近有1个邮筒,就可以通过它向任意地址寄出信件。同样只需1个UDP套接字就可以向任意主机传输数据。
UDP套接字数据交换过程
下图展示了1个UDP套接字与2个不同主机交换数据的过程。也就是说,只需1个UDP套接字就能和多台主机通信。
2.3 基于UDP的数据I/O函数
- 创建好TCP套接字后,传输数据时无需再添加地址信息。因为TCP套接字将保持与对方套接字的连接。换言之,TCP套接字知道目标地址信息。
- 但UDP套接字不会保持连接状态(UDP只有简单的邮筒功能),因此每次传输数据都要添加目标地址信息。这相当于寄信前在信件中填写地址。
填写地址并传输数据时调用的UDP相关函数:
#include<sys/socket.h>
ssize_t sendto(int sock, void *buff, size_t nbytes, int flags, struct sockaddr * to, socklen_t addrlen);
//成功时返回传输的字节数,失败时返回-1。
//参数1:sock,用于传输数据的UDP套接字文件描述符
//参数2:buff,保存待传输数据的缓冲地址值。
//参数3:nbytes,待传输的数据长度,以字节为单元。
//参数4:flags,可选项参数,若没有则传递0。
//参数5:to,存有目标地址信息的sockaddr结构体变量的地址值。
//参数6:addrlen,传递给参数to的地址值结构体变量长度。
上述函数与之前的TCP输出函数最大的区别在于,此函数需要向它传递目标地址信息。
接收UDP数据的函数:
#include<sys/socket.h>
ssize_t recvfrom(int sock, void * buff, size_t nbytes, int flags, struct sockaddr * from, socklen_t * addrlen);
//成功时返回接收的字节数,失败时返回-1。
//参数1:sock,用于将接受数据的UDP套接字文件描述符
//参数2:buff,保存接收数据的缓冲地址值。
//参数3:nbytes,可接收的最大字节数,故无法超过参数buff所指的缓冲大小。
//参数4:flags,可选项参数,若没有则传入0。
//参数5:from,存有发送端地址信息的sockaddr结构体变量的地址。
//参数6:addrlen,保存参数from的结构体变量长度的变量地址值。
UDP数据的发送端并不固定,因此该函数定义为可接受发送端信息的形式,也就是将同时返回UDP数据包中的发送端信息。
2.4 基于UDP的回声服务器端/客户端
2.4.1 服务器端代码
注意: UDP不同于TCP,不存在请求连接和受理过程,因此在某种意义上无法明确区分服务器端和客户端。只是因其提供服务而称为服务器端,请不要误解。
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<unistd.h>
#include<arpa/inet.h>
#include<sys/socket.h>
#define BUF_SIZE 30
void error_handling(char * message);
int main(int argc, char *argv[])
{
int serv_sock;
char message[BUF_SIZE];
int str_len;
socklen_t clnt_adr_sz;
struct sockaddr_in serv_adr, clnt_adr;
if(argc != 2){
printf("Usage: %s <port>\n", argv[0]);
exit(1);
}
serv_sock = socket(PF_INET, SOCK_DGRAM, 0); // 为了创建UDP套接字,第二个参数传递SOCK_DGRAM
if(serv_sock == -1)
error_handling("UDP socket creation error");
memset(&serv_adr, 0, sizeof(serv_adr));
serv_adr.sin_family = AF_INET;
serv_adr.sin_addr.s_addr = htonl(INADDR_ANY);
serv_adr.sin_port = htons(atoi(argv[1]));
if(bind(serv_sock, (struct sockaddr*)&serv_adr, sizeof(serv_adr)) == -1)
error_handling("bind() error");
while(1)
{
clnt_adr_sz = sizeof(clnt_adr);
str_len = recvfrom(serv_sock, message, BUF_SIZE, 0, //利用33行分配的地址接收数据,不限制数据传输对象。
(struct sockaddr*)&clnt_adr, &clnt_adr_sz);
sendto(serv_sock, message, str_len, 0, //通过第39行的函数调用同时获取数据传输端的地址。正是利用该地址将接收的数据逆向重传
(struct sockaddr*)&clnt_adr, clnt_adr_sz);
}
close(serv_sock); //第36行的while内部从未加入break语句,因此是无限循环。也就是说,close函数不会执行,没有太大意义。
return 0;
}
void error_handling(char * message)
{
fputs(message, stderr);
fputc('\n', stderr);
exit(1);
}
编译运行,等待客户端的消息。
2.4.2 客户端代码
UDP客户端代码与TCP客户端代码不同,不存在connect函数调用。
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<unistd.h>
#include<arpa/inet.h>
#include<sys/socket.h>
#define BUF_SIZE 30
void error_handling(char * message);
int main(int argc, char * argv[])
{
int sock;
char message[BUF_SIZE];
int str_len;
socklen_t adr_sz;
struct sockaddr_in serv_adr, from_adr; //第18行:创建UDP套接字。现在只需调用数据收发函数。
if(argc != 3)
{
printf("Usage : %s <IP> <port>\n", argv[0]);
exit(1);
}
sock = socket(PF_INET, SOCK_DGRAM, 0);
if(sock == -1)
error_handling("socket() error");
memset(&serv_adr, 0, sizeof(serv_adr));
serv_adr.sin_family = AF_INET;
serv_adr.sin_addr.s_addr = inet_addr(argv[1]);
serv_adr.sin_port = htons(atoi(argv[2]));
while(1)
{
fputs("Insert messgae(q) to quit): ", stdout);
fgets(message, sizeof(message), stdin);
if(!strcmp(message, "q\n") || !strcmp(message, "Q\n"))
break;
sendto(sock, message, strlen(message), 0,
(struct sockaddr*)&serv_adr, sizeof(serv_adr)); //向服务器端传输数据
adr_sz = sizeof(from_adr);
str_len = recvfrom(sock, message, BUF_SIZE, 0,
(struct sockaddr*)&from_adr, &adr_sz); //接收数据
message[str_len] = 0;
printf("Message from server: %s", message);
}
close(sock);
return 0;
}
void error_handling(char * message)
{
fputs(message, stderr);
fputc('\n', stderr);
exit(1);
}
编译运行,向服务器端发送信息。运行过程中的顺序并不重要。只需保证在调用sendto函数前,sendto函数的目标主机程序已经开始运行。
问题
如果各位很好地理解了第4章的connect函数,那么读上述代码时应有如下疑问:
问: TCP客户端套接字在调用connect函数是自动分配IP地址和端口号。既然如此,UDP客户端何时分配IP地址和端口号?
答: 所有套接字都应分配IP地址和端口,问题是直接分配还是自动分配,之后将会讨论到。
2.5 UDP客户端套接字的地址分配
问题: 如果仔细观察UDP客户端会发现,它缺少把IP和端口分配给套接字的过程。TCP客户端调用connect函数自动完成此过程,而UDP中连能承担相同功能的函数调用语句都没有。究竟在何时分配IP和端口号呢?
答:
----UDP程序中,客户端调用sendto函数传输数据前,服务器端应完成对套接字的地址分配工作,因此调用bind函数。当然,bind函数再TCP程序中出现过,但bind函数不区分TCP和UDP。也就是说,在UDP程序中同样可以调用。
----另外,如果调用sendto函数时发现尚未分配地址信息,则在首次调用sendto函数时给相应套接字自动分配IP和端口。而且此时分配的地址一直保留到程序结束为止,因此也可用来与其他UDP套接字进行数据交换。
----综上所述,调用sendto函数时自动分配IP和端口号,因此,UDP客户端中通常无需额外的地址分配过程。所以之前示例中省略了该过程,这也是普遍的实现方式。
三、存在数据边界的UDP套接字
我们之前通过示例验证了TCP传输的数据不存在数据边界,本节将验证UDP数据传输中存在数据边界。最后讨论UDP中connect函数的调用,以此结束UDP相关讨论。
3.1 存在数据边界的UDP套接字
前言
前面说过TCP数据传输中不存在边界,这表示
数据传输过程中调用I/O函数的次数不具有任何意义
。相反,UDP是具有数据边界的协议,传输中调用I/O函数的次数非常重要。因此,输入函数的调用次数应和输出函数的调用次数完全一致,这样才能保证接收全部已发送的数据。例如,调用3次输出函数发送的数据必须通过调用3次输入函数才能接收完。下面通过简单示例进行验证。
host1:
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<unistd.h>
#include<arpa/inet.h>
#include<sys/socket.h>
#define BUF_SIZE 30
void error_handling(char * message);
int main(int argc, char * argv[])
{
int sock;
char message[BUF_SIZE];
struct sockaddr_in my_adr, your_adr;
socklen_t adr_sz;
int str_len, i;
if(argc != 2){
printf("Usage: %s <port>\n", argv[0]);
exit(1);
}
sock = socket(PF_INET, SOCK_DGRAM, 0);
if(sock == -1)
error_handling("socket() error");
memset(&my_adr, 0, sizeof(my_adr));
my_adr.sin_family = AF_INET;
my_adr.sin_addr.s_addr = htonl(INADDR_ANY);
my_adr.sin_port = htons(atoi(argv[1]));
if(bind(sock, (struct sockaddr*)&my_adr, sizeof(my_adr)) == -1 )
error_handling("bind() error");
for(i = 0; i < 3; i++)
{
sleep(5); //delay 5 sec.
adr_sz = sizeof(your_adr);
str_len = recvfrom(sock, message, BUF_SIZE, 0,
(struct sockaddr*)&your_adr, &adr_sz);
printf("Message %d: %s \n", i + 1, message);
}
close(sock);
return 0;
}
void error_handling(char * message)
{
fputs(message, stderr);
fputc('\n', stderr);
exit(1);
}
该示例中需要各位特别留意的是第30行中的for语句。首先在第32行中调用sleep函数,使程序停顿时间等于传递来的时间(以秒为单位)参数。也就是说,第30行的for循环中每隔5秒调用1次recvfrom函数。另外还添加了验证函数调用次数的语句。稍后再讲解延迟执行程序的原因。
host2:该示例向上面的bound_host1.c传输数据,共调用sendto函数3次以传输字符串数据。
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
#include <arpa/inet.h>
#include <sys/socket.h>
#define BUF_SIZE 30
void error_handling(char * message);
int main(int argc, char * argv[])
{
int sock;
char msg1[] = "Hi!";
char msg2[] = "I'm another UDP host!";
char msg3[] = "Nice to meet you";
struct sockaddr_in your_adr;
socklen_t you_adr_sz;
if(argc != 3)
{
printf("Usage: %s <IP> <port>\n", argv[0]);
exit(1);
}
sock = socket(PF_INET, SOCK_DGRAM, 0);
if(sock == -1)
error_handling("sock() error");
memset(&your_adr, 0, sizeof(your_adr));
your_adr.sin_family = AF_INET;
your_adr.sin_addr.s_addr = inet_addr(argv[1]);
your_adr.sin_port = htons(atoi(argv[2]));
sendto(sock, msg1, sizeof(msg1), 0, (struct sockaddr*)&your_adr,
sizeof(your_adr));
sendto(sock, msg2, sizeof(msg2), 0, (struct sockaddr*)&your_adr,
sizeof(your_adr));
sendto(sock, msg3, sizeof(msg3), 0, (struct sockaddr*)&your_adr,
sizeof(your_adr));
close(sock);
return 0;
}
void error_handling(char * message)
{
fputs(message, stderr);
fputc('\n', stderr);
exit(1);
}
bound_host2.c程序3次调用sendto函数以传输数据,bound_host1.c则调用3次recvfrom函数以接收数据。recvfrom函数调用间隔为5秒,因此,调用recvfrom函数前已经调用3次sendto函数。也就是说,此时数据已经传输到bound_host1.c。如果是TCP程序,这时只需调用1次输入函数即可读入数据。UDP则不同,在这种情况下也要调用3次recvfrom函数。可以通过以下运行结果进行验证。
编译运行bound_host1.c:
编译bound_host2.c
此时bound_host1.c的运行结果如下:
从运行结果来看,可以看出共调用了3次recvfrom函数。这就证明必须在UDP通信过程中使用I/O函数调用次数保持一致。
UDP数据报
UDP套接字传输的数据包又称数据报,实际上数据报也属于数据包的一种。只是与TCP包不同,其本身可以成为1个完整数据。这与UDP的数据传输特性有关,UDP中存在数据边界,1个数据包即可成为1个完整数据,因此称为数据报。
3.2 已连接(connected)UDP套接字与未连接(unconnected)UDP套接字
TCP套接字中需注册待传输数据的目标IP和端口,而UDP中则无需注册。因此,通过sendto函数传输数据的过程大致可分为以下3个阶段:
- 第1阶段:向UDP套接字注册目标IP和端口号
- 第2阶段:传输数据。
- 第3阶段:删除UDP套接字中注册的目标地址信息。
每次调用sendto函数时重复上述过程。每次都要变更目标地址,因此可以重复利用同一UDP套接字向不同目标传输数据。这种未注册目标信息的套接字称为未连接套接字,反之,注册了目标地址的套接字称为连接connected套接字。显然,UDP套接字默认属于未连接套接字。但UDP套接字在下述情况下显得不太合理:
----IP为211.210.147.82的主机82号端口共准备了3个数据,调用3次sendto函数进行传输。
此时需重复3次上述三个阶段。因此,要与同一主机进行长时间通话时,将UDP套接字变成已连接套接字会提高效率。上述三个阶段中,第一个和第三个阶段占整个通信过程近1/3的时间,缩短这部分时间将大大提高整体性能。
3.3 创建已连接UDP套接字
创建已连接UDP套接字的过程格外简单,只需针对UDP套接字调用connect函数。
sock = socket(PF_INET, SOCK_DGRAM, 0);
memset(&adr, 0, sizeof(adr));
adr.sin_family = AF_INET;
adr.sin_addr.s_addr = ......
adr.sin_adr_port = ......
connect(sock, (struct sockaddr*)&adr, sizeof(adr));
- 上述代码看似与TCP套接字创建过程一致,但socket函数的第二个参数分明是SOCK.DGRAM。也就是说,创建的的确是UDP套接字。当然,针对UDP套接字调用connect函数并不意味着要与对方UDP套接字连接,这只是向UDP套接字注册目标IP和端口信息。
- 之后就与TCP套接字一样,每次调用sendto函数时只需传输数据。因为已经指定了收发对象,所以不仅可以使用sendto、recvfrom函数,还可以使用write、read函数进行通信。
- 下列示例将之前的uecho_client.c程序改成基于已连接UDP套接字的程序,因此可以结合uecho_server.c程序运行。另外,为便于说明,未直接删除uecho_client.c的IO函数,而是添加了注释。
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<unistd.h>
#include<arpa/inet.h>
#include<sys/socket.h>
#define BUF_SIZE 30
void error_handling(char * message);
int main(int argc , char * argv[])
{
int sock;
char message[BUF_SIZE];
int str_len;
socklen_t adr_sz;
struct sockaddr_in serv_adr, from_adr;
if(argc != 3){
printf("Usage: %s <IP> <port>\n", argv[0]);
exit(1);
}
sock = socket(sock, SOCK_DGRAM, 0);
if(sock == -1)
error_handling("socket() error");
memset(&serv_adr, 0, sizeof(serv_adr) );
serv_adr.sin_family = AF_INET;
serv_adr.sin_addr.s_addr = inet_addr(argv[1]);
serv_adr.sin_port = htons(atoi(argv[2]));
connect(sock, (struct sockaddr*)&serv_adr, sizeof(serv_adr));
while(1)
{
fputs("Insert message(q to quit): ", stdout);
fgets(message, sizeof(message), stdin);
if(!strcmp(message, "q\n") || !strcmp(message, "Q\n"))
break;
/*
sendto(sock, message, strlen(message), 0,
(struct sockaddr*)&serv_adr, sizeof(serv_adr));
*/
write(sock, message, strlen(message));
/*
adr_sz = sizeof(from_adr);
str_len = recvfrom(sock, message, BUF_SIZE, 0,
(struct sockaddr*)&from_adr, &adr_sz);
*/
str_len = read(sock, message, sizeof(message) - 1);
message[str_len] = 0;
printf("Message from server: %s",message);
}
close(sock);
return 0;
}
void error_handling(char * message)
{
fputs(message, stderr);
fputc('\n', stderr);
exit(1);
}