K8s-网络原理-上篇

news2024/11/29 13:50:17

引言

本文是学习《深入剖析K8s》网络原理部分的学习笔记,相关图片和案例可以从https://github.com/WeiXiao-Hyy/k8s_example获取,欢迎Star!

网络基础

IP组成

IP地址由两部分组成,即网络地址和主机地址。网络地址表示其属于互联网的哪一个网络,主机地址表示其属于该网络中的哪一台主机。二者是主从关系。

网络地址

网络地址用于表示设备所在网络本身。网络号部分不 变,主机号部分为全“0”(二进制)的IP地址称为网络地址。 如主机129.5.1.1(B类)所在网络的网络地址是129.5.0.0。

广播地址

广播地址用于向同一网络中的所有设备进行广播。网络号部分不变,而主机号部分为全“1”(二进制)的IP地址称 为广播地址。

子网和子网掩码

https://hoochanlon.github.io/helpdesk-guide/enhance/net/neta.html

ARP协议

是通过三层的IP地址找到对应的二层MAC地址的协议。

VXLAN

VXLAN 本质上是一种隧道封装技术,它使用 TCP/IP 协议栈的惯用手法“封装/解封装技术”,将 L2 的以太网帧(Ethernet frames)封装成 L4 的 UDP 数据报,然后在 L3 的网络中传输,效果就像 L2 的以太网帧在一个广播域中传输一样,不再受数据中心传输的限制。
相关原理参考 https://thebyte.com.cn/content/chapter1/vxlan.html

K8s 单机容器网络的实现原理

docker0处理转发的过程继续扮演二层交换机的角色。此时,docker0网桥根据数据包的目的MAC地址,在它的CAM表里查到对应的端口为veth42730c,然后把数据包发往该端口,以下是该过程的原理图。

在这里插入图片描述
以下过程是通过iptables的TRACE功能查看数据包的传输过程。

Mar 18 20:39:20 ubun kernel: [1550900.298087] TRACE: raw:PREROUTING:policy:2 IN=docker0 OUT= PHYSIN=veth427f30c MAC=02:42:ac:11:00:03:02:42:ac:11:00:04:08:00 SRC=172.17.0.4 DST=172.17.0.3 LEN=84 TOS=0x00 PREC=0x00 TTL=64 ID=45798 PROTO=ICMP TYPE=0 CODE=0 ID=3 SEQ=6 

Mar 18 20:39:20 ubun kernel: [1550900.298092] TRACE: filter:FORWARD:rule:1 IN=docker0 OUT=docker0 PHYSIN=veth427f30c PHYSOUT=veth53ae888 MAC=02:42:ac:11:00:03:02:42:ac:11:00:04:08:00 SRC=172.17.0.4 DST=172.17.0.3 LEN=84 TOS=0x00 PREC=0x00 TTL=64 ID=45798 PROTO=ICMP TYPE=0 CODE=0 ID=3 SEQ=6 

K8s 容器跨主机网络

overlay network

根据上面的思路,需要在已有的宿主机网络上再通过软件构建一个可以把所有容器连通起来的虚拟网络即虚拟网络,原理如下图所示。

在这里插入图片描述

flannel-UDP后端实现

UDP模式是最早支持的一种方式,也是性能最差的。

环境需求

宿主机Node1上有一个容器container-1,它的IP地址是100.96.1.2,对应的docker0网桥的地址是:100.96.1.1/24。

宿主机Node2上有一个容器container-2,它的IP地址是100.96.2.3,对应的docker0网桥的地址是:100.96.2.1/24。

default via 10.168.0.1 dev eth0
100.96.0.0/16 dev flannel0 proto kernel scope link src 100.96.1.0
100.96.1.0/24 dev docker0 proto kernel scope link src 100.96.1.1
10.168.0.0/24 dev eth0 proto kernel scope link src 10.168.0.2

TUN设备是一种工作在三层(Network Layer)的虚拟网络设备。TUN设备的功能非常简单,即:在操作系统内核和用户应用程序之间传递IP包。

当IP包从容器经过docker出现在宿主机,然后根据路由表进入flannel0设备后,宿主机上的flanneld收到这个包。然后看到这个IP包的DST=100.96.2.3,就将其发送给了Node2宿主机。

子网与宿主机的对应关系,保存在ETCD中

$ etcdctl ls /coreos.com/network/subnets
/coreos.com/network/subnets/100.96.1.0-24
/coreos.com/network/subnets/100.96.2.0-24
/coreos.com/network/subnets/100.96.3.0-24

即flanneld在收到container-1发给container-2的IP包之后,就会把这个IP包直接封装在一个UDP包里,然后发送给Node2。

每台宿主机上的flanneld,都监听着一个8285端口,所以flanneld只要把UDP包发往Node2的8285端口即可。后续解析步骤同单机容器网络的实现原理。

在这里插入图片描述

UDP模式下的性能问题

由下图可以得知UDP模式下的IP包发出,需要经过3次用户态和内核态的切换,从而造成性能的损失。
在这里插入图片描述

flannel-VXLAN实现

VXLAN:虚拟可扩展局域网,其设计思想是,在现有的三层网络之上”覆盖“一层虚拟的,由内核VXLAN模块负责维护的二层网络。

如下图是VXLAN的报文结构图。
图片引用了参考资料3的图片

VXLAN头里的VNI,是VTEP设备识别某个数据帧是否应该归自己处理。

需求: 容器1请求容器4

在这里插入图片描述

为了能将Original Ethernet Frame封装并发送到正确的宿主机上,VXLAN需要找到这条“隧道”的出口。

  1. 当Node2启动并加入flannel网络之后,在其他所有节点上,会添加一条如下的路由规则:
10.1.16.0 10.1.16.0 255.255.255.0 UG 0 0 0 flannel.1

即凡是发送10.1.16.0/24网段的IP包,都需要经过flannel,并且最后发往的网关地址是10.1.16.0。

  1. 当Node2启动时自动添加到Node1上,由第一步的IP信息,可以根据ARP表反查出Node2的MAC地址
10.1.16.0 lladrr 5e.f8.4f.00.e3.37 permanent

在每个节点启动时把它的VTEP设备对应的ARP记录下放到其他每台宿主机。

  1. flannel1.1设备只知道另一端的MAC地址,却不知道对应的宿主机地址。flannel实际上还需要扮演“网桥”。依据FDB(forwarding database)的转发数据库,记录着MAC地址对应的宿主机地址。
5e.f8.4f.00.e3.37 dev flannel1.1 dts 10.168.0.3 self permanent

参考资料

  • https://www.zhihu.com/question/35655547
  • https://book.douban.com/subject/35424872/
  • https://thebyte.com.cn/content/chapter1/vxlan.html
  • https://www.zhihu.com/question/35655547

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1529815.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GB28181视频汇聚EasyCVR平台接入海康Ehome设备,设备在线但是视频无法播放是什么原因?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…

vivado 物理优化约束、交互式物理优化

物理优化约束 Vivado Design Suite在物理优化过程中尊重DONT_TOUCH特性。它不在具有这些属性的网络或小区上执行物理优化。要加快网络选择过程中,具有DONT_TOUCH属性的网络经过预过滤,不被考虑用于物理优化。此外,还遵守Pblock分配&#xff…

MySQL与金蝶云星空对接集成SELECT语句连通销售订单新增(销售订单集成测试)

MySQL与金蝶云星空对接集成SELECT语句连通销售订单新增(销售订单集成测试) ​​ ​​ 数据源系统:MySQL MySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一,在WEB应用方…

Nginx实现原理全解析:构建高效Web服务器的关键

1、Nginx是什么 Nginx(engine X)是一个开源的轻量级的HTTP服务器,能够提供高性能的HTTP和反向代理服务。与传统的Apache服务器相比,在性能上Nginx占用系统资源更小、支持高并发,访问效率更高;在功能上&…

Linux课程_____网络管理

一、查看接口信息 1. ifconfig 查看所有活动网络接口的信息 ifconfig -a 查看所有网络接口信息 ifconfig 直接加网络接口 查看指定网络接口信息 1.1查看指定接口IP [rootlocalhost ~]# ip addr show ens160 1.2设置网络接口的IP地址 # ifconfig eth0 192.168.152.133 …

(一)Linux+Windows下安装ffmpeg

一丶前言 FFmpeg是一个开源的音视频处理工具集,由多个命令行工具组成。它可以在跨平台的环境中处理、转换、编辑和流媒体处理音视频文件。 FFmpeg支持多种常见的音视频格式和编解码器,可以对音视频文件进行编码、解码、转码、剪辑、合并等操作。它具有广…

HQYJ 2024-3-14 作业

TCP通信三次握手和四次挥手: 并行和并发的区别:并发是单核处理器处理多个线程任务,并行是多核处理器同时处理多个线程任务。并发过程中会抢占CPU资源,轮流使用;并行过程不会抢占CPU资源。 阻塞IO和非阻塞IO&#xff…

HarmonyOS开发:超详细介绍如何开源静态共享包,实现远程依赖

前言 当我们开发了一个独立的功能,想让他人进行使用,一般的方式就是开源出去,有源码的方式,也有文件包的形式,当然了也有远程依赖的方式,比如在Android中,我们可以提供源码,也可以打…

开源离线语音识别输入工具CapsWriter v1.0——支持无限时长语音、音视频文件转录字幕。

分享一款开源离线语音识别输入工具,支持无限时长语音、音视频文件转录字幕。 软件简介: CapsWriter是一款免费开源且可完全离线识别的语音输入工具,无需担心因在线版本识别带来的各种隐私泄露问题。支持win7及以上的系统,已经更…

华为中心AP 配置入侵防御实验

配置入侵防御示例 组网图形 图1 入侵防御组网图 组网需求配置思路操作步骤中心AP的配置文件 组网需求 如图1所示,某企业部署了WLAN网络,内网用户可以访问Internet的Web服务器。现需要在中心AP上配置入侵防御功能,具体要求如下: 保…

打印机怎么扫描文件到电脑?正确步骤在这里

在现代办公和生活中,打印机不再仅仅是用于输出纸质文件的工具,它还充当了功能强大的扫描仪,使我们能够方便地将纸质文件数字化并存储到电脑中。 如果您正在寻找如何正确将打印机用作扫描仪,以便轻松地将文件传输到电脑中&#xf…

【征稿进行时|见刊、检索快速稳定】2024年区块链、物联网与复合材料与国际学术会议 (ICBITC 2024)

【征稿进行时|见刊、检索快速稳定】2024年区块链、物联网与复合材料与国际学术会议 (ICBITC 2024) 大会主题: (主题包括但不限于, 更多主题请咨询会务组苏老师) 区块链: 区块链技术和系统 分布式一致性算法和协议 块链性能 信息储存系统 区块链可扩展性 区块…

智能合约语言(eDSL)—— 使用rust实现eDSL的原理

为理解rust变成eDSL的实现原理,我们需要简单了解元编程与宏的概念,元编程被描述成一种计算机程序可以将代码看待成数据的能力,使用元编程技术编写的程序能够像普通程序在运行时更新、替换变量那样操作更新、替换代码。宏在 Rust 语言中是一种功能&#x…

【QT+QGIS跨平台编译】之八十四:【QGIS_Gui跨平台编译】—【错误处理:未实例化QgsMapLayer - QgsHighlight】

文章目录 一、未实例化QgsMapLayer二、错误处理 一、未实例化QgsMapLayer 报错信息: 二、错误处理 第31行修改为: #include "qgsmaplayer.h"

【Web技术应用基础】HTML(2)——文本练习

题目1&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8"><title>HTML链接</title><meta name"description" content"HTML链接知识讲解"><meta name"keywords" content&qu…

(undone) 斯坦福机器学习 讨论课4 (分类器评估指标 TODO:暂时不知道内容是啥)

从标题来看这堂课跟评估指标有关&#xff0c;而且是专门针对分类器的评估指标 如下图&#xff0c;解释了 “为什么 metrics 很重要” 1.训练目标 (成本函数) 仅仅是现实世界目标的一个代理 (proxy) 2.理想的训练目标应该是指标 metric&#xff0c;但这并不总是可能的。metric…

Stability AI 3D:开创3D视觉技术新篇章,提升多视角连贯性与生成质量

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

ASPICE规范之系统追溯矩阵

系统追溯矩阵的需求来自 ISO26262 举例在描述系统追溯矩阵时&#xff1a;客户需求->系统需求&#xff1b;系统需求->客户需求&#xff1b;系统需求->软件需求&#xff1b;系统需求->硬件需求

有实际意义的伦敦金交易策略参考

一谈起有实际意义的伦敦金交易策略参考&#xff0c;很多人以为是讨论的是什么飞天遁地的技术&#xff0c;其实这些都是没有实际意义。对普通投资者来说&#xff0c;什么才是有实际意义的呢&#xff1f;那就是生存。要讨论实际有意义的伦敦金交易策略参考&#xff0c;就是投资者…

【计算机网络_网络层】IP协议

文章目录 1. IP的基本概念1.1 什么是IP协议1.2 为什么要有IP协议 2. IP的协议格式3. 网段划分&#xff08;重要&#xff09;3.1 为什么要进行网段划分3.2 网段划分的规则3.2.1 古老的划分方案3.2.2 现代的划分方案 4. 特殊的IP地址5. 解决IP地址的数量限制问题6. 私有IP和公网I…