智能网卡在分布式 SDN 网络的应用与实践 | 龙蜥技术

news2025/1/11 20:52:10

编者按:当前智能网卡能够加速数据处理和传输,并能实现网络、存储和安全等功能卸载,在云计算领域得到广泛的应用。今天,浪潮数据云计算网络架构师王培辉带大家了解智能网卡加速原理和以及在浪潮分布式 SDN 网络加速的应用,深入理解智能网卡加速虚拟化网络的基本原理。本文整理自龙蜥大讲堂第 79 期,以下为本次分享内容:

图片

01  SDN 技术回顾

SDN 技术从提出到发展至今将近 20 年的时间,目前 SDN 相关解决方案和产品已经大规模落地和应用,虽然不同厂商在各自的 SDN 解决方案实现上有一定差异,但是在业界关于 SDN 相关技术特点或者理念上基本一致的:

  • 控制业务逻辑与转发逻辑分离。

  • 集中控制。

  • 支持 API 的可编程。

图片

当前主要的 SDN 网络方案

网络 Overlay:网络 Overlay 一般是硬件解决方案,是指 Overlay 隧道封装在物理交换机上完成,通过控制边缘设备交换机完成网络的构建与扩展。这种方案一般性能和可靠性较高,但是因为需要采用 SDN 专用设备,成本上一般相对较高;再一个是因为网络 Overlay 的方案不够贴近云端,也即虚拟机、容器等云资源产生的网络 I/O,外部物理交换机是看不到的,所以容易产生发卡流量,也没有办法直接卸载网络 I/O 进行加速。

主机 Overlay:主机 Overlay 一般是软件解决方案,是指 Overlay 隧道封装的处理在主机内部的 vSwitch 完成,通过 vSwitch 完成 Overlay 网络的构建。这种方案一般灵活性比较高并且 vSwith 贴近云资源,能够比较容易做一些针对性的优化和卸载工作,但是因为流量转发是依靠软件处理,所以性能相对会比较差一些。

图片

02  智能网卡发展概述

随着云计算和数据中心的不断发展,智能网卡的发展基本可以分为三个阶段:

  • 基础网卡:网络功能相对简单,支持一些 TSO、LRO、网卡多队列等特性,协助加速报文处理,这类网卡目前在数据中心仍然有比较广泛的采用。

  • 第一代智能网卡:除了基础网卡的功能外,具备了一些硬件卸载的特性,比如 OVS 流表的卸载以及 RDMA 加速的功能,能够基于网卡硬件的特性加速报文和数据处理,卸载数据面的业务,对业务进行加速。

  • 第二代智能网卡:一般是具有 SOC 系统,通用处理器对控制面处理,具备更高的灵活性,数据面可以由其他专用芯片来处理。可以将控制面和数据面全部卸载到智能网卡中,并且具有更多的硬件加速功能,比如加解密、解压缩等。

图片

智能网卡的发展为云计算网络来的变革:

  • 可以将原本由专用硬件设备处理的功能,放在智能网卡上进行处理,达到与硬件设备处理相媲美的性能。

  • 可以针对虚拟机、容器的网络 I/O 进行卸载加速,降低 CPU 在系统任务上的消耗。

  • 增加云资源的灵活性和弹性,满足业务快速上线的需求。

图片

03  智能加速原理

当前智能网卡卸载网络的主要方式通过卸载 OVS 流表,目前卸载 OVS 流表有两种接口方式:

1. 基于 TC Flower 接口的方式,ovs-vswitchd 通过将 openflow 转换为 TC flower,网卡驱动程序将 tc flower 规则转换为对应硬件转发表项,涉及内核模块和驱动开发,upstream 更新较慢。不过,目前内核对这一块支持已经比较完善。

2. 基于 Rte-Flow 接口的方式,ovs-vswitchd 通过将 openflow 转换为 rte flow,网卡 PMD 驱动程序将 rte flow 规则转换为对应硬件转发表项,用户态开发,upstream 更新较快。但这种方式需要开启大页、CPU 绑定等,有一定使用成本。

Datapath 转发原理

相对于普通 OVS 内核转发模式,基于 TC Flower 接口卸载的方式相当于增加了一层硬件数据转发面。原理如下图所示,当收到一条流的首包时,由于智能网卡硬件没有对应的转发表,会上送给内核 ovs datapath 模块查找转发表,对于首包 ovs datapath 也没有对应的转发表, OVS 内核会执行 upcall 将报文上送到用户态去查找流表,ovs-vswitchd 根据上送的报文查找对应的流表,生成相应的转发表项,下发给硬件 OVS,后续的报文转发就直接在硬件 OVS 转发完成处理。

图片

Offload 规则下发流程

Offload 规则下发的流程与上节所述类似,卸载规则的下发依赖业务流的首包触发,当首包到达智能网卡硬件时,由于没有转发规则,上送内核 OVS,内核 OVS 依然查不到转发规则,则报文上送 OVS 用户态,ovs-vswitchd 通过查找用户态 OpenFlow 流表,同时 OVS 会判断是否开启了 Hardware Offload 配置选项,如果开启则需要将 OpenFlow 转发规则转换为 TC Flower 规则走 netlink 通道下发到内核模块,内核 TC 模块会通过驱动注册的对应钩子函数将转发规则通过驱动程序下发到底层智能网卡中,后续报文转发则直接在智能网卡硬件匹配转发进行流量转发,这样就完成了 OVS 流表卸载规则的下发。

图片

TC 规则的下发注意事项

TC 规则下发到硬件设备的条件:

  • 卸载硬件是否 enable NETIF_F_HW_TC 标记,可以通过如下命令打开。

# ethtool -K eth0 hw-tc-offload on
# ethtool -K eth0 hw-tc-offload off
  • 设备驱动是否注册实现了 ndo_setup_tc 函数。

  • Ovs 是开启了 hw-offload,以及 tc-policy 策略。

ovs-vsctl set Open_vSwitch . other_config:hw-offload=true
tc-policy策略
none: add software rule and offload rule to HW.
skip_sw: offload rule to HW only.
skip_hw: add software rule without offloading rule to HW

满足以上配置的网卡,并不一定就能支持 OVS 卸载,只是能够下发 TC 规则,支持 OVS 卸载主要看是否支持 Tunnel 加解封装和报文在硬件查表转发。

在实际使用中,因为 OVS TC 规则控制粒度比较粗,对不支持卸载规则的网卡最好关闭相应的 NETIF_F_HW_TC 特性。

04  浪潮数据在智能网卡应用与实践

浪潮数据在 2020 年就已经在业内率先发布了基于智能网卡的分布式 SDN 解决方案 SmartFlow,将专用算力的负载,例如将网络、存储等 I/O 密集负载卸载到智能加速卡处理,为虚拟机、容器、裸金属等计算资源加速。通过将分布式 SDN 系统构建在智能加速卡之上,为用户提供灵活可编程、高性能且成本更有优势的网络解决方案

图片

SmartFlow 软件架构

  • 控制平面集群进行业务逻辑的处理以及提供标准 API。

  • vBGP 集群负载 BGP 路由和 OpenFlow 流表的转换。

  • 本地控制器负责根据逻辑资源计算 OpenFlow 流表。

  • 数据平面 OVS 通过 TC Flower 接口进行硬件卸载规则的下发

图片

SmartFlow 异构多云大二层解决方案

SmartFlow 通过融合标准 MP-BGP 协议,提供独具特色的标准可扩展的异构多云网络互连互通的解决方案。

1、抽象设计转发模型,融合 EVPN 与 OpenFlow 协议,支持 EVPN 路由与 OpenFlow 流表的互相转换。

2、支持标准的对称转发模式,能够兼容业内 IRB 流量转发模型,兼容第三方硬件或软件交换机对接。

3、通过 EVPN 同步转发表项,使 SmartFlow 在多站点网络互连互通解决方案中拥有良好的扩展性。

图片

性能指标

通过将网络流量从 Open vSwitch 卸载到 SmartFlow 智能网卡,推进对 CPU 算力极大需求的数据包进行封装、解封装、校验、加解密等操作并下沉到智能网卡。通过智能网卡的加速,可以看到 Overlay 性能在 25G 链路上相比软件转发提升了 8 倍左右,报文转发的延时有大幅下降,一般业务报文延时小于 25us,64K 大包转发延时稳定在 60us 以下。

图片

关于直播课件及视频回放获取方式:

【PPT 课件获取】:关注微信公众号(OpenAnolis),回复“龙蜥课件” 即可获取。有任何疑问请随时咨询龙蜥助手—小龙(微信:openanolis_assis)。

【视频回放】:视频回放可在龙蜥视频号(账号:龙蜥社区_小龙)或龙蜥官网 https://openanolis.cn/video 查看。

——完——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/751711.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

我连夜咨询了30个老同学,学IT上培训班到底有用么?

文章目录 一、背景二、学习IT上培训班的益处2.1 IT行业本身还不错2.2 获取到系统的专业知识2.3 获取到实战经验2.4 获取到网络资源和支持2.5 获取到职业发展指导2.6 建立初步的职业圈子人脉 三、学习IT上培训班的风险3.1 质量风险3.2 课程更新速度风险3.2 缺乏互动与实践机会风…

积分微分电路

积分微分电路 通过写出时域的推导,再到频域,详细介绍了积分微分的频率响应的推导,手绘了bode图,并仿真电路得到对应的结果。积分的频率响应:频率增加10倍,增益下降20db。输出相位超前输入相位90度。微分的…

GPT-4 最强竞争对手,Claude 杀疯了!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 在今年早些时候,ChatGPT、Bard、Claude 等大语言模型,在 AI 领域呈三权鼎立之势,无人能出其右,被视为是能力表现最为卓越的 3 款 AI 聊天机器…

阿里云无影云电脑具体价格_云桌面不同配置1元报价

阿里云无影云电脑配置费用,4核8G企业办公型云电脑可以免费使用3个月,无影云电脑地域不同费用不同,无影云电脑是由云桌面配置、云盘、互联网访问带宽、AD Connector、桌面组共用桌面session等费用组成,阿里云百科分享阿里云无影云电…

大模型的“第一性原理”:技术创新与社会价值的接轨

随着时间来到2023年第三季度,国产大模型已经达到100多个,“百模大战”正式开启。 大模型,我们有了很多选择,也开始呈现出某种同质化。除了拼参数、比背景、看榜单,有没有其他方法,让我们更好地判断一个大模…

解决Gson解析json字符串,Integer变为Double类型的问题

直接上代码记录下。我代码里没有Gson包,用的是nacos对Gson的封装,只是包不同,方法都一样 import com.alibaba.nacos.shaded.com.google.common.reflect.TypeToken; import com.alibaba.nacos.shaded.com.google.gson.*;import java.util.Map;…

经典CNN(一):ResNet-50算法实战与解析

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者:K同学啊|接辅导、项目定制 1 ResNet理论 深度残差网络ResNet(deep residual network)在2015年由何凯明等提出,因为它简单与实用并存,随后很多研究…

Hutool工具类 -集常用工具类为一体 - 工具类之大成

文章目录 说在前面的话简介gitee介绍项目介绍 网址gtiee 网址github 网址 安装pom依赖引入 :下载jar 文档中文文档中文备用文档参考API视频介绍 部分截图首页包含组件(总)IO流相关部分工具类(Util)集合类HTTP客户端 功能不再一一赘述和截图,具体请查看官…

详解TCP协议

TCP协议段格式 序号和确认序号:在真实服务器和客服端通信过程中请求是并行执行的,这会导致到达是乱序的,所以才会有序号这个东西,确认序号是对方应答时返回的,例如序号发送到1,确认序号会返回2,…

计算机网络 day6 arp病毒 - ICMP协议 - ping命令 - Linux手工配置IP地址

目录 arp协议 arp病毒\欺骗 arp病毒的运行原理 arp病毒产生的后果: 解决方法: ICMP协议 ICMP用在哪里? ICMP协议数据的封装过程 ​编辑 为什么icmp协议封装好数据后,还要加一个ip包头,再使用ip协议再次进…

springboot农机电招平台

本系统为了数据库结构的灵活性所以打算采用MySQL来设计数据库,而java技术,B/S架构则保证了较高的平台适应性。本文主要介绍了本系统的开发背景,所要完成的功能和开发的过程,主要说明了系统设计的重点、设计思想。 本系统主要是设…

关于java垃圾回收的小结

一、为什么要有垃圾回收 我们每次创建对象都需要在栈上开辟空间,堆上使用内存,如果我们只是开辟了这个空间,而不去释放他,那么再大的内存和空间也会有满的一天,所以我们在Java中引入了GC(垃圾回收机制&…

Foxit PDF ActiveX 5.9.8 Crack

Foxit PDF SDK ActiveX 即时添加PDF显示功能至Windows应用程序,快速投放市场,可视化编程组件功能强大且易于使用的PDF软件开发工具包 对于刚接触PDF或不愿投入过多精力学习PDF技术的产品管理者及开发者来说,Foxit PDF SDK ActiveX无疑是理想…

中国1km分辨率逐月平均气温数据集(1901-2022)

时间分辨率月空间分辨率1km - 10km共享方式开放获取数据大小9.71 GB数据时间范围 1901.1-2022.12 数据集摘要 该数据为中国逐月平均温度数据,空间分辨率为0.0083333(约1km),时间为1901.1-2022.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的…

对Vue组件化开发思想的一些理解

目录 组件的分类 为什么需要组件化开发 如何设计组件 组件间通信 组件系统是 Vue的一个重要概念,让我们可以用独立可复用的小组件来构建大型应用。几乎任意类型的应用的界面都可以抽象为一个组件树: 写一个 Vue 项目,其实就是在写一个个的…

接口测试 react+unittest+flask 接口自动化测试平台

目录 1 前言 2 框架 2-1 框架简介 2-2 框架介绍 2-3 框架结构 3 平台 3-1 平台组件图 1 新建用例 2 生成测试任务 3 执行并查看测试报告 3-2 用例管理 3-2-1 用例设计 3-3 任务管理 3-3-1 创建任务 3-3-2 执行任务 3-3-3 测试报告 3-3-4 邮件通知 1 前言 构建…

idea新建xml模板设置,例如:mybatis-config

在idea怎么新建mapper.xml文件&#xff0c;具体操作步骤和结果如下&#xff0c;其他文件也是可以自定义模板的流程和步骤一致&#xff01; 效果如下&#xff1a; 步骤如图&#xff1a; step1&#xff1a; step2&#xff1a; 文件内容&#xff1a; <?xml version"…

Android.mk 文件使用解析

和你一起终身学习&#xff0c;这里是程序员Android 经典好文推荐&#xff0c;通过阅读本文&#xff0c;您将收获以下知识点: 一、Android.mk 简介二、Android.mk 的基本格式三、Android.mk 深入学习一四、 Android.mk 深入学习二五、 Android.mk 深入学习三六、 Android.mk 判断…

C++【哈希表的模拟实现】

✨个人主页&#xff1a; 北 海 &#x1f389;所属专栏&#xff1a; C修行之路 &#x1f383;操作环境&#xff1a; Visual Studio 2019 版本 16.11.17 文章目录 &#x1f307;前言&#x1f3d9;️正文1、模拟实现哈希表&#xff08;闭散列&#xff09;1.1、存储数据结构的定义1…

MySQL函数以及存储过程

创建表并插入数据‘ 字段名 数据类型 主键 外键 非空 唯一 自增 id INT 是 否 是 是 否 name VARCHAR(50) 否 否 是 否 否 glass VARCHAR(50) 否 否 是 否 否 sch 表内容 id name glass 1 xiaommg glass 1 2 xiaojun glass 2 mysql> select * from sch; -------------------…