多线程DPDK应用的内存优化

news2025/1/12 6:47:06

作者

Conor Walsh is a software engineering intern with the Architecture Team of Intel’s Network Platform Group (NPG), based in Intel Shannon (Ireland).

引言

高速包处理是一种资源密集型应用。一种解决方案是将包处理流水线(pipeline)分离到多线程以提高程序性能。
然而,这样做可能增加缓存(Cache)和内存(Memory)访问的压力。
因此,构建高性能应用程序的关键在于尽可能减少数据面流量(data plane traffic)相关的内存占用(memory footprint)。
本文介绍了一种多线程包处理应用程序的内存优化技术,提高访存密集型应用的性能。
即使应用程序没有内存受限的情况,也应该减少内存需求。

参考程序

本文基于对源自Intel的vCMT系统的研究。
vCMTS是基于DOCSIS3.1标准和DPDK包处理框架实现的MAC层数据面流水线程序。
该程序是为了测试Intel至强平台vCMTS数据平面包处理性能及功耗开发的工具。
可以从0.1org的the Access Network Dataplanes下载vCMTS。
虽然本文测试的vCTMS基于DPDK 18.08版本,但是背后的原理可以应用到早期版本的DPDK或者其他包处理库,比如Cisco的VPP。
本文用到的一些功能在DPDK 16.07.2首次引入。

vCMTS的下行(downstream)部分采用了多线程流水线设计。
流水线分为上/下MAC两部分,分别运行于两个不同的线程。而且这两个线程必须运行于同一个物理核心的2个超线程上,否则会浪费L2 Cache的效率。
参见图1 vCMTS下行包处理流水线


图1 vCMTS下行上/下MAC流水线

目前vCMTS的上行部分没有使用多线程模型。本文主要关注下行部分作为参考。

Ring VS Stack

DPDK用mbuf存储包数据。mbuf存在名为mempool的内存池结构中。
默认情况下,mempool创建内存池时使用的是类似于先进先出(FIFO)系统的环形(ring)配置。
该模型适合运行于多核心多线程的应用。
但是对于多个线程运行在同一个核心的情况,这种模型会浪费内存带宽,部分超线程性能也会无法发挥。
对于多个线程在同一个核心的应用,环形内存池结束循环的时候会遍历全部的mbuf。
当mbuf的数量比较多的时候(比如vCMTS),几乎每次访问分配好的mbuf的时候都会发生Cache Miss.

除了环形内存池,DPDK也提供后入先出(LIFO)的栈结构的内存池配置。

mempool包含mempool的Cache,允许回收“热"缓存(warm buffer, 理解为最近使用过的buffer),当buffer在同一个线程分配/释放时,可以提供更好的缓存性能。
一般都是通过配置mempool采用LIFO配置提升mempool cache的性能。
每个DPDK线程的每个mempool都拥有自己的mempool cache.
在一个线程收包,另一个线程发包的情况下,mbuf不会在同一个线程分配/释放,也就是上述导致内存池cache冗余(两个线程,两个mempool,两个mempool的cache)的例子。

采用环形内存池模型时buffer的移动方式(见图2):

  • 应用程序从线程0的mempool cache中取出mbuf给网卡接收队列
  • mbuf不会在线程0上释放,所以mempool cache会直接从mempool中取mbuf。
  • 程序从mempool的cache中分配mbuf
  • 当mbuf从网卡发送部分释放时,缓存于线程1上的mempool cache中
  • 当线程1的mempool满了,程序会开始把mbuf返还到线程0的mempool中

对这个程序来说,这是一个糟糕的模型,因为线程0的mempool cache一直包含的是'冷'的mbuf,而线程1的mempool cache一直是满的
如果mempool很大,CPU将无法把整个mempool的内容保持在Cache里,需要刷到内存中。
在这个模型里,程序会高速循环整个mempool,并由于mbuf频繁进出Cache导致大量占用内存带宽。


图2: 采用环形内存池时buffer的移动路径

采用栈形内存池模型时buffer移动方式(见图3):

  • 程序从mempool中分配mbuf给网卡接收队列
  • 当mbuf从发送网卡释放时返还给mempool

学习地址: Dpdk/网络协议栈/vpp/OvS/DDos/NFV/虚拟化/高性能专家-学习视频教程-腾讯课堂
更多DPDK相关学习资料有需要的可以自行报名学习,免费订阅,久学习,或点击这里加qun免费
领取,关注我持续更新哦! !   

这个模型的效率更高。mempool改为使用stack实现,禁用了冗余的mempool cache。mbuf直接从mempool分配,释放后直接回到mempool,不再由线程1缓存。
注意,从stack mempool分配/释放mbuf代价可能略微更高,因为多线程访问时需要锁住mempool。
锁保护的负面影响很小,因为这些锁是绑定在同一个核心上的。(如果这些线程运行在不同的物理核心上,锁的代价会很大)
总体来说,把'热'mbuf利用起来的好处要大过比额外的锁开销。


图3: 采用stack内存池时buffer移动方式

另一种减少环形mempool内存占用的方法是减少mempool中mbuf的数量。
分析显示对于vCMTS来说,大部分时候会用到750个mbuf,但是偶尔会升至20000个mbuf.
这意味着减少mempool的大小的方式不适合,因为极端情况下mbuf的需求量和一般情况下多出几个数量级。
如果那些mbuf分配不到,程序的性能无法预测。
采用stack模型的mempool时,CPU会尽可能把程序请求的大多数mbuf保持在Cache中,只有其中少部分会被刷到内存里。
因为在大部分情况下,重复使用的是相同的mbuf,因此极大减少了内存带宽占用。
程序采用stack模型的mempool后,CPU可以把大部分mbuf保持在Cache中,少部分需要刷到内存上。由于只有很少的mbuf在常见操作时反复使用,极大的减少了内存带宽占用

结论

It is clear that across all four tests, the drop in memory bandwidth due to the change from ring to stack was significant. The average drop across the four tests was 76%. A key benefit of this is, when high traffic rates are run, the data-plane cores are less likely to approach memory bandwidth saturation, which could degrade performance. In this case, a direct performance benefit can be achieved using stack mempool configuration for dual-threaded packet processing applications, as it reduces memory bandwidth utilization and improves the traffic rate at which memory bandwidth gets saturated. Another benefit of this change is the availability of more memory bandwidth for other applications running on the same socket. This modification should require minimal code changes to the application, so the effort would be worth the reward for this change2.

Resources

Maximizing the Performance of DOCSIS 3 0/3 1 Processing on Intel® Xeon® Processors

Endnotes

1 This model is more streamlined for the dual sibling hyper-threaded case; it was not tested in a scenario where the threads spanned multiple cores.

2 When vCMTS is changed to stack the system should not have to be populated with as many DIMMs of memory due to the reduced memory bandwidth and this would result in a power saving of roughly seven watts per DIMM. This claim was not verified as part of this paper but it could be a possible way to gain power savings from switching to a stack configuration.

https://github.com/pswarfound

原文链接:https://www.cnblogs.com/zl-yang/p/12214284.html 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/10979.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大一新生HTML期末作业,网页制作作业——海鲜餐饮网站登录页面(单页面)HTML+CSS+JavaScript

👨‍🎓静态网站的编写主要是用HTML DIVCSS JS等来完成页面的排版设计👩‍🎓,常用的网页设计软件有Dreamweaver、EditPlus、HBuilderX、VScode 、Webstorm、Animate等等,用的最多的还是DW,当然不同软件写出的…

STM32G0开发笔记-Platformio+libopencm3-FreeRTOS和FreeModbus库使用

title: STM32G0开发笔记-Platformiolibopencm3-FreeRTOS和FreeModbus库使用 tags: STM32MCUSTM32G070libopencm3MonkeyPiFreeRTOSModbus categories: STM32 date: 2022-9-11 19:52:05 [原文:makerinchina.cn] 使用Platformio平台的libopencm3开发框架来开发STM32…

docker -- 入门篇 (数据卷、自定义镜像、安装mysql redis)

1 数据卷 采用上一章节创建的centos镜像启动容器 doc01 docker run -it --name doc01 lhy/centos:1.00 2 数据卷容器 启动子容器doc02 实现继承doc01的关系 docker run -it --name doc02 --volumes-from doc01 lhy/centos:1.00 启动子容器doc03 实现继承doc01的关系 docker…

【计算机毕业设计】病人跟踪治疗信息管理系统源码

一、系统截图(需要演示视频可以私聊) 摘 要 病人跟踪治疗信息管理系统采用B/S模式,促进了病人跟踪治疗信息管理系统的安全、快捷、高效的发展。传统的管理模式还处于手工处理阶段,管理效率极低,随着病人的不断增多&a…

mac pro M1(ARM)安装:安装zookeeper可视化工具PrettyZoo、ZooKeeperAssistant

0. 引言 今天安装zookeeper的可视化工具遇到一些问题,将其记录下来,以供后续的同学参考,在mac软件安装上少走弯路。同时也让大家体会下这两款不同的zk可视化工具的差别 1. 安装PrettyZoo 1、下载 直接在github上选择版本下载: …

8 - 复习总结java中的继承与多态

1. 继承 1.1 为什么需要继承 先看一个例子: 比如猫和狗都是动物,都可以用一个类来描述。 使用java语言来描述: class Cat{String name;int age;float wight;public void bark(){System.out.println(name"汪汪汪叫");}public void eat(){S…

PyTorch使用快速梯度符号攻击(FGSM)实现对抗性样本生成(附源码和数据集MNIST手写数字)

需要源码和数据集请点赞关注收藏后评论区留言或者私信~~~ 一、威胁模型 对抗性机器学习,意思是在训练的模型中添加细微的扰动最后会导致模型性能的巨大差异,接下来我们通过一个图像分类器上的示例来进行讲解,具体的说,会使用第一…

Reactor 模型

文章目录1、网络编程关注的事件2、网络 IO 的职责2.1、IO 检测2.1.1、连接建立2.1.2、连接断开2.1.3、消息到达2.1.4、消息发送2.2、IO 操作2.2.1、连接建立2.2.2、连接断开2.2.3、连接到达2.2.4、消息发送3、Reactor 模式3.1、概念3.2、面试:Reactor 为什么使用非阻…

利用jenkins直接构件docker镜像并发布

一、本服务器构建 1.jenkins安装完成之后,打jenkins,选择新建任务,如: 2.进行〔源码管理〕配置,如: 3.构建执行配置,如: APP_NAMEtest-project APP_PORT8083 RUN_ENVprod cd /var/…

EtherCAT与RTEX驱动器轴回零的配置与实现

上节课程,正运动小助手给大家分享了运动控制器提供的回零模式配置与实现。本节课程主要介绍控制器实现EtherCAT与RTEX驱动器的回零及其配置。 01 总线驱动器回零模式 正运动控制器提供自己的回零模式,也支持使用EtherCAT总线驱动器提供的回零模式&…

学长教你学C-day9-C语言循环结构与选择结构

小刘最近在读《老子》,被道家“一生二,二生三”的哲学思想迷住了,他不禁想代码是谁生的呢?首先代码就是一堆字符,字符不是代码,就像“白马非马”,但是当字符按照一定的顺序组织起来时&#xff0…

《Python编程无师自通》读书笔记

不能越界访问函数内部定义的变量 global不能乱用 啥时候用元组 join连接 小点,但第一次见会觉得蛮有意思。 Hangman 10.1的案例蛮有意思的 一搜才发现是十分经典的文字游戏 过程式编程的缺点以及函数式编程和面向对象编程的解决方法 过程式编程的缺点 函数式编程…

Web学习笔记-中期项目(拳皇)

CONTENTS项目原理一、基础文件二、ac_game_object框架三、游戏地图与玩家模型的创建项目原理 游戏中一个物体运动的原理是浏览器每秒钟刷新60次,每次我们单独计算这个物体新的位置,然后把他刷新出来,这样最终人眼看起来就是移动的效果。 对…

YOLO系列概述(yolov1至yolov7)

YOLO系列概述(yolov1至yolov7) 参考: 睿智的目标检测53——Pytorch搭建YoloX目标检测平台YoloV7 yolo的发展历史 首先我们来看一下yolo系列的发展历史,yolo v1和yolox是anchor free的方法,yolov2,yolov3…

使用 Vue3 实现锚点组件

目录 1. 需求介绍 2. 实现过程 2.1 表单结构介绍 2.2 确定锚点组件接收的参数及使用方法 2.2.1 form-dom:需要被锚点组件控制的表单实例 2.2.2 active-anchor:默认激活的锚点 2.2.3 title-class:表单标题特有的类名 2.2.4 将 锚点组件…

5-FITC,5-FITC(isomer I),5-异硫氰酸荧光素,5-Flourescein iso-thiocyanate

产品名称:5-FITC,5-异硫氰酸荧光素 英文名称:5-Flourescein iso-thiocyanate 英文别名:5-FITC;5-Flourescein iso-thiocyanate;FITC Isomer I [5-FITC; fluorescein-5-isothiocyanate] CAS#:…

labview 串口通信 modbusRtu

在自动化或测试项目中,上位机软件需要和PLC及仪表通信,本文简单描述这个问题。 1.在程序框图中放置4个图标 (1)创建modbus 主站实例(按如下图标识①,在框图中放Create Master Instance.vi) 图1 放置四个图标 &…

C++ Reference: Standard C++ Library reference: Containers: deque: deque: resize

C官网参考链接&#xff1a;https://cplusplus.com/reference/deque/deque/resize/ 公有成员函数 <deque> std::deque::resize C98 void resize (size_type n, value_type val value_type()); C11 void resize (size_type n); void resize (size_type n, const value_t…

React组件复用

mixins&#xff08;已废弃&#xff09; https://react.docschina.org/blog/2016/07/13/mixins-considered-harmful.html mixin引入了隐式依赖关系 对于组件中的方法和数据的来源不明确&#xff0c;不容易维护 Mixins 导致名称冲突Mixins 导致滚雪球般的复杂性 render-props技术…

C语言学习之路(基础篇)—— 指针(上)

说明&#xff1a;该篇博客是博主一字一码编写的&#xff0c;实属不易&#xff0c;请尊重原创&#xff0c;谢谢大家&#xff01; 概述 1) 内存 内存含义&#xff1a; 存储器&#xff1a; 计算机的组成中&#xff0c;用来存储程序和数据&#xff0c;辅助CPU进行运算处理的重要…