镕铭微电子VPU 极致降本增效实践

news2024/11/20 6:17:08

当前视频行业环境下,硬件芯片的机遇与挑战并存,如何使得硬件芯片产品及方案设计更好地贴近用户、服务用户及满足用户更深层次需求?本次LiveVideoStackCon 2022 北京站邀请到镕铭微电子解决方案架构总监——蔡媛Amy,为大家介绍镕铭微电子VPU如何帮助客户实现极致增效降"本",并介绍基于新一代Quadra VPU的全球首个硬件智能极速高清产品,如何将历来成本高企的AI增强视频产品带入到规模应用中。

文/蔡媛Amy

编辑/LiveVideoStack

大家好,我是镕铭微电子解决方案架构团队负责人的蔡媛 Amy,本次分享的题目是镕铭微电子VPU极致降本增效实践,主要介绍在生产实践中,如何使用镕铭VPU产品在规模化应用中帮助客户实现极致降本增效,给大家带来新的应用方案和启发。我会从以下几个方面进行介绍:

0bb972d8de9bf9ac7e70a19d7768bb7e.png

-01-

镕铭微电子公司及产品介绍

NETINT是一家专注于新型智能存储和视频/图像编解码解决方案的科技公司,在国内的上海、北京、济南,加拿大的温哥华和多伦多都设有研发中心。NETINT自主设计的VPU可提供基于ASIC的超大规模、超高密度、超低延迟的视频解决方案,我们的视频转码器产品已被全球众多顶级大公司所使用。

d0ac937aeec04dc1cbb2b55d0ee12030.png

镕铭微电子的使命是为云和数据中心提供强大的算力,长期愿景是成为世界上最好的数据中心芯片公司。我们的产品主要包括视频处理芯片VPU和软硬件结合的视频处理解决方案,前者在功能上提供视频编解码能力,辅助视频编解码的AI处理能力以及2D图像引擎的处理能力,后者包括三种产品形态,第一种是VPU服务器板卡,第二种是搭载芯片的视频处理一体机,第三种是基于视频处理一体机的端到端视频解决方案。

镕铭微电子是视频处理芯片 VPU 定义者和视频处理方案创新企业,镕铭微电子设计出了多款高度创新的芯片产品,被广泛应用于云数据中心、边缘计算公司及媒体内容提供商,最大程度地降低视频处理和数据储存的成本。VPU产品技术位居全球第一,并且已经成功研发两代芯片,第一代产品已经在全球头部客户处大规模验证和应用部署,同时也是数据中心大芯片领域的创业公司中出货量最大的独角兽企业。

39286d5bc9e51644351b81d220678655.png

图中展示了两代产品,第一代是Logan芯片,对应Codensity T408单芯片产品和T432 4芯片产品,于2019年发布并量产。同时具备U.2/AIC的形态,来适配兼容不同型号的服务器。U.2形态的编解码卡,和2.5寸 NVMe SSD的外形一样, 可以直接使用NVMe SSD的卡槽。除外,大部分服务器都具备PCIe卡槽,可以使用AIC形态的编解码卡。

第二代是Quadra芯片,基于Quadra发布了T1A、T1U和T2A产品,在海外的客户已有过万片的部署,这两代芯片无论是在应用性、稳定性还是在实际业务中都经过了客户规模化部署的验证。

-02-

镕铭微电子VPU增效降“本”实践

鉴于目前全球经济形势处于下行状态,我会重点介绍“增效降本”部分。

65b8021cdb823696fc7482cb81104b8b.png

NETINT VPU是面向数据中心和边缘计算设计的视频/图像编解码处理芯片。那么,通常对于面向数据中心的芯片,在大规模应用部署的时候,需要考虑的几个重要因素:包括性能、成本、同构性、稳定性。性能就是字面意思,我们需要关注峰值性能、平均性能等。比如人工智能芯片,我们会非常关注他的计算能力(吞吐量):通常关心的是32位浮点计算能力。做推理预测的话也可以用8位整数,我们会关注INT8 的计算能力。显存大小:当模型越大,或者训练时的批量越大时,所需要的GPU内存就越多。对于CPU来说,我们关注芯片提供的核数,芯片的频率。对于VPU 而言,因为主要提供的是视频/图像的编解码处理,所以性能上主要是指芯片可以并发处理的编解码的路数、协同做视频处理的AI计算能力、编码延迟水平(最大延迟/平均延迟)等。

而成本和我们今天讨论的降本增效是直接相关的,成本包括TCO(整体拥有成本)、人力成本以及时间成本。

c0c56ddbb2af8b9ba4a78b907a158bf8.png

图中列举了VPU系列产品性能,T408 吞吐支持8路1080P/30fps,功耗是所有产品中最低的,只有7W,而国产人工智能芯片的功耗大致在70w-100w,对于CPU,高配CPU的功耗大概是240w,对比下来,T408功耗相当低,它支持H.264/H.265 转码。T432是4芯片产品,相当于T408 4倍能力,相当于32路。

2022年发布的Quadra系列,其特点是性能相对于T408提升了4倍,单芯片支持32路1080P,T2产品是两芯片的Quadra,可以支持64路1080P30。Quadra还支持8K/60fps单路的实时转码,T2相当于支持两路的1080P/60fps的实时转码。Quadra的功耗是20w,在编解码标准上,Quadra增加了支持VP9的解码标准及AV1的编码标准,海外的应用快于国内,比如META、Google,尤其是前者超过70%的流量走AV1。国内头部公司目前更多以H.265标准为主。

d2770c2932ac1fac26124580e2f6c251.png

图中展示的是Quadra关键的视频处理单元,包括编码模块、解码模块、AI推理引擎、2D图像处理引擎,以及可用于音频处理的DSP模块。芯片集成的AI 推理引擎,与视频编/解码器集成于同一芯片上,这可以让用户在同一个芯片上实现一些复杂的AI辅助编码,比如ROI辅助编码,窄带高清编码、在同一芯片上完成AI推理,编解码所有数据处理流程,这将极大地提升工作效率并显著减少延迟。

我们是全球首款基于可计算存储架构的VPU,专门为数据中心和边缘计算所设计,使用NVMe协议作为主机到硬件加速器的设备接口。NVMe是非易失性内存接口协议,旨在用于基于PCIe的存储设备,例如SSD(固态磁盘),它还可以扩展到支持可计算型存储。这样的优势包括免驱动,能够避免许多与服务器的兼容性问题,同时达到更好的延迟和数据交换能力。

除了性能之外,大家还会非常关注编码的比特效率,Quadra的比特效率在快速档上能够达到Fast和Medium之间的水平,在慢速档能够达到H.265 Slow的水平。

行业中较好的H.265软件编码器,在Super Fast档位上,开到4个线程,8K分辨率时能够达到17fps,之后即使线程数增加,其fps也无法随之提高,且CPU利用率也无法达到满载利用率。所以要用软件编码器实现8K/60fps,需要在转码系统上实现比较复杂的并发架构。而利用Quadra硬件编码器,就能够实现单芯片8K/60fps实时转码,并且单线程达到92%以上的loading,这是VPU在高分辨率视频处理上的极大优势。

在画质处理的对比结果上,相较于Nvidia T4硬件编码器,在类似档位lookahead-4,相同的PSNR下能够节省23-25%的码率,rdo开到3时,可以进一步将码率节省提高30-31%。

807b01b2553aad0ff28f017082c12cfb.png

另一个编解码的重要指标是延迟,Quadra的延迟对比T408有了更高的提升,1080p的编码延迟大概是4ms,这是单路延迟,将路数提升到32路,延迟也只增加1-2ms,大概是5-6ms,对于互动型应用如云游戏、RTC等,其QoE及QoS参数极易受延迟影响。图中可以看到Nvidia T4延迟大概是Quadra的两倍,H.264大概是三倍,达到15ms左右,X.265大概是20多倍,接近100ms,当然这都是开源的H.264及H.265,但即使对比行业内优化非常好的软件编码器,两者的差距也达到3-4倍。

最大延迟相差更明显,这是因为软件编码器的延迟波动相较于硬件编码器来说大很多。下图显示Quadra的延迟波动基本处于稳定状态,而延迟稳定对于云游戏等场景非常重要,波动较大时会影响客户体验,码率和延迟不能突然增大, 显然Quadra能够更好满足需求。

e8e5004babd14d111599a0b4cd8600b3.png

性能和成本息息相关,在计算成本时需要考虑哪些因素?以直播场景为例,直播整个业务流程包括内容生产、内容处理、内容分发及内容播放,编解码卡位于内容处理环节,除了本身的计算成本,其码率也会影响到内容分发的CDN成本及计算/存储成本。

dc6069037423e5ef423179b0f45957fc.png

计算成本时需要考虑密度、折旧及功耗:

①密度:如一台32核服务器,单个服务器只能跑6路左右的H.265 1080P30FPS转码,前提还是行业内较优秀的软件编码器。64个thread的服务器可以跑12路,128个thread能够跑24路。对于T408而言,在一台机器插上24个U.2卡,能够实现整机跑200多路,密度是原来的20/30倍。

②折旧成本:如一台64核(vCPU)服务器加上编解码卡后,整机成本并不会上升很多,但其密度能够提升20倍左右,这便降低单路折旧成本。

③功耗成本:功耗会影响机柜成本支出,一个16A机柜能够容纳7台400-500w的机器,插上卡后,单个机柜能够容纳的机器数量并不会有明显变化,但其整机可运行的密度能够提升许多。

除了计算成本外,还有分发成本和存储成本,影响两者的因素是比特效率。Quadra H.265在VITS2021SmallSet dataset 基准测试集上, 最高挡的rdo level的配置下相对fast挡位能够得到8.9%的码率节省, 相对于medium挡位得到4.1%的码率节省。对于直播冷流来说,使用VPU产品主要是为了降低转码的计算成本。但对于热流而言,使用VPU高画质模式可以在带宽和存储成本上获得更大的收益。

a5a8d77bcb4e1245ae4797f035eb9b50.png

成本还包括人力成本,即接入所付出的人力代价,T408和Quadra都基于FFmpeg架构,为用户提供FFmpeg框架的lib,客户只需接入libavcodec的API即可整合现有的FFmpeg流程,无需对现有的架构做太大变更。部分用户会基于NETINT提供的Libxcoder API。在接入上和X 264/X265类似,并提供了极为灵活的编码控制,场景的定制参数。此外,在规模化运维时,为用户提供了运维工具及线上debug工具,以便帮助用户快速排查问题。

-03-

镕铭微电子VPU规模化部署实践

我们是数据中心大芯片领域出货量最大的独角兽公司,接下来为大家介绍大规模部署的相关实践。

d5903e724eedcbba7d5eb37a4a6d5007.png

规模化部署需要考虑两点,第一是同构性,如何将一张编解码卡与现有的基础设施进行简单的兼容,并在现有的算力如现有的服务器基础上进行算力扩展,从而方便地接到系统簿上进行算力扩展。第二是稳定性,也就是说在进行规模化部署时,硬件、固件/软件层的稳定性如何?

94aaeb06e236301ec6cbee2b3d8286c0.png

在兼容性上,我们采用的是NVMe协议,是免驱动的,一般来说,Windows、Linux、Android系统都会自带稳定高效的NVMe驱动程序,在装编解码卡时无需用户装驱动,我们基于NVMe 1.3的协议,能够向下兼容。在系统支持上,我们能够较好兼容Windows、Linux、Android,U.2产品还支持热插拔。规模化扩容方面,能够利用现有存储机型直接插上U.2的Quadra或T408,将一台只有几路的服务器扩展为支持200路或300路编解码卡的服务器。

而传统驱动需要自动定义其驱动程序,并存在对不同操作系统的兼容问题,尤其是Windows系统的兼容更为困难,在规模化部署时,会凸显稳定性相关的问题,如掉卡,无法识别卡等。我们采用的NVMe接口及驱动能够极大程度避免此类问题的发生。

37f9a6918522bc8eefe5ee1c1aa73579.png

关于同构性,我们提供U.2和AIC形态的卡,可以进行选择而无需配件转换,U.2和NVMe SSD的形态及协议都一致,能够复用机型。

此外,我们的功耗非常低,单卡T408是7W,单卡的Quadra U.2是20W,一般情况下插上卡后,一个机柜原来是7个服务器,现在还是7个服务器,不需要改动机架,这样有利于机器的运维。

图中右侧是Quadra的AIC形态,我们同时了提供服务器整机方案,展台有7张卡的服务器样例。

49c2f5d7d9cc0b7c4f862827639b679e.png

算力扩展能力利用的是NVMe over fabric协议,通过高速的网卡实现服务器之间的高速数据通道,即使服务器和卡不在一台机器上,也可以实现低延迟高数据带宽的连接和访问。

49fb7e395bddc04a6c95cbc9b2b57f74.png

这是规模化落地的实例,左图是在海外的24*U.2,联合SuperMICRO提供的T408服务器整机。右图是服务器利旧实例,利旧一般采用T408,其规模化稳定性部署已经非常成熟。

97a751f51acad89a8c3bee2d1bd93c91.png

在大规模部署过程中,大家可能会考虑到硬件或固件稳定性,比如接入业务后会不会导致业务有损。

在硬件稳定性上,我们有Spike/Lt-loop/DCpower反复过万次的稳定性验证、超负载、过热保护等稳定性验证,进行了严格的跌落测试,做出掉卡率、坏卡率 SLA承诺以及RMA流程承诺,从而保证问题的闭环。

在固件稳定性上,我们经过了数万片线上规模化部署验证,对解码场景能够达到业界最好的兼容性支持,并且有超7w个test case支持固件升级。

-04-

Quadra硬件智能极速高清产品

ffd58ea98197403eb51d7880b7112b55.png

大家应该非常熟悉极速高清产品,如阿里的窄带高清,腾讯的极速高清等,我们的产品也是基于AI技术与图像处理技术,通过深度学习网络,对视频画面进行感知,优化主观体验,追求较好的人眼感受,节省带宽。

而不同于其他极速高清产品,Quadra基于硬件芯片的AI推理引擎及编码做无缝配合,从而达到更好的处理效率和规模化应用的成本优势。

b89df58e3a0510f37b9ac334f4cbcc92.png图中对比了Quadra的处理流程和传统处理流程

传统处理流程是在视频输入后通过解码,到CPU进行处理,再给到CPU/GPU做推理运算等前处理,再给CPU做后处理,再给到硬件/软件做编码,整个流程实际上非常复杂,延迟无法达到最好的效果,而且成本较高。

Quadra AI Enhance流程都在卡内完成,在卡内解码,将数据推到AI推理引擎、编码器再输出视频,相较于传统流程来说简单了许多,无需主机侧参与,利用Quadra本身的AI计算单元实现端到端的视频质量优化。

519a32566818a9aa66ac0894c9a5b9c2.png

e6ddee76f722201b0623e330a1e459c6.png

我们专注于VMAF,提升人眼主观效果。图中是处理前后效果对比,可以看到使用极速高清后的VMAF能够提升14%左右,Quadra还具备极强的场景泛化能力。

c1e6217d2ac78c499aaa4e57d431f91d.png

在成本方面,首先,云服务对极速高清的定价是普通媒体处理的4倍,成本昂贵。通过Quadra以及提供的极速高清开关可以实现25%的转码比例,在无额外成本下支持极速高清,并且主观效果提升明显,大概达到4K@60FPS、1080P@240FPS及720P@480FPS的极速高清性能。我们希望帮助客户将历来成本高企的AI增强视频产品带入到规模应用中。

以上是本次的分享,谢谢!


e2899b42ebcc44b83708fa087504b5a7.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/641032.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【熬夜送书 | 第五期】清华社赞助 | 《MySQL系列丛书》

MySQL是什么? MySQL是一种关系型数据库管理系统,由瑞典MySQL AB公司开发。MySQL是最流行的关系型数据库管理系统之一,在WEB应用方面,MySQL是最好的RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一。 MySQL有…

Arduino esp32 环境配置以及避坑指南

目录 环境配置安装 IDE下载固件 项目测试疑难解答micropython 固件冲突问题 环境配置 安装 IDE 参考文献:CSDN 首先下载 Arduino IDE 请注意,一定要选择 1.8 版本的,千万别用 2.0版本!!! 建议直接下载 win…

通过向量回归、随机森林回归、线性回归和K-最近邻回归将预测结果绘制成图表进行展示

文章目录 表格部分数据如下运行效果如下代码解析完整代码附件 表格部分数据如下 附件里会给出全部数据链接 运行效果如下 代码解析 import pandas as pd import numpy as np import matplotlib.pyplot as plt from matplotlib.font_manager import FontPropertiesfont FontP…

webpack自动化打包webpack-dev-server

在前面的章节中我们每次改完要打包的资源文件,和配置文件都是是输入npx webpack命令手动打包的,那么有没有什么办法可以监听到我们代码的改动,在保存时就自动打包呢? 答案是当然有,不然哪些框架的脚手架是怎么实现保存…

Redis命令-数据结构String类型和Hash类型

1. String类型 字符串类型,Redis中最简单的存储类型 底层都是字节数组形式存储,只不过是编码方式不同; 字符串类型的最大空间不能超过512m; SET/GET/MSET/MGET使用示例: INCR使用示例: INCRBY自增并指定步长…

CSS粘性定位 - 它的真正工作原理!

本文首发于微信公众号:大迁世界, 我的微信:qq449245884,我会第一时间和你分享前端行业趋势,学习途径等等。 更多开源作品请看 GitHub https://github.com/qq449245884/xiaozhi ,包含一线大厂面试完整考点、资料以及我的…

STM32单片机蓝牙APP智能温控风扇红外热释电

实践制作DIY- GC0144-蓝牙APP智能温控风扇 基于STM32单片机设计---蓝牙APP智能温控风扇 二、功能介绍: 硬件组成:STM32F103C最小系统板DS18B20温度湿度OLEDHC-05蓝牙模块SR602红外热释电人体检测5V直流风扇多个按键(开关键,下限减…

【WinForm项目】C#模拟交通信号灯|WinForm交通红绿灯

文章目录 前言一、运行效果二、界面设计三、代码:总结 前言 交通信号灯十字路口通行原理图。 实际上归类为四大类: 南北双向直行东西双向直行一对黑色粗线的左转一对红色粗线的左转。 状态逻辑图如下图所示:假定通行顺序为:南…

JavaWeb笔记(四)

前端基础 **提醒:**还没有申请到IDEA专业版本授权的同学要抓紧了,很快就需要用到。 经过前面基础内容的学习,现在我们就可以正式地进入Web开发的学习当中啦~ 本章节会讲解前端基础内容(如果已经学习过,可以直接跳到…

一文说透:低代码开发平台和零代码平台区别是什么?

低代码开发平台和零代码平台区别是什么? 一个简单的例子就可以解释清楚。 假设你想入住一套新房,回看住房变迁史: 最原始方式是:自己建造往后一点,交付“毛坯房”:开发商统一建小区,不需要自…

5本豆瓣高分Python技术书籍

Python的经典书籍有很多,推荐五本对初学者来说非常实用的入门书,豆瓣评分都在8以上。分别是: 《Python学习手册》,豆瓣8.2分《Python编程,从入门到实践》,豆瓣9.3分《Python Cookbook》,豆瓣9.…

如何优化ABAP程序

文章目录 1 Before code3 After code3 Performance4 Summary4.1 We don t use nested loop as possible as .4.2 We use useful data in the program .4.3 Take care history data . 1 Before code DATA:BEGIN OF LW_SZJE,ZJN TYPE P DECIMALS 1, "折旧年KANSW LIKE A…

从零玩转系列之微信支付实战PC端接口搭建

一、前言 halo各位大佬很久没更新了最近在搞微信支付,因商户号审核了我半个月和小程序认证也找了资料并且将商户号和小程序进行关联,至此微信支付Native支付完成.此篇文章过长我将分几个阶段的文章发布(项目源码都有,小程序和PC端) 在此之前已经更新了微信支付开篇、微信支付安…

阿里云+Nginx Proxy Manager 设置二级域名

这里我们以购买阿里云的域名为例 有域名的作用:当我们在浏览器上面访问主机的某一个端口时,必须输入主机ip端口号,这就会非常的麻烦,而且也会暴露出我们的主机名,很不安全,因此域名的好处就是可以将我们的主…

开关电源-FPC入门知识

01功率因数补偿和功率因数校正 功率因数补偿:在上世纪五十年代,已经针对具有感性负载的交流用电器具的电压和电流不同相(图1)从而引起的供电效率低下提出了改进方法(由于感性负载的电流滞后所加电压,由于电…

JavaWeb笔记(二)

数据库基础 数据库是学习JavaWeb的一个前置,只有了解了数据库的操作和使用,我们才能更好地组织和管理网站应用产生的数据。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IJ1neG69-1686619058026)(null)] 什么是数据库 数…

2023中国纸业碳中和与可持续峰会,九月来袭!

制浆与造纸是资源密集型产业,具有高污染、高能耗的特点。“双碳”目标提出后,造纸行业同时面临需求和产能增长的生产现状与实现“双碳”目标的考验。如何在未来保证产量增长,还能实现节能减排和降耗,成为了所有制浆造纸及上下游产…

docker容器启动的问题 - docker容器和虚拟机的比较 - docker的底层隔离机制

目录 一、docker容器启动的问题? 二、什么是docker仓库? 三、虚拟机和docker容器的区别: docker的优势: docker的缺点: 对比: 四、docker的底层隔离机制 参考文献:LXC linux容器简介——…

前端项目架构怎么搭

前端项目架构 文章目录 **前端项目架构** **框架选型标准****异常处理****自动化构建** **(打包)****基础组件****公共方法封装****目录结构分配原则** 框架选型标准 ​ 框架的选型需要考虑很多因素,如该技术能否可以满足业务需求、浏览器支…

《大卫科波菲尔》社会网络分析

《大卫科波菲尔》社会网络分析 1.简介1.1数据集介绍1.2社会网络分析简介1.3《大卫科波菲尔》介绍 2.描述性统计3.网络概述4.社区发现5.好句摘抄6.总结和不足 1.简介 1.1数据集介绍 Newman教授的个人数据网站 网址:http://www-personal.umich.edu/~mejn/netdata/ 从…