对话镕铭微电子蔡媛:深入理解用户痛点,满足差异化需求

news2024/9/20 7:53:31

“芯片不仅仅是一个硬件产品,为了更好的贴近用户、服务用户,我们需要在固件和软件的框架上投入足够的研发资源,与客户同步迭代更新,以适应其快速的业务迭代要求。在深入理解用户需求和痛点的基础上,满足用户差异化的功能需求。”LiveVideoStack很荣幸地邀请到了镕铭微电子 解决方案架构总监 蔡媛老师,和大家聊一聊硬件芯片在当前视频行业环境下所面临的机遇与挑战,以及硬件芯片产品开发与方案设计应该如何更好地贴近用户、服务用户,满足其更深层次的需求。

bf94ca27229af8ef182395e3bc4fdf53.jpeg

蔡媛(Amy.Cai),镕铭微电子 , 解决方案架构总监

LiveVideoStack:Amy老师您好,非常高兴能邀请到您接受采访。首先,跟读者朋友们介绍下您自己吧。

Amy:大家好,我是蔡媛Amy。目前在镕铭微电子负责产品解决方案相关的工作,主要面向视频行业客户提供VPU芯片和高性能存储的产品解决方案。此前我在国内独立云计算公司担任视频云产品技术总监,主导点直播/云游戏相关的媒体处理、265编码、视频质量评测体系的建设和产品研发工作。更早时间就职于搜索公司基础架构团队,从事分布式存储系统和存储引擎相关的质量和开发工作。 

LiveVideoStack:说一说您所关注的领域、技术以及目前的一些工作重点吧,有哪些有意思的事情或心得体会?可以跟大家分享一下。

Amy:近几年我主要是在视频处理和视频分发领域从事产品技术方面的工作,加入镕铭微电子后开始深入了解VPU芯片以及AI处理与视频芯片结合相关的产品,并与我们的产品技术团队一起打磨行业解决方案,包括视频直播、点播、云游戏、云桌面、OTT等领域,实现行业功能需求,为客户提供高效的视频处理方案。

以云游戏为例,为了满足云游戏全链路百毫秒以下延迟的要求,我们采用低延迟模式、零拷贝、多线程编码等技术,实现更低、更稳定的编码延迟。对于云游戏服务提供商而言,成本方面目前压力还是非常大的,其中带宽成本占超过50%。镕铭微电子最新一代编码器Quadra在相同画质下,较NVIDIA T4 llhp模式可节省30%以上的带宽。同时,我们还提供了码率平滑的功能,方便客户对码控有更多的控制,降低带宽波动。这些都是在与客户磨合过程中,从硬件层到软件层逐步完善优化的结果,为云游戏客户提供更具产品竞争力的解决方案。

在与客户对接的过程中我们体会到芯片不仅仅是一个硬件产品,为了更好地贴近用户、服务用户,我们需要在固件和软件的框架上投入足够的研发资源,与客户同步迭代更新,以适应其快速的业务迭代要求。在深入理解用户需求和痛点的基础上,满足用户差异化的功能需求。

LiveVideoStack:互联网视频内容的爆发增长,以及内容质量、分辨率要求的不断提升,带来了更高的视频处理算力及编解码性能需求。在这样的市场环境下,存在哪些机遇与挑战?镕铭微电子有哪些相应的工作与布局?

Amy:互联网视频内容的爆发增长对算力和带宽的要求急剧提高,视频流媒体已取代文字、图片等形式成为主流,直播、点播、短视频等视频应用已经占据互联网80%以上的流量。视频行业对于清晰度和流畅性的追求贯穿始终,需要不断提升分辨率、帧率、色域等参数以实现更好的视觉效果,4K、8K、10bit、HDR 已逐步在各大视频平台呈现出很好的效果。更进一步,视频将以感知和连接现实与虚拟世界为出发点,向三维立体的维度发展,衍生出原生云游戏、实时渲染、数字孪生等需求。传统的软件编码方式、其密度和TCO成本,已经无法应对这些带来的爆炸式的算力需求增长,VPU解决方案是一个必然的选择。

镕铭微电子最新一代产品Quadra单卡最高支持8K 60FPS的实时编解码,并实现低于百毫秒的延时。而H.265软编在8K 60FPS场景需要做大量的帧级/宏块级并行优化+复杂的分布式系统才能实现秒级延迟的直播效果。Quadra同时支持H.264/H.265/VP9解码,以及H.264/H.265/AV1的编码,是全球首个支持AV1编码的硬件编码器。在画质方面,Quadra较上一代产品从直播画质提高到点播处理要求的画质水平。在密度方面,在PCIe lane充足的NVME SSD机型的服务器,最高可以支持24张U.2形态的卡,整机可达768路1080P 30FPS编解码。在互联网对媒体算力要求爆炸性增长的环境下,镕铭微电子VPU能够帮助客户以最低的成本实现媒体处理能力的迭代升级。

LiveVideoStack:对比CPU、GPU、FPGA、ASIC等硬件方案, 考虑需求以及各项条件因素的影响应该怎样选择?

Amy:头部互联网公司和云计算公司都有异构计算平台,不同的方案有各自适合的场景以达到成本最优的目标。

GPU相对而言单路码流成本是非常高的,更适合对超级热流做超分超帧、画质质量检测、深度画质增强的处理。FPGA具备可编程的属性,成本也非常高,一块高性能FPGA成本就要几千美金。ASIC编解码芯片在满足超高清视频编解码的需求前提下,其TCO成本仅为行业性能领先的软件编码器成本的1/15 - 1/20,在密度和能耗上有显著优势,适合于大规模的视频编解码处理。谷歌在2021发布了其Argos ASIC视频处理芯片用于YouTube/Google  album等应用, 每年节省数亿美元的费用。镕铭微电子的VPU视频处理芯片相较谷歌的Argos拥有更多功能和更强能力、更低功耗、以及更加优秀的系统适配能力,并已经得到海内外市场上多家大型客户的广泛使用和验证。

LiveVideoStack:镕铭微电子推出了首款商业硬件AV1编解码芯片,过去一段时间,其在性能、规模化应用等各方面的表现和反馈如何?后续还会有怎样的优化?

Amy:我们在2021年11月发布了全球首款AV1硬件编码器,为AV1在线视频处理提供了可行的选项。新一代产品Quadra的AV1编码器单芯片最高编码性能可达32路1080P 30FPS实时编码,在一台1U的服务器上插上10块Quadra U.2形态的卡,整机可支持320路AV1实时编码。高性能模式下,画质优于开源软编器SVT-AV1的画质;高画质模式下,性能消耗远低于SVT-AV1。

在部署方面,AOM联盟创始成员对AV1的部署会更加积极,海外的应用也较国内更快,海外目前AV1主要应用在点播/短视频上,分发的目标设备主要在智能电视和移动设备上。而迟迟未有动作的苹果,在最近的Safari新beta版本上也把AV1放到媒体支持API中。

目前我们正在与头部流媒体公司做AV1编码集成的验证工作,在这个过程也会持续对AV1的画质质量做调整优化。

LiveVideoStack:ASIC芯片开发无论是对硬件架构设计,软件实现或是场景优化等各项能力的要求都会非常高。镕铭微电子在这些方面具有怎样的优势?

Amy:确实是这样的,从业务要求、场景适配到运维层面要求都很高。镕铭微电子(NETINT)在创业之初,就定位在可计算存储和视频编解码领域,在芯片设计之初即面向云数据中心服务器端,在芯片架构层次上做了很多创新设计,全球率先采用了先进的Computational Storage架构,视频编解码通过标准的NVMe接口来处理,不需要私有的驱动程序。也因此实现业界最广泛的服务器硬件以及操作系统兼容性,保证了数据中心大规模部署上线的运维稳定性。

从软件实现上,我们从Logan这一代芯片2019年量产发布后,持续与头部互联网客户协同进行集成功能开发,并且做了大量音视频码流的兼容性工作, 仅在测试场景的积累上已超过5万+用例覆盖,也帮助我们自己深刻理解客户应用场景。大家看我们的芯片规格也知道我们的重点之一是编解码。我们在编解码算法方面有很深的积累,通过服务全球的头部客户在应用领域积累了大量的经验,这些都体现在我们的硬件和软件系统中,得到客户的认可和信赖。

LiveVideoStack:当前,许多互联网厂商已经开始纷纷发力走上芯片自研的道路。对此,您如何看待?

Amy:数据中心计算最密集的应用程序就是视频,视频编解码更是如此,非常适合采用专用集成电路ASIC来完成。头部互联网厂商本身有巨大的视频流量,部分客户投入自研说明头部客户对VPU市场需求和解决方案的高度认可。但术业有专攻,互联网公司和芯片公司各有自己擅长的领域,预计未来VPU市场会形成头部自研客户和专业VPU芯片公司某种程度合作的局面。

另外,芯片的竞争也是生态体系的竞争,场景越丰富、用量越大、兼容的服务器厂商和操作系统越多,生态会更健全,也更理解海量客户的场景。镕铭微电子VPU作为一直深耕这个领域的领军者和专业厂商,我们也在不断地创新和优化,努力提供更加适用于不同场景、更加可靠的解决方案,成为客户可信赖的合作伙伴。

LiveVideoStack:对于未来下一代硬件视频编解码方案,在技术创新以及场景应用等方面,有哪些值得期待的可能?

Amy:对于下一代产品,向大家透露一些值得期待的方向。一方面是画质,片上的专用处理芯片将会把AI与视频编码结合,将原来GPU才能完成的画质增强、超分超帧能力、画质质量探测以更高效、更低的成本实现规模化应用;第二方面,对新的视频编码标准的支持也在产品规划内;第三方面是应用场景的适配,也将是未来的重点工作,包括互动娱乐场景、云渲染编码、云桌面场景、视频会议场景、OTT场景等都是值得期待的场景。

LiveVideoStack:接下来LiveVideoStackCon 2022北京站 大会现场您还会带来怎样的精彩分享?可否提前跟大家剧透下,有哪些关键内容是值得关注的?

Amy:本次会议我将重点介绍镕铭微电子VPU如何帮助客户实现极致增效降"本",在媒体计算上为客户实现20-40倍TCO成本下降,并提供稳健的运维方法、全面的服务器和内核兼容、免驱动适配能力,在运维层面保障在大规模数据中心的顺利落地,这些与镕铭微电子VPU的软硬件设计密切相关,我本次会对此做重点分享。同时,我将介绍基于新一代Quadra VPU的全球首个硬件智能极速高清产品,如何将历来成本高企的AI增强视频产品带入到规模应用中。欢迎大家前来会场一起探讨。

LiveVideoStack:好的,感谢您接受采访,期待您在大会上的精彩分享。


▼扫描下图二维码或点击阅读原文

了解大会更多信息

9be9593458d643abca0510e404c8627e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/391920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【STL】模拟实现list

目录 1、list介绍 所要实现类及其成员函数接口总览 2、结点类的模拟实现 基本框架 构造函数 3、迭代器类的模拟实现 迭代器类存在的意义 3.1、正向迭代器 基本框架 默认成员函数 构造函数 运算符重载 --运算符重载 !运算符重载 运算符重载 *运算符重载 …

MapReduce全排序和二次排序

排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于MapTask…

考研复试——操作系统

文章目录操作系统1. 操作系统的特征:2. 进程与线程的关系以及区别3. 简述进程和程序的区别4. 进程的常见状态?以及各种状态之间的转换条件?5. 进程的调度算法有哪些?6. 什么是死锁?产生条件?如何避免死锁&a…

【强化学习】强化学习数学基础:随机近似理论与随机梯度下降

强化学习数学基础:随机近似理论与随机梯度下降Stochastic Approximation and Stochastic Gradient Descent举个例子Robbins-Monro algorithm算法描述举个例子收敛性分析将RM算法用于mean estimationStochastic gradient descent算法描述示例和应用收敛性分析收敛模式…

Rainbond V5.12 版本发布,支持平台级插件和能力扩展

在这个版本中,我们主要支持了平台级的插件和能力扩展。希望能通过外部插件扩展平台能力,实现微内核的效果;同时以后将会继续精简安装,能让用户按需扩展平台功能。在 Kubernetes 兼容性这方面,我们也通过平台级的能力将…

详解JAVA类加载

目录 1.概述 2.双亲委派 3.ServiceClassLoader 4.URLClassLoader 5.加载冲突 1.概述 概念: 类加载器(Class Loader)是Java虚拟机(JVM)的一个重要组件,负责加载Java类到内存中并使其可以被JVM执行。类…

2023/3/6 VUE - 组件传值【通信】方式

1 父亲传子代传值【子代使用父代的数据】 1.1 props传值 父亲给儿子传值: 爷爷给孙子传值: 这个props传值的方式,只能一代一代的往下传,不能跨代传值。 有一个问题:子组件不能修改父组件的值: 1.2 …

MyBatis学习笔记(十) —— 动态SQL

10、动态SQL MyBatis框架的动态SQL技术是一种根据特定条件动态拼装SQL语句的功能,它存在的意义是为了解决拼接SQL语句字符串的痛点问题。 动态SQL: 1、if 标签:通过test属性中的表达式判断标签中的内容是否有效(是否会拼接到sql中…

RTOS中相对延时和绝对延时的区别

相信许多朋友都有过这么一个需求:固定一个时间(周期)去处理某一件事情。 比如:固定间隔10ms去采集传感器的数据,然后通过一种算法计算出一个结果,最后通过指令发送出去。 你会通过什么方式解决呢&#xf…

Redis缓存击穿,缓存穿透,缓存雪崩,附解决方案

前言在日常的项目中,缓存的使用场景是比较多的。缓存是分布式系统中的重要组件,主要解决在高并发、大数据场景下,热点数据访问的性能问题,提高性能的数据快速访问。本文以Redis作为缓存时,针对常见的缓存击穿、缓存穿透…

Java中 new Integer 与 Integer.valueOf 的区别

引入:new Integer(18) 与 Integer.valueOf(18) 有区别吗?有的话,有什么区别? 我们都知道,使用 new 关键字的时候,每次都会新创建一个对象。但是,Integer.valueOf() 会新创建一个对象吗&#xf…

Linux环境下实现并详细分析c/cpp线程池(附源码)

一、线程池原理 如果并发的线程数量很多,并且每个线程都是执行一个时间很短的任务就结束了,这样频繁创建线程就会大大降低系统的效率,因为频繁创建线程和销毁线程需要时间。 线程池是一种多线程处理形式,处理过程中将任务添加到…

Unity Animator.Play(stateName, layer, normalizedTime) 播放动画函数用法

原理 接口: public void Play(string stateName, int layer -1, float normalizedTime float.NegativeInfinity);参数含义stateName动画状态机的某个状态名字layer第几层的动画状态机,-1 表示播放第一个状态或者第一个哈希到的状态normalizedTime从s…

spring security 实现自定义认证和登录(4):使用token进行验证

前面我们实现了给客户端下发token,虽然客户端拿到了token,但我们还没处理客户端下一次携带token请求时如何验证,我们想要实现拿得到token之后,只需要验证token,不需要用户再携带用户名和密码了。 1. 禁用 UsernamePass…

崭新的centos虚拟机不能上网

原因 先说点简单的: 没启用虚拟机容器的网络选项虚拟机的网卡没启用手动设置了网关、掩码、dns等没设置对DHCP没开 做法 没启用虚拟机容器的网络选项 在virtualbox里面,开启虚拟机后右下角有个网络选项这里亮着就说明开了,没亮就右键打开…

BufferQueue研究

我们在工作的过程中,肯定听过分析卡顿或者冻屏问题的时候,定位到APP卡在dequeueBuffer方法里面,或者也听身边的同事老说3Buffer等信息。所以3Buffer是什么鬼?什么是BufferQueue?搞Android,你一定知道Graphic Buffer和…

理解js的精度问题

参考博客:js精度丢失问题-看这篇文章就够了(通俗易懂)、探寻 JavaScript 精度问题以及解决方案、JavaScript 浮点数陷阱及解法 1 为什么 JavaScript 中所有数字包括整数和小数都只有一种类型 即 Number类型,它的实现遵循 IEEE 754 标准。 符号位S&#…

MySQL运维篇之Mycat分片规则

3.5.3、Mycat分片规则 3.5.3.1、范围分片 根据指定的字段及其配置的范围与数据节点的对应情况,来决定该数据属于哪一个分片。 示例: 可以通过修改autopartition-long.txt自定义分片范围。 注意: 范围分片针对于数字类型的字段,…

Kubernetes Pod 水平自动伸缩(HPA)

Pod 自动扩缩容 之前提到过通过手工执行kubectl scale命令和在Dashboard上操作可以实现Pod的扩缩容,但是这样毕竟需要每次去手工操作一次,而且指不定什么时候业务请求量就很大了,所以如果不能做到自动化的去扩缩容的话,这也是一个…

IO文件操作

认识文件 狭义的文件 存储在硬盘上的数据,以“文件"为单位,进行组织 常见的就是普通的文件 (文本文件,图片, office系列,视频,音频可执行程序…)文件夹也叫做"目录" 也是一种特殊的文件。 广义的文件 操作系统,是要负责管理软硬件资源,操作系统(…