对话镕铭微电子蔡媛：深入理解用户痛点，满足差异化需求

“芯片不仅仅是一个硬件产品，为了更好的贴近用户、服务用户，我们需要在固件和软件的框架上投入足够的研发资源，与客户同步迭代更新，以适应其快速的业务迭代要求。在深入理解用户需求和痛点的基础上，满足用户差异化的功能需求。”LiveVideoStack很荣幸地邀请到了镕铭微电子解决方案架构总监蔡媛老师，和大家聊一聊硬件芯片在当前视频行业环境下所面临的机遇与挑战，以及硬件芯片产品开发与方案设计应该如何更好地贴近用户、服务用户，满足其更深层次的需求。

蔡媛(Amy.Cai)，镕铭微电子 , 解决方案架构总监

LiveVideoStack：Amy老师您好，非常高兴能邀请到您接受采访。首先，跟读者朋友们介绍下您自己吧。

Amy：大家好，我是蔡媛Amy。目前在镕铭微电子负责产品解决方案相关的工作，主要面向视频行业客户提供VPU芯片和高性能存储的产品解决方案。此前我在国内独立云计算公司担任视频云产品技术总监，主导点直播/云游戏相关的媒体处理、265编码、视频质量评测体系的建设和产品研发工作。更早时间就职于搜索公司基础架构团队，从事分布式存储系统和存储引擎相关的质量和开发工作。

LiveVideoStack：说一说您所关注的领域、技术以及目前的一些工作重点吧，有哪些有意思的事情或心得体会？可以跟大家分享一下。

Amy：近几年我主要是在视频处理和视频分发领域从事产品技术方面的工作，加入镕铭微电子后开始深入了解VPU芯片以及AI处理与视频芯片结合相关的产品，并与我们的产品技术团队一起打磨行业解决方案，包括视频直播、点播、云游戏、云桌面、OTT等领域，实现行业功能需求，为客户提供高效的视频处理方案。

以云游戏为例，为了满足云游戏全链路百毫秒以下延迟的要求，我们采用低延迟模式、零拷贝、多线程编码等技术，实现更低、更稳定的编码延迟。对于云游戏服务提供商而言，成本方面目前压力还是非常大的，其中带宽成本占超过50%。镕铭微电子最新一代编码器Quadra在相同画质下，较NVIDIA T4 llhp模式可节省30%以上的带宽。同时，我们还提供了码率平滑的功能，方便客户对码控有更多的控制，降低带宽波动。这些都是在与客户磨合过程中，从硬件层到软件层逐步完善优化的结果，为云游戏客户提供更具产品竞争力的解决方案。

在与客户对接的过程中我们体会到芯片不仅仅是一个硬件产品，为了更好地贴近用户、服务用户，我们需要在固件和软件的框架上投入足够的研发资源，与客户同步迭代更新，以适应其快速的业务迭代要求。在深入理解用户需求和痛点的基础上，满足用户差异化的功能需求。

LiveVideoStack：互联网视频内容的爆发增长，以及内容质量、分辨率要求的不断提升，带来了更高的视频处理算力及编解码性能需求。在这样的市场环境下，存在哪些机遇与挑战？镕铭微电子有哪些相应的工作与布局？

Amy：互联网视频内容的爆发增长对算力和带宽的要求急剧提高，视频流媒体已取代文字、图片等形式成为主流，直播、点播、短视频等视频应用已经占据互联网80%以上的流量。视频行业对于清晰度和流畅性的追求贯穿始终，需要不断提升分辨率、帧率、色域等参数以实现更好的视觉效果，4K、8K、10bit、HDR 已逐步在各大视频平台呈现出很好的效果。更进一步，视频将以感知和连接现实与虚拟世界为出发点，向三维立体的维度发展，衍生出原生云游戏、实时渲染、数字孪生等需求。传统的软件编码方式、其密度和TCO成本，已经无法应对这些带来的爆炸式的算力需求增长，VPU解决方案是一个必然的选择。

镕铭微电子最新一代产品Quadra单卡最高支持8K 60FPS的实时编解码，并实现低于百毫秒的延时。而H.265软编在8K 60FPS场景需要做大量的帧级/宏块级并行优化+复杂的分布式系统才能实现秒级延迟的直播效果。Quadra同时支持H.264/H.265/VP9解码，以及H.264/H.265/AV1的编码，是全球首个支持AV1编码的硬件编码器。在画质方面，Quadra较上一代产品从直播画质提高到点播处理要求的画质水平。在密度方面，在PCIe lane充足的NVME SSD机型的服务器，最高可以支持24张U.2形态的卡，整机可达768路1080P 30FPS编解码。在互联网对媒体算力要求爆炸性增长的环境下，镕铭微电子VPU能够帮助客户以最低的成本实现媒体处理能力的迭代升级。

LiveVideoStack：对比CPU、GPU、FPGA、ASIC等硬件方案, 考虑需求以及各项条件因素的影响应该怎样选择？

Amy：头部互联网公司和云计算公司都有异构计算平台，不同的方案有各自适合的场景以达到成本最优的目标。

GPU相对而言单路码流成本是非常高的，更适合对超级热流做超分超帧、画质质量检测、深度画质增强的处理。FPGA具备可编程的属性，成本也非常高，一块高性能FPGA成本就要几千美金。ASIC编解码芯片在满足超高清视频编解码的需求前提下，其TCO成本仅为行业性能领先的软件编码器成本的1/15 - 1/20，在密度和能耗上有显著优势，适合于大规模的视频编解码处理。谷歌在2021发布了其Argos ASIC视频处理芯片用于YouTube/Google album等应用, 每年节省数亿美元的费用。镕铭微电子的VPU视频处理芯片相较谷歌的Argos拥有更多功能和更强能力、更低功耗、以及更加优秀的系统适配能力，并已经得到海内外市场上多家大型客户的广泛使用和验证。

LiveVideoStack：镕铭微电子推出了首款商业硬件AV1编解码芯片，过去一段时间，其在性能、规模化应用等各方面的表现和反馈如何？后续还会有怎样的优化？

Amy：我们在2021年11月发布了全球首款AV1硬件编码器，为AV1在线视频处理提供了可行的选项。新一代产品Quadra的AV1编码器单芯片最高编码性能可达32路1080P 30FPS实时编码，在一台1U的服务器上插上10块Quadra U.2形态的卡，整机可支持320路AV1实时编码。高性能模式下，画质优于开源软编器SVT-AV1的画质；高画质模式下，性能消耗远低于SVT-AV1。

在部署方面，AOM联盟创始成员对AV1的部署会更加积极，海外的应用也较国内更快，海外目前AV1主要应用在点播/短视频上，分发的目标设备主要在智能电视和移动设备上。而迟迟未有动作的苹果，在最近的Safari新beta版本上也把AV1放到媒体支持API中。

目前我们正在与头部流媒体公司做AV1编码集成的验证工作，在这个过程也会持续对AV1的画质质量做调整优化。

LiveVideoStack：ASIC芯片开发无论是对硬件架构设计，软件实现或是场景优化等各项能力的要求都会非常高。镕铭微电子在这些方面具有怎样的优势？

Amy：确实是这样的，从业务要求、场景适配到运维层面要求都很高。镕铭微电子（NETINT）在创业之初，就定位在可计算存储和视频编解码领域，在芯片设计之初即面向云数据中心服务器端，在芯片架构层次上做了很多创新设计，全球率先采用了先进的Computational Storage架构，视频编解码通过标准的NVMe接口来处理，不需要私有的驱动程序。也因此实现业界最广泛的服务器硬件以及操作系统兼容性，保证了数据中心大规模部署上线的运维稳定性。

从软件实现上，我们从Logan这一代芯片2019年量产发布后，持续与头部互联网客户协同进行集成功能开发，并且做了大量音视频码流的兼容性工作，仅在测试场景的积累上已超过5万+用例覆盖，也帮助我们自己深刻理解客户应用场景。大家看我们的芯片规格也知道我们的重点之一是编解码。我们在编解码算法方面有很深的积累，通过服务全球的头部客户在应用领域积累了大量的经验，这些都体现在我们的硬件和软件系统中，得到客户的认可和信赖。

LiveVideoStack：当前，许多互联网厂商已经开始纷纷发力走上芯片自研的道路。对此，您如何看待？

Amy：数据中心计算最密集的应用程序就是视频，视频编解码更是如此，非常适合采用专用集成电路ASIC来完成。头部互联网厂商本身有巨大的视频流量，部分客户投入自研说明头部客户对VPU市场需求和解决方案的高度认可。但术业有专攻，互联网公司和芯片公司各有自己擅长的领域，预计未来VPU市场会形成头部自研客户和专业VPU芯片公司某种程度合作的局面。

另外，芯片的竞争也是生态体系的竞争，场景越丰富、用量越大、兼容的服务器厂商和操作系统越多，生态会更健全，也更理解海量客户的场景。镕铭微电子VPU作为一直深耕这个领域的领军者和专业厂商，我们也在不断地创新和优化，努力提供更加适用于不同场景、更加可靠的解决方案，成为客户可信赖的合作伙伴。

LiveVideoStack：对于未来下一代硬件视频编解码方案，在技术创新以及场景应用等方面，有哪些值得期待的可能？

Amy：对于下一代产品，向大家透露一些值得期待的方向。一方面是画质，片上的专用处理芯片将会把AI与视频编码结合，将原来GPU才能完成的画质增强、超分超帧能力、画质质量探测以更高效、更低的成本实现规模化应用；第二方面，对新的视频编码标准的支持也在产品规划内；第三方面是应用场景的适配，也将是未来的重点工作，包括互动娱乐场景、云渲染编码、云桌面场景、视频会议场景、OTT场景等都是值得期待的场景。

LiveVideoStack：接下来LiveVideoStackCon 2022北京站大会现场您还会带来怎样的精彩分享？可否提前跟大家剧透下，有哪些关键内容是值得关注的？

Amy：本次会议我将重点介绍镕铭微电子VPU如何帮助客户实现极致增效降"本"，在媒体计算上为客户实现20-40倍TCO成本下降，并提供稳健的运维方法、全面的服务器和内核兼容、免驱动适配能力，在运维层面保障在大规模数据中心的顺利落地，这些与镕铭微电子VPU的软硬件设计密切相关，我本次会对此做重点分享。同时，我将介绍基于新一代Quadra VPU的全球首个硬件智能极速高清产品，如何将历来成本高企的AI增强视频产品带入到规模应用中。欢迎大家前来会场一起探讨。

LiveVideoStack：好的，感谢您接受采访，期待您在大会上的精彩分享。

▼扫描下图二维码或点击阅读原文▼

了解大会更多信息