我们在追求怎样的编码未来？

无处不在的视频渗透、井喷式的流量增长、多元的场景技术需求、用户对视频体验的“不将就”……音视频行业的快速发展却伴随着“编码标准升级速度缓慢”、“硬件红利见底”、“编码复杂度带来的成本问题”等众多挑战。

视频编码还“卷”得动吗？

究竟怎样的视频编码技术，才能满足既要又要的体验与成本平衡？

面向机器视觉的视频编码、虚拟现实视频、智能化应用视频......前浪翻滚而来，视频编码的“未来式”如何展开？

本文由IMMENSE、「阿里云视频云」视频编码服务端负责人陈高星和LiveVideoStack策划、采访而成。

需求很多，矛盾更多

技术迭代速度凝固了吗？摩尔定律走到尽头了吗？

视频编解码技术约10年提升50%压缩率，但这“十年磨一剑”的升级速度，早就跟不上视频信息量膨胀的速度。

新编码标准带来的编码复杂度增加，远高于CPU处理能力的增强，随之面临编码技术难以“普惠”的难题。

随着视频在更多应用场景的扩展探索，单一编码标准已难覆盖多种视频应用需求……

显然，一边是AR、VR时代的到来，以及4K、8K的高分辨率，60-120fps高帧率，10-12bit宽色域，让视频本身的信息量数倍膨胀；一边，是资源堆叠置换压缩效率，和“摩尔定律”的进步已经走到了“尽头”。加之，视频的“超低延时”对编码速度的要求，这一切，让视频体验、带宽、计算成本、编码速度之间的“矛盾”越发明显。

于是，我们始终面临更高清、更实时、更高效的编码需求，也面临技术与需求之间的诸多“矛盾”。

在这些似乎难以平衡的“矛盾”背景下，也衍生出许多值得进一步探讨的问题：

➤ 现有的编码标准在哪些方面关注不够？

➤ 如何先用好现有的编码标准？

➤ 现有的视频编码技术覆盖不到的维度有哪些？

➤ 除了码率和质量，视频编码是否需要关注更多的目标？

➤ 如何打破资源堆叠置换视频压缩效率提升的技术思维惯性？

……

从需求、矛盾、问题中，可引出深一层的认知：编码优化的目标不再仅仅考虑传统的主客观质量、复杂度、时延等维度，还有与AI处理能力的友好性、多平台下性能的适配性等。

问题的提出总是伴随着解题思路和技术方向的选择。

于是，推动着编解码架构从传统向更智能、更兼容的方向演进。

终极目标，有些偏倚

在优化编解码时，我们究竟需要追求什么？

当2015年阿里云视频云向业界提出了“窄带高清”的概念，并在2016年正式推出窄带高清技术品牌并产品化，这种既“降低码率”又“提高清晰度”的兼顾之方，几乎成为了业界的通用解法。

但是，不断演化之下到当前，业内开始流行一种“内卷”，即，过度追求"某客观指标数据"的优化。

然而，以“人”为中心的视频化视角，在最终的用户体验上，视频都应是更关注主观体验的。相反的是，在实际研发过程中，特别是编码器的优化上，通常都是依赖如：PSNR、SSIM、VMAF-NEG这样的“有源客观指标”。

诚然，在大部分情况下，客观质量的提升都能一定程度反映到主观质量的提升上，特别是当样本数足够大，且客观质量提升较大时，客观指标和主观感受能呈现一致性。

不过在窄带高清的优化实践中，也存在一些主客观优化“不一致”的情况。

比如：H.265标准中的SAO工具，用于改善振铃效应，但随之会降低VMAF和VMAF-NEG分数；

X265编码器里的PSY工具，在主观质量上能增加高频细节，但是对于客观指标都是不友好的；

又比如：JND和ROI技术，在挖掘视觉失真冗余的过程中，也不可避免地会造成有源客观指标的下降；

阿里云自研的码控算法，会对容易出现“块效应”等主观问题的区域分配更多码率以保护主观质量，但这也会导致客观质量下降；

还有，前处理增强中的各种修复生成技术，会直接对源进行修改，这类技术对于旨在评价“与源差异大小”的有源客观指标，都是不太友好的。

此外，针对单一客观指标的“过度优化”，也有可能造成单一客观指标与主观体验相悖的情况......

因此，单项客观指标的数值或高或低，都不应是视频编码优化追求的“终极目标”。

细微之处，方见视界

我们的编解码视界里，可以有哪些精妙解法？

在上述技术理念和智能编码架构的支撑下，“窄带高清2.0”从人眼视觉模型出发，将编码器的优化目标从“保真度更高”调整为“主观体验更好”。

这可以从视觉编码和细节修复两个视角来看。

在视觉编码维度，“窄带高清2.0”采用基于场景和内容的帧类型决策和块级码率分配，模式决策采用面向主观友好的算法。

在内容自适应编码部分，考虑到人眼感知的视频空间域的亮度、对比度以及时域失真是不连续的，通过基于恰可察觉失真（JND）自适应编码技术，丢弃视觉冗余信息，在主观质量不发生明显降低的情况下，可以大幅节省带宽；同时，通过ROI码控技术调整码率分配策略，进一步提升人眼感兴趣区域的清晰度。

在细节修复维度，“窄带高清2.0”采用基于生成对抗网络（GAN）的细节修复生成技术，在修复因编码压缩引起的马赛克效应和边缘毛刺的同时，“脑补”生成一些自然的纹理细节，使得画面纹理细节更丰富、更自然、更有质感。

更关键的是，应对垂直细分场景，我们的模型会对场景特征会实现更为智能的纹理生成。

比如：对于演唱会场景，曾为百视TV专属打造了Idol人像定制模版，针对优化人像区域的细节修复生成效果，将Idol的“怼脸直拍”，通过直播清晰还原送到观众屏幕前。

再比如：在NBA篮球比赛场景，AI修复模型加强了篮球场地板纹理、球员近景特写、球场边界线、地面广告字母、球衣上数字、篮球网等篮球体育赛事特有元素的修复生成，大大提升画面清晰度和整体视觉生动力表现。

也正是，唯有细微之处，方能见技术之极。

绕不开的“成本、成本、成本”

成本和体验的“非零和博弈”, 编解码怎么摆平？

正如“清晰度”和“带宽”是“窄带高清”需要平衡的天平两端，在当前“降本增效”的大环境之下，“体验”和“成本”的“非零和博弈”，一定是绕不开的话题。

成本（计算复杂度），体验（质量），这两者虽然是“trade-off”的权衡关系，但在某种程度上，也可以单方面优化提升。

比如，通过算法优化，在复杂度不变的情况下，将编码器的R-D曲线朝着更有性价比的方向优化；同时，通过高性价比的自适应快速算法的设计，也可以将质量的提升转化为成本的收益；又或者，通过底层优化并与计算平台的充分结合，挖掘异构编码的潜力，可以进一步在质量不变的情况下降低计算成本。

当然，在“让高压缩率算法和AI真正普惠”的路上，阿里云视频云所做的不仅于此。

与视频编码类似，在视频处理领域，深度学习从效果上已经远超传统方法，同时还在不断地快速进化，但深度学习对计算资源的高消耗，成为阻碍其在实际应用中广泛使用的主要原因。

阿里云视频云深度自研编码内核，包括s264、s265，落地100+算法，支持直播、点播、RTC场景，相对于开源，全场景20%+压缩率领先。

同时，我们引入AI辅助的编码决策，在码率分配和模式决策上提升内容自适应能力，极致挖掘视觉冗余，同等主观下，码率节省50%。

软硬结合，是破解编码天花板之技吗？

在算法层面和软件层面塑造的有限差异之上，要想塑造成本优势，必须将软件、算法与操作系统、硬件、乃至芯片，全线联动。

此基础上，基于自研倚天710芯片，视频云与倚天团队联合投入ARM视频编码优化，深度重构了视频编码数据结构、并行框架，重新调优了快速算法策略，从软件、汇编、硬件层面跨层深度优化，塑造极致性能。

同时，我们与平头哥深度合作，共建“软硬结合”自研芯片竞争力，通过算法、加速库、驱动、固件一体化设计，不断探索创新音视频技术，加强在更多视频应用、更多终端设备上的普适性，从而带来更节省、更低耗、更高清、更实时的硬核编码力，赋能千行百业的视频化需求。

没有想象，就没有进化

苹果的VisonPro，透射出编码的未来吗？

回顾文章开头的“矛盾”与问题，面对激增的海量视频数据、多元的视频内容形式，以及加速扩大的行业应用范围，视频编码如何“进化”的答案，也隐藏在行业的急速迭代之中。

如何实现更高压缩效率并匹配多样的细分场景？AI codec能实现比传统压缩标准更高的压缩效率，并能够在一些垂直场景有落地的机会，例如：业界已有基于深度学习的图像压缩，落地于卫星图像的压缩传输；

面对未来视频数据的消费场景不再单纯局限于人眼视觉，服务于机器视觉的视频编码也将迎来巨大应用市场。阿里云视频云团队已与高校深度合作，布局“面向人-机视觉的全新编码范例：高层语义与低层信号相结合的图像编码方案”；

而对于近期大热的苹果VisionPro的推出，作为视频行业工作者，十分乐见VR生态能在苹果的带领下，真正打出一片市场。因此，一些相关的沉浸式编码标准如MIV，点云编码，动态网格编码等技术，也将逐步投入研究……

未来已来，智能编码架构的“进化”，将会带来怎样的“新生”？

敬请关注7月28日

LiveVideoStackCon2023上海站

阿里云视频云专场

阿里云智能高级算法专家带来演讲

《“多”维演进：智能化编码架构的研究与实践》

共探“智能”编码技术的深度进化

🔗点击链接立即报名专场：https://alibaba-cloud.livevideostack.cn/ticket

“多”维演进：智能编码的深度进化

需求很多，矛盾更多

技术迭代速度凝固了吗？摩尔定律走到尽头了吗？

终极目标，有些偏倚

在优化编解码时，我们究竟需要追求什么？

细微之处，方见视界

我们的编解码视界里，可以有哪些精妙解法？

绕不开的“成本、成本、成本”

成本和体验的“非零和博弈”, 编解码怎么摆平？

软硬结合，是破解编码天花板之技吗？

没有想象，就没有进化

苹果的VisonPro，透射出编码的未来吗？

未来已来，智能编码架构的“进化”，将会带来怎样的“新生”？

相关文章

SQL Server 2008 r2 修改sa密码通过sql server 身份验证登陆

浅谈电瓶车在线充电管理系统的设计与应用

港联证券|个人的分红要交税吗？

浅谈数据中心机房动环监控系统可视化设计与研究

通过五点判断CRM系统是否好用

【分布式技术专题】「缓存解决方案」一文带领你好好认识一下企业级别的缓存技术解决方案的运作原理和开发实战（数据缓存不一致分析）

只出现一次的数字

Linux（ubuntu）上安装vmware workstation虚拟机

首发价11999元？华为智慧屏S3Pro电视7月10日上市

押注数字人，百度、科大讯飞“短兵相接”

2024浙大GMSCM提面第一场：全英文项目的生死选择题

vue+cesium 获取鼠标浮动的经纬度

关于研究SELECT * 是否会导致SQL查询效率变低的问题

计算机网络_ 1.3 网络核心（数据交换_电路交换_多路复用）

【动态规划算法】第四题：91.解码方法

一建建筑周超口袋书

element ui table 状态用switch展示

垂直领域大模型：从医疗ChatDoctor到金融BloombergGPT、法律ChatLaw/LawGPT_zh

c++高性能264/265实时h5流媒体服务器前后端整体解决方案

如何确定适合网站的长尾关键词？