“多”维演进:智能编码的深度进化

news2024/10/5 15:35:39
我们在追求怎样的编码未来?

无处不在的视频渗透、井喷式的流量增长、多元的场景技术需求、用户对视频体验的“不将就”……音视频行业的快速发展却伴随着“编码标准升级速度缓慢”、“硬件红利见底”、“编码复杂度带来的成本问题”等众多挑战。

视频编码还“卷”得动吗?

究竟怎样的视频编码技术,才能满足既要又要的体验与成本平衡?

面向机器视觉的视频编码、虚拟现实视频、智能化应用视频......前浪翻滚而来,视频编码的“未来式”如何展开?

本文由IMMENSE、「阿里云视频云」视频编码服务端负责人陈高星和LiveVideoStack策划、采访而成。

需求很多,矛盾更多

技术迭代速度凝固了吗?摩尔定律走到尽头了吗?

视频编解码技术约10年提升50%压缩率,但这“十年磨一剑”的升级速度,早就跟不上视频信息量膨胀的速度。

新编码标准带来的编码复杂度增加,远高于CPU处理能力的增强,随之面临编码技术难以“普惠”的难题。

随着视频在更多应用场景的扩展探索,单一编码标准已难覆盖多种视频应用需求……

显然,一边是AR、VR时代的到来,以及4K、8K的高分辨率,60-120fps高帧率,10-12bit宽色域,让视频本身的信息量数倍膨胀;一边,是资源堆叠置换压缩效率,和“摩尔定律”的进步已经走到了“尽头”。加之,视频的“超低延时”对编码速度的要求,这一切,让视频体验、带宽、计算成本、编码速度之间的“矛盾”越发明显。

于是,我们始终面临更高清、更实时、更高效的编码需求,也面临技术与需求之间的诸多“矛盾”。

在这些似乎难以平衡的“矛盾”背景下,也衍生出许多值得进一步探讨的问题:

➤ 现有的编码标准在哪些方面关注不够?

➤ 如何先用好现有的编码标准?

➤ 现有的视频编码技术覆盖不到的维度有哪些?

➤ 除了码率和质量,视频编码是否需要关注更多的目标?

➤ 如何打破资源堆叠置换视频压缩效率提升的技术思维惯性?

……

从需求、矛盾、问题中,可引出深一层的认知:编码优化的目标不再仅仅考虑传统的主客观质量、复杂度、时延等维度,还有与AI处理能力的友好性、多平台下性能的适配性等。

问题的提出总是伴随着解题思路和技术方向的选择。

于是,推动着编解码架构从传统向更智能、更兼容的方向演进。

终极目标,有些偏倚

在优化编解码时,我们究竟需要追求什么?

当2015年阿里云视频云向业界提出了“窄带高清”的概念,并在2016年正式推出窄带高清技术品牌并产品化,这种既“降低码率”又“提高清晰度”的兼顾之方,几乎成为了业界的通用解法。

但是,不断演化之下到当前,业内开始流行一种“内卷”,即,过度追求"某客观指标数据"的优化。

然而,以“人”为中心的视频化视角,在最终的用户体验上,视频都应是更关注主观体验的。相反的是,在实际研发过程中,特别是编码器的优化上,通常都是依赖如:PSNR、SSIM、VMAF-NEG这样的“有源客观指标”。

诚然,在大部分情况下,客观质量的提升都能一定程度反映到主观质量的提升上,特别是当样本数足够大,且客观质量提升较大时,客观指标和主观感受能呈现一致性。

不过在窄带高清的优化实践中,也存在一些主客观优化“不一致”的情况。

比如:H.265标准中的SAO工具,用于改善振铃效应,但随之会降低VMAF和VMAF-NEG分数;

X265编码器里的PSY工具,在主观质量上能增加高频细节,但是对于客观指标都是不友好的;

又比如:JND和ROI技术,在挖掘视觉失真冗余的过程中,也不可避免地会造成有源客观指标的下降;

阿里云自研的码控算法,会对容易出现“块效应”等主观问题的区域分配更多码率以保护主观质量,但这也会导致客观质量下降;

还有,前处理增强中的各种修复生成技术,会直接对源进行修改,这类技术对于旨在评价“与源差异大小”的有源客观指标,都是不太友好的。

此外,针对单一客观指标的“过度优化”,也有可能造成单一客观指标与主观体验相悖的情况......

因此,单项客观指标的数值或高或低,都不应是视频编码优化追求的“终极目标”。

细微之处,方见视界

我们的编解码视界里,可以有哪些精妙解法?

在上述技术理念和智能编码架构的支撑下,“窄带高清2.0”从人眼视觉模型出发,将编码器的优化目标从“保真度更高”调整为“主观体验更好”。

这可以从视觉编码和细节修复两个视角来看。

在视觉编码维度,“窄带高清2.0”采用基于场景和内容的帧类型决策和块级码率分配,模式决策采用面向主观友好的算法。

在内容自适应编码部分,考虑到人眼感知的视频空间域的亮度、对比度以及时域失真是不连续的,通过基于恰可察觉失真(JND)自适应编码技术,丢弃视觉冗余信息,在主观质量不发生明显降低的情况下,可以大幅节省带宽;同时,通过ROI码控技术调整码率分配策略,进一步提升人眼感兴趣区域的清晰度。

在细节修复维度,“窄带高清2.0”采用基于生成对抗网络(GAN)的细节修复生成技术,在修复因编码压缩引起的马赛克效应和边缘毛刺的同时,“脑补”生成一些自然的纹理细节,使得画面纹理细节更丰富、更自然、更有质感。

更关键的是,应对垂直细分场景,我们的模型会对场景特征会实现更为智能的纹理生成。

比如:对于演唱会场景,曾为百视TV专属打造了Idol人像定制模版,针对优化人像区域的细节修复生成效果,将Idol的“怼脸直拍”,通过直播清晰还原送到观众屏幕前。

再比如:在NBA篮球比赛场景,AI修复模型加强了篮球场地板纹理、球员近景特写、球场边界线、地面广告字母、球衣上数字、篮球网等篮球体育赛事特有元素的修复生成,大大提升画面清晰度和整体视觉生动力表现。

也正是,唯有细微之处,方能见技术之极。

绕不开的“成本、成本、成本”

成本和体验的“非零和博弈”, 编解码怎么摆平?

正如“清晰度”和“带宽”是“窄带高清”需要平衡的天平两端,在当前“降本增效”的大环境之下,“体验”和“成本”的“非零和博弈”,一定是绕不开的话题。

成本(计算复杂度),体验(质量),这两者虽然是“trade-off”的权衡关系,但在某种程度上,也可以单方面优化提升。

比如,通过算法优化,在复杂度不变的情况下,将编码器的R-D曲线朝着更有性价比的方向优化;同时,通过高性价比的自适应快速算法的设计,也可以将质量的提升转化为成本的收益;又或者,通过底层优化并与计算平台的充分结合,挖掘异构编码的潜力,可以进一步在质量不变的情况下降低计算成本。

当然,在“让高压缩率算法和AI真正普惠”的路上,阿里云视频云所做的不仅于此。

与视频编码类似,在视频处理领域,深度学习从效果上已经远超传统方法,同时还在不断地快速进化,但深度学习对计算资源的高消耗,成为阻碍其在实际应用中广泛使用的主要原因。

阿里云视频云深度自研编码内核,包括s264、s265,落地100+算法,支持直播、点播、RTC场景,相对于开源,全场景20%+压缩率领先。

同时,我们引入AI辅助的编码决策,在码率分配和模式决策上提升内容自适应能力,极致挖掘视觉冗余,同等主观下,码率节省50%。

软硬结合,是破解编码天花板之技吗?

在算法层面和软件层面塑造的有限差异之上,要想塑造成本优势,必须将软件、算法与操作系统、硬件、乃至芯片,全线联动。

此基础上,基于自研倚天710芯片,视频云与倚天团队联合投入ARM视频编码优化,深度重构了视频编码数据结构、并行框架,重新调优了快速算法策略,从软件、汇编、硬件层面跨层深度优化,塑造极致性能。

同时,我们与平头哥深度合作,共建“软硬结合”自研芯片竞争力,通过算法、加速库、驱动、固件一体化设计,不断探索创新音视频技术,加强在更多视频应用、更多终端设备上的普适性,从而带来更节省、更低耗、更高清、更实时的硬核编码力,赋能千行百业的视频化需求。

没有想象,就没有进化

苹果的VisonPro,透射出编码的未来吗?

回顾文章开头的“矛盾”与问题,面对激增的海量视频数据、多元的视频内容形式,以及加速扩大的行业应用范围,视频编码如何“进化”的答案,也隐藏在行业的急速迭代之中。

如何实现更高压缩效率并匹配多样的细分场景?AI codec能实现比传统压缩标准更高的压缩效率,并能够在一些垂直场景有落地的机会,例如:业界已有基于深度学习的图像压缩,落地于卫星图像的压缩传输;

面对未来视频数据的消费场景不再单纯局限于人眼视觉,服务于机器视觉的视频编码也将迎来巨大应用市场。阿里云视频云团队已与高校深度合作,布局“面向人-机视觉的全新编码范例:高层语义与低层信号相结合的图像编码方案”;

而对于近期大热的苹果VisionPro的推出,作为视频行业工作者,十分乐见VR生态能在苹果的带领下,真正打出一片市场。因此,一些相关的沉浸式编码标准如MIV,点云编码,动态网格编码等技术,也将逐步投入研究……

未来已来,智能编码架构的“进化”,将会带来怎样的“新生”?

敬请关注7月28日

LiveVideoStackCon2023上海站

阿里云视频云专场

阿里云智能高级算法专家带来演讲

《“多”维演进:智能化编码架构的研究与实践》

共探“智能”编码技术的深度进化

🔗点击链接立即报名专场:https://alibaba-cloud.livevideostack.cn/ticket

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/719681.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL Server 2008 r2 修改sa密码 通过sql server 身份验证登陆

SQL Server的两种身份验证模式是Windows验证模式和SQL Server验证模式。 sql server 2008 r2 修改sa密码 通过sql server 身份验证登陆 【解决方法如下】 通过windows 身份验证登陆后,首先选中服务器(右键)->属性 ->安全性->服务器身份验证修改为"SQL SERVER和W…

浅谈电瓶车在线充电管理系统的设计与应用

安科瑞 华楠 摘要:基于ARM 硬件平台,研究了电瓶车充电技术,提出了一种智能型电瓶车在线安全充电系统,该系统可根据实际充电情况实现智能断电,同时提供给用户一种远程充电、断电的平台,目的是防止电瓶车过度…

港联证券|个人的分红要交税吗?

近年来,随着经济的快速发展,越来越多的人开始关注个人财务管理,其中一个重要的问题就是个人的分红是否需要缴纳税款。这个问题并不简单,需要从多个角度进行综合分析。 首先,我们需要明确一点,个人的分红属于…

浅谈数据中心机房动环监控系统可视化设计与研究

安科瑞电气股份有限公司 上海嘉定 201801 摘要:为了维护好数据中心机房动力环境,及时发现隐患和排除故障,降低管理成本控制能耗,提高运维效率,保障数据中心安全、高效、环保、稳定的运行,针对目前机房管理…

通过五点判断CRM系统是否好用

CRM管理系统在当今市场竞争中扮演着越来越重要的角色。因此,企业选择一款适合自己的CRM系统是非常关键的。那么,如何评价一款CRM系统是否好用? 1、功能是否全面 好用的CRM系统应该能够覆盖企业与客户交互的全过程,包括营销管理、…

【分布式技术专题】「缓存解决方案」一文带领你好好认识一下企业级别的缓存技术解决方案的运作原理和开发实战(数据缓存不一致分析)

一文带领你好好认识一下企业级别的缓存技术解决方案的运作原理和开发实战(数据缓存不一致问题分析) 数据不一致的原因逻辑失败导致的数据不一致物理失败导致的数据不一致 数据一致性的解决方案消费消息异步删除缓存主要流程如下图所示 订阅Binlog利用队列…

只出现一次的数字

题目链接 只出现一次的数字 题目描述 注意点 1 < nums.length < 30000-30000 < nums[i] < 30000除了某个元素只出现一次以外&#xff0c;其余每个元素均出现两次 解答思路 最初想到使用一种数据结构将元素存储起来&#xff0c;但是空间复杂度为O(n)&#xff0…

Linux(ubuntu)上安装vmware workstation虚拟机

Linux&#xff08;ubuntu&#xff09;上安装vmware workstation虚拟机 首先下载vmware workstation 官网下载地址&#xff1a;https://www.vmware.com/products/workstation-pro/workstation-pro-evaluation.html 下滑至页面下方下载&#xff1a; 或者点击此处下载 下载完成后…

首发价11999元?华为智慧屏S3Pro电视7月10日上市

华为最新推出了两款全新的智慧屏 S3 Pro&#xff0c;分别是65英寸和75英寸版本&#xff0c;售价分别为5999元和7999元。除此之外&#xff0c;华为还推出了全新的S3 Pro 86英寸型号&#xff0c;首发价为11999元。这款电视将于7月10日上市&#xff0c;对于感兴趣的用户来说&#…

押注数字人,百度、科大讯飞“短兵相接”

配图来自Canva可画 近两年&#xff0c;小雀斑、柳夜熙、AYAYI等大量网红数字人的相继出现&#xff0c;以及虚拟数字技术在《指环王》和《阿凡达》以及《刺杀小说家》等电影中的广泛应用&#xff0c;还有北京冬奥会期间数字人在手语解说、节目直播等众多场合亮相&#xff0c;使…

2024浙大GMSCM提面第一场:全英文项目的生死选择题

本周末是今年浙大MBA非全英文项目GMSCM的第一场提前批面试&#xff0c;作为诸多方向中相对比较稳定的项目之一&#xff0c;GMSCM项目每年的提前批面试申请也都表现的比较稳健&#xff0c;而其目前主要的招生也是依托于提前批面试&#xff0c;根据这几年的情况&#xff0c;每年浙…

vue+cesium 获取鼠标浮动的经纬度

一、需求 是在地图中展示鼠标的经纬度 二、成果展示 三、思路和方法 html <div class"mouseMove" v-if"mouseMove.lat"><div v-if"mouseMove.lat">经度&#xff1a;{{ mouseMove.lng }}</div><div v-if"mouseMove…

关于研究SELECT * 是否会导致SQL查询效率变低的问题

引言 无论在工作还是面试中&#xff0c;关于SQL中不要用“SELECT *”的问题&#xff0c;经常会被大家用作讨论&#xff0c;虽说听烂了&#xff0c;但普遍理解还是在很浅的层面&#xff0c;并没有多少人去追根究底&#xff0c;探究其原理。 一、效率低的原因 先看一下最新《阿…

计算机网络_ 1.3 网络核心(数据交换_电路交换_多路复用)

计算机网络_数据交换_电路交换_多路复用 多路复用频分多路复用FDM时分多路复用TDM波分多路复用WDM码分多路复用CDM 多路复用 多路复用&#xff08;Multiplexing&#xff09;&#xff0c;简称复用&#xff0c;是通信技术的基本概念。 链路/网络资源&#xff08;如带宽&#x…

【动态规划算法】第四题:91.解码方法

&#x1f496;作者&#xff1a;小树苗渴望变成参天大树 &#x1f389;作者宣言&#xff1a;认真写好每一篇博客 &#x1f38a;作者gitee:gitee &#x1f49e;作者专栏&#xff1a;C语言,数据结构初阶,Linux,C 动态规划算法 如 果 你 喜 欢 作 者 的 文 章 &#xff0c;就 给 作…

一建建筑周超口袋书

第一部分 建筑工程技术1A414000 建筑工程材料[B-4,2021] 常见的高分子防水卷材有哪些?三元乙丙、聚氯乙烯、氯化聚乙烯、氯化聚乙烯-橡胶共混及三元丁橡胶防水卷材记忆技巧三单数年考试中&#xff0c;2011 年屋面女儿墙渗漏水处理&#xff0c;2015 年女儿墙防水识图找错&#…

element ui table 状态用switch展示

效果图如下 方法一&#xff1a;将图片封装成组件 1.&#xff1a;ImgswitchOpen.vue 2&#xff1a;页面引入组件 3&#xff1a;使用 方法二&#xff1a;引入图片 1&#xff1a;引入图片 2&#xff1a;在data中定义 3.使用

垂直领域大模型:从医疗ChatDoctor到金融BloombergGPT、法律ChatLaw/LawGPT_zh

第一部分 各种医疗类ChatGPT&#xff1a;或中英文数据微调LLaMA、或中文数据微调ChatGLM 1.1 基于LLaMA微调的中英文版ChatDoctor 1.1.1 ChatDoctor&#xff1a;通过self-instruct技术提示API的数据和医患对话数据集微调LLaMA Github上有一个基于LLaMA模型的医疗微调模型&am…

c++高性能264/265实时h5流媒体服务器前后端整体解决方案

c高性能264/265实时h5流媒体服务器前后端整体解决方案 1.效果展示 下图展示了前端播放效果。 播放1路264视频流&#xff0c;4路265视频流 CPU占用率10%(测试机器上运行着c服务端和其他工具程序) GPU0占用率17% 1.1 作者测试机器配置 处理器 11th Gen Intel Core™ i7-118…

如何确定适合网站的长尾关键词?

确定适合网站的长尾关键词&#xff0c;需要进行以下几个步骤&#xff1a; 1. 目标受众分析&#xff1a;首先&#xff0c;要确定网站的目标受众是谁。了解目标受众的特点和需求&#xff0c;可以帮助我们选择适合他们的长尾关键词。例如&#xff0c;如果目标受众是学生&#xff…