对话小红书剑寒:如何跨方向技术融合,全局优化打造更智能的音视频系统?...

news2024/11/23 20:51:53

38d268b6fcfe8d1c77fc5c1cc1545258.png

编者按:在 AI 时代,随着 ChatGPT 掀起技术狂潮,构建更智能的音视频系统已经成为音视频领域从业者的共同目标。

然而,音视频系统的智能化,每个从业者对其都有自己独特的视角和理解,正如“一千个人眼中有一千个哈姆雷特”一样。尽管没有统一的标准答案,我们访谈了小红书音视频架构师剑寒,聊聊他心中的智能化:像人眼一样感知质量是智能的,利用最新图像生成技术的画质增强和修复是智能的,利用AI改善编解码效果是智能的。

智能不仅于此,音视频系统更大的智能可能在于跨方向技术融合以及系统全局优化能力,从而实现看似矛盾的业务目标。作为视频 App 的新兴入围者,小红书如何选择自己的目标?

剑寒表示:首先,在技术方向上,结合业务优先级把单点技术能力做好;其次,重点迭代一些具有长期价值和收益的技术框架,比如云端”窄带高清”、端云结合超分、人眼感知的质量评估等;最终实现保证用户体验,又能降低成本的智能系统,从而实现业务目标的最优平衡。

希望对你有用,以下是对话:

LVS:可以概括介绍下你将在 LiveVideoStackCon 2023上海站分享的题目吗?

剑寒:我分享的题目是《基于人眼感知质量的端云结合画质及带宽优化实践》,也是”降本增效”背景下小红书的一个重点项目。如果简单看是一个端侧超分的算法落地,学术界和工业界基于这个技术点其实已经进行了很长的探索,但面向不同的业务场景和集成系统,端侧超分技术在业务目标和技术方向上会有很明显的区别。

比如面向一款新的硬件设备,只需要基于它的硬件加速器定制化地设计和优化算法即可。而视频业务及APP面向的终端用户设备多样复杂,技术优化的用户体验通常难以全面评估,落地覆盖率直接影响收益大小。

在这个场景下,端侧超分技术的演进方向不再是独立算法模块的设计和优化,而是结合从云端消费档位生产、人眼感知的质量评估到播控及端侧超分的整条视频处理链路的端到端优化,这会极大的释放端侧超分的潜力,一定程度上解决前面提到的技术挑战。本次分享是我们在这个主题下的一些系统总结和实践,当然这也是一个长期建设方向,当前我们已经拿到了一些收益,相信在这个框架下,未来通过技术迭代还会有很大的空间。

LVS:你怎么看待算力、成本和用户体验的这三角关系?

剑寒:从静态的角度来讲,不做任何技术的优化,可以考虑用更大的算力、更高的成本去实现用户体验的提升,比如大的算力可以支撑更高复杂度且更好效果的算法落地,也提升了算法处理的时效性;为了提升用户体验,我们可以提升视频消费码率,而带来带宽成本的增加。或者反过来,通过牺牲一些用户体验节省算力和成本。音视频领域有很多这种trade-off,也有很多特例,比如提升视频消费码率和分辨率一般情况会提升用户体验,但是在网络不好时可能会导致视频卡顿,用户体验反而下降。因此我更喜欢分析每个因素有什么优劣势,看每个变量在当前系统状态下会产生什么影响,针对具体业务目标case by case分析和决策。

而从动态的角度讲,由于技术是不停迭代的,可以通过技术优化同时提升用户体验并降低成本。比如现在每一代的编码标准,可以做到相同的质量下节省30%-50%的码率,这意味着用户体验基本不变,但是带宽成本就节省了很多。上面提到的端侧超分技术,也有类似的收益。除了技术优化,还有很多策略发挥作用。比如现在CDN的带宽成本是根据高峰期收费的,这里的策略是,在非高峰期的时候我可以增加码率来提升用户体验,但并不增加带宽成本。当然这里也涉及一个准确预测高峰期时段的问题。

所以说音视频这个领域,它其实是一个系统,并不是一个单一的点,我们可以从算法上以及系统的策略上同时实现看似矛盾的业务目标。

8247ecbd9db913d021e845f0a75d7ced.png

LVS:面对用户追求更高清更极致的视频体验趋势,视频编解码的技术显得至关重要,针对这个以及其它技术方向,你们团队有什么目标吗?

剑寒:视频编解码技术迭代非常重要,目前我们已经落地了H.265这一代标准,而且达到了很高的覆盖率,在研的包括AV1标准,已经开始了一些实验验证。未来H.266也可能会跟进。

除此之外,在AI时代,构建更智能的音视频处理是我们的一个目标,这里包括各种画质增强及修复技术、质量和内容分析技术、以及智能编码技术。在技术方向上,首先会结合业务优先级把单点技术能力做好,比如使用云端超分技术提升1080P视频占比,面向通用场景的纹理及清晰度视频增强。此外,我们会迭代一些具有长期价值和收益的技术框架,比如云端”窄带高清”、端云结合超分、人眼感知的质量评估等。

现在音视频处理的智能化程度其实还有很大空间,个人理解挑战主要有两个方面:

1.音视频处理不是单一技术,从当前技术发展来看,很难用一个大模型来实现,一个更智能的视频处理系统应该是包含high level语义理解、low level图像处理、编解码技术的某种融合体,而当前算法方向的典型人才画像是聚焦在某一个技术点上。我相信未来复合型人才和具有系统理解的算法人有机会做出突破。

2. 智能化意味着大数据驱动,ChatGPT的训练数据可以来自高质量的问答,通过自监督训练进行大规模学习,构建高质并准确的数据集在音视频领域会更加困难,Groudtruth以及退化模型是否准确通常是音视频算法面临的第一个关键问题。

目前业界的探索更多的集中在单点能力的智能化,比如利用图像生成技术的画质增强算法、利用AI提升编解码子模块效率等,这些都是我们可以跟进的技术点,但我们也希望在跨方向技术融合以及全局优化能力上做更多的探索和实践,为此来找到提升音视频系统智能化的有效途径。

LVS:每个人都有自己认为的主观好与坏,所以,该如何验证画质优化算法对主观质量提升是否有效?

剑寒:这个问题其实也是前一个问题回答中所说的“构建高质并准确的数据集在音视频领域会更加困难”的一个佐证,每个人对于画质好坏的判断都是不一样的。不过,是有国际标准来指导的,简单说就是,在一个可控环境条件下,通过专家评测和众测来判断画质是否有提升,其中众测是对于同一个视频收集多人的评价结果,通过统计的方法来消除个体上的差异,虽然不一定符合某个人的判断标准,但是代表了大多数人的意见。

当然,主观专家评测和众测由于时间和操作成本只能在小数据量上验证,真正上线还需要经过大盘的检验,这里一般会使用AB实验的方式,通过对比一些关键业务和技术指标来佐证大盘上的表现。需要注意的是,AB实验的影响因素很多,不完全是画质上的,需要结合方案具体分析实验数据。

LVS:作为一个非常大的UGC内容社区,小红书图像或视频的来源可以说非常宽泛,所以有时真实拍摄环境不受控,导致内容质量不能保证。这种质量评价问题,你是怎么处理的?

剑寒:我们今年落地了一个基于AI的无参考视频质量评估算法来解决这个问题,它基于人眼感知质量对任意视频做绝对质量评判,像你说的,UGC视频的多样性对于数据驱动的AI算法来说是一个挑战。此外,当视频经过整个视频链路的处理后质量变化也极大,带来了更大的复杂性,比如特效编辑、多档位视频增强和转码等。因此,数据集是要精心设计的,既要包含线上的主要质量问题,同时需要主动构造一些难以直接从线上采集到的case,核心点是,如何用尽量少的数据样本代表大盘,这里有一些技术上的辅助手段,比如数据采样方法。

算法设计上,重点是如何有效提取质量特征,这里需要对质量问题的产生过程有充分的认知,比如视频链路中编辑和转码会如何影响质量,我总结几个关键点分享给大家:

1. 全局构图和局部纹理信息都很重要,质量相关特征体现在局部纹理上,而劣化程度在于全局感知;2. 捕捉大范围时空信息及依赖关系,人眼对质量的感知涉及到整体语义理解、关注区域、创作意图理解等,很多视频处理操作会在较大的时空范围内影响质量,比如码率分配、ROI编码等。3. 质量评估数据集的量级和完备程度远低于分类识别等CV任务,我们需要某种显式地辅助质量特征提取的手段,一种方法是通过添加有序的质量样本或者利用质量评估的代理任务,进行数据增强及质量特征自监督学习。

5ade422295dd6325e90516f24b0cd268.png

扫描图中二维码或点击“阅读原文 查看更多精彩内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/717912.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为官宣2024年推出面向商用的5.5G全套网络设备

2023年6月29日华为董事、ICT产品与解决方案总裁杨超斌在2023 MWC上海展5G Advanced论坛上宣布,2024年,华为将会推出面向商用的5.5G全套网络设备。这也标志着ICT行业即将迈入5.5G时代。 经过四年的高速发展,5G建设已经取得了丰硕的成果。目前…

【花雕】全国青少年机器人技术一级考试备考实操搭建手册7

随着科技的不断进步,机器人技术已经成为了一个重要的领域。在这个领域中,机械结构是机器人设计中至关重要的一部分,它决定了机器人的形态、运动方式和工作效率。对于青少年机器人爱好者来说,了解机械结构的基础知识,掌…

MySql的操作跟命令

概述 仅仅为了加强记忆,废话不说,直接上正文。 快速开始 创建数据库。 进入MySql客户端,输入root用户的密码 Enter password: **** Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQL connection id is 16 Server vers…

第3章 创建项目并初始化业务数据(过程记录)

项目声明和依赖 ECommerceRecommendSystem [pom.xml] 公用的声明、依赖、插件 properties 声明 log4g:处理日志的框架(日志的具体实现)sel4g:简单日志门面(简单日志的接口)mongodb-spark:Mong…

Python 元类实现ORM

目录 ORM概念 __new__、__init__、__call__的介绍 通过元类简单实现ORM中的insert功能 抽取到基类中 ORM概念 ORM(Object Ralational Mapping,对象关系映射)用来把对象模型表示的对象映射到基于 SQL 的关系模型数据库结构中去。这样&am…

隔断推拉门滑动不畅常见的原因和解决方法

隔断推拉门滑动不畅常见的原因和解决方法如下: 1. 滑轨污秽:如果滑轨上有灰尘、油垢或杂物积聚,会影响推拉门的滑动效果。解决方法是定期清洁滑轨,使用吸尘器或刷子清除污垢,并用湿布擦拭干净。 2. 滑轨损坏&#xff1…

Git---分支管理

文章目录 前言一、理解分支二、创建分支三、切换分支四、合并分支五、删除分支六、合并冲突七、分支管理策略八、分支策略九、bug分支十、删除临时分支总结 前言 本篇博客开始介绍Git的杀手级功能之一 : 分支.分支就是科幻电影里面的平行宇宙,当你正在电脑前努力学习C的时候,另…

MySQL学习基础篇(六)---多表查询

MySQL学习基础篇(六)—多表查询 对于多表查询的理解: 多表查询,也称为关联查询,指两个或更多个表一起完成查询操作。 前提条件:这些一起查询的表之间是有关系的(一对一、一对多),它们之间一定是…

浅析EasyCVR视频技术与AR实景智能管理平台在智慧厂区中的应用

一、背景分析 新型智慧厂区是运用人工智能、大数据、物联网和设备监控技术加强厂区安保和信息管理。通过先进技术,保障厂区生产运营安全,同时减少生产线上的人工干预、及时正确地采集各类生产数据,以及合理的生产计划编排与生产进度&#xff…

线性规划的对偶问题(The Dual of LP)

线性规划的对偶问题(The Dual of LP) 对偶理论是线性规划中最重要的理论之一,是深入了 解线性规划问题结构的重要理论基础。同时,由于问题提 出本身所具有的经济意义,使得它成为对线性规划问题系 统进行经济分析和敏感…

原生 js点击空白处 关闭遮罩层(关闭某个div)

如图所示 点击空白处关闭此div document.addEventListener(click, function(e) {//监听页面点击事件var screenDoc document.querySelector(.controlHead);//需要关闭的divvar control document.querySelector(.control);//设置的按钮if (screenDoc && !screenDoc.co…

基于TF-IDF+Tensorflow+pyQT+孪生神经网络的智能聊天机器人(深度学习)含全部工程源码及模型+训练数据集

目录 前言总体设计系统整体结构图系统流程图孪生神经网络结构图 运行环境Python 环境TensorFlow 环境 模块实现1. 数据预处理2. 创建模型并编译3. 模型训练及保存4. 模型应用 系统测试1. 训练准确率2. 测试效果3. 模型应用 工程源代码下载其它资料下载 前言 本项目利用TF-IDF&…

【Docker、Dockerfile】使用Dockerfile创建镜像并运行容器

创建SpringBoot项目 创建一个Springboot的Java项目,然后打包成可运行的Jar 编写Dockerfile文件 在项目文件夹下创建Dockerfile文件,内容如下 # 定义用于构建镜像的 JDK 版本参数,可以在构建过程中通过 --build-arg 选项传递给 docker bui…

如何用adb命令统计app冷启耗时

第一步:杀掉App,然后重启,过滤Displayed日志,找到App启动的第一个Activity; adb logcat | grep Displayed 第二步:再次杀掉App,使用adb shell am start命令来启动app: adb shell a…

podman容器的使用

podman 安装 如果你想在rhel系统中玩podman,必须是rhel8.2版本以上。podman版本是1.9.3。从centos8.2开始默认情况下,除了最小化安装之外,系统都会默认安装podman。 如果你使用rhel8.2以上的版本,那么就直接安装podman就可以了。…

关于多grib文件合并以及netcdf和grib的方法

前言 之前在使用WRF做敏感性试验时,曾修改初始场的grib文件,并涉及到多个grib文件合并的情况,下面介绍一些好用的工具处理netcdf和grib 1、 grib_copy 官网:https://confluence.ecmwf.int/display/ECC/grib_copy 在Linux系统上…

从零实现深度学习框架——Seq2Seq模型尝试优化

引言 本着“凡我不能创造的,我就不能理解”的思想,本系列文章会基于纯Python以及NumPy从零创建自己的深度学习框架,该框架类似PyTorch能实现自动求导。 💡系列文章完整目录: 👉点此👈 要深入理解深度学习,从零开始创建的经验非常重要,从自己可以理解的角度出发,尽…

【操作系统核心概念】进程管理和进程调度

文章目录 前言1. 什么是操作系统2. 操作系统的定位3. 进程管理3.1 什么是进程/任务 (Process/Task)3.2 进程管理怎么做的3.3 进程控制块抽象PCB (Process Control Block)3.3.1 进程调度属性 4. 内存分配 ---- 内存管理 (Memory Manage)5. 进程间通信 (Inter Process Communicat…

带你看懂串口服务器

1、背景 串口服务器提供串口转网络功能,能够将RS-232/485/422串口转换成TCP/IP网络接口,实现RS-232/485/422串口与TCP/IP网络接口的数据双向透明传输。使得串口设备能够立即具备TCP/IP网络接口功能,连接网络进行数据通信,极大的扩…

Mac 脚本编辑器 (scriptEditor)

文章目录 1、打开 scriptEditor2、编写脚本3、执行脚本 1、打开 scriptEditor command 空格 输入 scriptEditor 2、编写脚本 脚本语言可以保存问文件,可以重复编辑 如下,每次打开一个新终端,执行新命令 tell application "Terminal&…