视频云沉浸式音视频技术能力探索与建设

news2025/1/11 17:52:47

概述

随着传输技术、显示技术与算力的持续提升,用户对于音视频体验的需求在提高,各家设备厂商也在探索和推出对应的技术与产品。打造空间感的空间视频与空间音频是其中最为关键的2项技术,bilibili视频云在这两项技术领域也进行了相关代探索与建设。

空间视频

背景

图片

双目视差3D显示原理

人类视觉的空间感,来自于人类双眼的视角差,传统的2D视频为双眼提供的相同视角的画面,在此基础上,为双眼分别提供一幅互相具有视角差的画面,在设备端,通过各类光学和显示组件,降对应的画面投射到对应的眼镜,即可显著提升观影的沉浸感。对于视频云团队,我们最为关心的数据编码层面相关的技术。该领域目前存在2类方案,传统的2D编码与苹果在最新产品上使用的MultiView编码

相比使用传统2D HEVC编码3D内容,MV-HEVC有大约20%~30%的压缩率提升,且在解码侧不支持MV-HEVC解码时,仍然可以以单目的形式得到单眼的画面,行为与2D视频一致。

目前该技术的生态还较为薄弱,生产侧目前只有iPhone15pro系列与VisionPro眼镜支持拍摄,只能在VisionPro眼睛上实现3D观看。

2D编码

图片

2D编码空间视频

如上图所示,该编码方式是将空间视频的左右眼画面在空域内合并在一个2D画面上,使用传统的2D视频编解码技术即可实现内容传输,再播放端分割画面后得到左右眼画面,进行3D渲染。根据不同的空间布局与尺寸关系,可进一步区分为如下几种格式:

格式

内容分辨率

单眼分辨率

传输分辨率

HSBS 半宽左右

1920x1080

960x1080

1920x1080

FSBS 全宽左右

1920x1080

1920x1080

3840x1080

HOU 半高上下

1920x1080

1920x540

1920x1080

FOU 全高上下

1920x1080

1920x1080

1920x2160

该方案开发和执行成本较低,只需在采集与渲染做一些适配开发工作,中间传输都可以复用现有系统。而相对的,由于无法告知视频编码器左右眼画面,继而无法有效挖掘左右眼画面之间的数据冗余度,造成编码压缩率较低,需要较大的传输带宽,一般来说同内容的3D视频会比其2D版本需要额外的50%~100%的传输带宽。

当前线上也已经有采用该方案的视频投稿,如BV1Nh411a7Q1

 MultiView编码

MV编码是视频编码领域,针对类似场景而生的技术方案,可以有效利用左右眼画面之间的数据冗余,显著提升压缩率。而此次苹果在iPhone15pro和VisionPro上采用的,就是在HEVC基础之上的MV-HEVC技术。

图片

MultiView编码原理

相比使用传统2D HEVC编码3D内容,MV-HEVC有大约20%~30%的压缩率提升,且在解码侧不支持MV-HEVC解码时,仍然可以以单目的形式得到单眼的画面,行为与2D视频一致。

目前该技术的生态还较为薄弱,生产侧目前只有iPhone15pro系列与VisionPro眼镜支持拍摄,只能在VisionPro眼睛上实现3D观看。

视频云空间视频探索与建设

规划方案

综合考虑两种方案各自的优缺点,我们认为较为适合当前点播类业务形态的方式可以简单归纳为:

  1. 支持以MV-HEVC的投稿输入,以支撑iPhone用户的UGC投稿

  2. 云端侧实现苹果设备拍摄的MV-HEVC空间视频到SBS空间视频的转码,使用SBS进行分发与播放,来实现尽可能多的VV覆盖

图片

空间视频转码方案

基于该方案的需求,我们需要建设的是从苹果MV-HEVC到SBS的转码能力,该项工作目前还未得到开源社区的支持,我们根据自身业务需求,基于现有的转码框架进行了相关能力的开发,主要覆盖以下3个部分的工作。

空间视频识别

根据苹果提供的封装侧技术文档,通过在转码框架中识别相应的MP4 BOX,从而实现了使用命令行识别出苹果空间视频的能力。结果示例如下:

图片

空间视频识别结果示例

HTM解码器封装&集成

目前的多媒体开源框架都未提供MV-HEVC解码器,使用常规解码器解码码流只能得到layer-0的主视角画面。所幸,我们在JCT-3V组织的HTM编解码库找到了相关能力的支持,但是项目本身是为了验证H265协议而实现的,只针对二进制流数据进行操作,需要将其封装成转码框架接口的解码器。

同时为了让解码器能正常工作,需要在mov的解封装器中获取lhvC信息。我们添加新的mvhevc_mp4toannexb二进制滤镜,将封装信息嵌入到数据流中,得到二进制数据。然后送入HTM解码器得到layer0,layer1单独的raw数据。

图片

HTM使用流程

SBS转帧输出

要得到正确的SBS画面,需要确定MV-HEVC的layer与视角的映射关系,这部分由码流中的vps和sei信息来确定。我们使用转码框架的现有能力提取到vps信息。通过修改HTM接口,对外暴露解码得到的sei信息。

图片

图片

vps信息(上)sei信息(下)

如果要得到SBS格式视频,还需要对raw数据进行左右眼帧对齐、图像拼接,二次编码等操作。我们对HTM封装新的接口,并将其集成在转码框架中,得到了新的解码器mv_hevc。在新解码器中实现SBS格式数据生成逻辑,再根据所需要的SBS格式输出结果,搭建了如下的处理流程

图片

空间视频转码流程示意图

空间视频转码结果示例如下图:

图片

图片

半宽拼接HSBS(上) 全宽拼接FSBS(下) 

空间音频

背景

在空间音频领域,视频云曾在2020年接入了杜比全景声的相关能力,从业务侧的反馈也印证了用户对于沉浸式音频的需求,体现了这项技术的价值。

菁彩声(Audio Vivid)是全球首个基于AI技术的三维声标准,由世界超高清产业联盟(简称UWA联盟)率先提出。2023年7月,其成为了国家4K超高清电视技术应用实施指南 (2023 版:http://www.nrta.gov.cn/attach/0/e0e2b226e24c4a74a910bbcc02ccc147.pdf)中的空间音频标准,这也间接指引了我们在该技术领域的投入方向。

Audio Vivid三维声技术

三维声音相对于传统声音增添了空间和方位感,使听众能够沉浸在仿佛置身真实世界中的声音体验中。

Audio Vivid的实现方式主要有以下几种方式:基于声道的实现、基于声床的实现、基于声场的实现、基于对象的实现,其中对象信号可以和另外三种信号互相组合,如下图。

图片

Audio Vivid的三种实现方式

传统的5.1或者7.1声道制作的音频,在超过声道数目的扬声器下无法发挥出扬声器的最大价值——更多的扬声器也只能渲染出音频文件所指示的声道数目。

Audio Vivid中基于声床+对象的实现很好地解决了上述的问题,声床信号承载了基本环境声,对象信号承载的是一系列单声道的音频及其元数据。它在生产端不需要考虑声道的布局,只需要考虑对象的位置,强度,大小,然后将其编码为元数据即可。

在渲染端播放器会根据扬声器的数目和元数据来进行渲染,这样不仅能发挥更多扬声器的作用,还能将声音在三维空间中的运动准确重现出来,极具沉浸感。除此,在渲染端,用户可以根据自身的喜好对每个对象的位置和属性进行实时调整,从而满足用户多样化的需求。

Audio Vivid也包含基于声场的实现方式。基于声场的实现方式主要依托于HOA(Higher Order Ambisonics)技术,它是一种定义在球体表面上的3D声场建模格式,可以在任何设备(如耳机、扬声器、音箱)上对声场实现准确处理和重构。

工程化实践

目前B站已经在云端建设了完整的Audio Vivid处理能力。对于投稿的Audio Vivid音频,我们能透传一路Audio Vivid音频作为一路音轨。同时,为了兼容那些没有Audio Vivid渲染能力的终端设备,我们还会转出一路经过双耳渲染的立体声音轨。

若终端设备有能力进行Audio Vivid的渲染,它可以通过多组扬声器来呈现Audio Vivid的三维声效,或者进行双耳渲染。否则,终端设备将以兼容模式播放由服务端渲染好的立体声音轨。下图详细展示了Audio Vivid在服务端和终端的处理流程。

图片

Audio Vivid服务端和终端处理流程示意图

我们在云端的转码过程中进行了大量的工作,以集成Audio Vivid。

参考处理流程

UWA联盟提供的参考代码是基于文件流的,如果不修改参考代码进行二进制渲染,我们只能先使用参考代码进行解封装,将以MP4封装的Audio Vivid音频解封装为xxx.av3a。

之后,需要调用参考代码的编译得到的解码二进制文件,将其用于解码为多通道WAV音频流。最后,调用参考代码将多通道WAV渲染为立体声WAV,并通过转码二进制进行立体声编码。

这种多步骤的双耳渲染方法效率较低,因此我们基于参考代码进行了一系列改造,并将其整合到现有的音频生产流程中

视频云处理流程

基于参考代码,进行相关改动

  • 将仅支持windows平台的Audio Vivid解码的参考代码移植到linux,以支持服务端的的解码;

  • 将仅支持文件流的解码模块修改为内存流,以方便接入其它流行的多媒体框架;

  • 将解码模块和渲染模块重构后接入多媒体框架,以便进行流式处理;

重构前和重构之后的双耳渲染流程示意图如下图:

图片

重构代码前的双耳渲染处理流程示意图

图片

重构代码后的双耳渲染处理流程示意图

代码重构后,我们只需要一个转码二进制文件,就可以以流式方式对Audio Vivid音频进行解封装、解码、双耳渲染和编码等操作,而无需反复读写文件,从而避免性能下降的问题。这种优化不仅可以缩短处理时间,还可以减少中间过程对存储的消耗,并且非常适用于直播场景。除此,我们也修改了bento4的部分代码,来适配Audio Vivid的转Dash过程,以实现Audio Vivid的动态自适应流媒体传输。

参考资料

  • Multiview High Efficiency Video Coding (MV-HEVC) | HEVC(http://hevc.info/mvhevc

  • 265:High efficiency video coding(https://www.itu.int/rec/T-REC-H.265

  • https://developer.apple.com/av-foundation/HEVC-Stereo-Video-Profile.pdf

  • 三维菁彩声(Audio Vivid) 技术白皮书(V1.0)

  • T/UWA 009.1-2022 三维声音技术规范 第 1 部分:编码分发与呈现

-End-

作者丨lhcde、猫先生、老王

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1845795.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

足底筋膜炎的症状

足底筋膜炎是足底的肌腱或者筋膜发生无菌性炎症所致,其症状主要包括: 1、疼痛:这是足底筋膜炎最常见和突出的症状。疼痛通常出现在足跟或足底近足跟处,有时压痛较剧烈且持续存在。晨起时或长时间不活动后,疼痛感觉尤为…

计算机系统基础(一)

1. 引入——从源程序到可执行文件 了解高级语言编写的代码在后台是如何被编译并运行的 首先我们会编写一段代码&#xff0c;例如 #include<stdio.h>int main(){printf("hello world!\n");return 0; } 并把它命名为hello.c文件 预处理阶段 接下来通过命令…

数据结构--单链表(图文)

单链表的概念 在单链表中&#xff0c;每个元素&#xff08;称为节点&#xff09;包含两部分&#xff1a;一部分是存储数据的数据域&#xff0c;另一部分是存储下一个节点地址的指针域。这里的“单”指的是每个节点只有一个指向下一个节点的指针。 节点&#xff1a;链表中的基…

网络协议安全:TCP/IP协议栈的安全问题和解决方案

「作者简介」:北京冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础对安全知识体系进行总结与归纳,著作适用于快速入门的 《网络安全自学教程》,内容涵盖Web安全、系统安全等12个知识域的一百多个知识点,持续更新。 这一章节我们需要知道TCP/IP每…

2024最新最全【网络安全/渗透测试】面试题汇总

思路流程 信息收集漏洞挖掘漏洞利用&权限提升清除测试数据&输出报告复测 问题深信服一面:SQL注入防护为什么参数化查询可以防止sql注入SQL头注入点盲注是什么&#xff1f;怎么盲注&#xff1f;宽字节注入产生原理以及根本原因 产生原理在哪里编码根本原因解决办法sql里…

Kafka中的时间轮算法

1. Kafka与时间轮&#xff1a; Kafka的定时器底层使用时间轮算法。Kafka时间轮是层次时间轮&#xff0c;并且支持时间轮复用。 优点&#xff1a; 高效的插入操作&#xff1a; 时间轮底层数据结构&#xff08;桶&#xff09;&#xff0c;使用双向链表的设计使得插入操作的时间…

掌握JavaScript ES6精髓:探索函数和对象的高级扩展与实用技巧

序言 JavaScript&#xff0c;作为前端开发中不可或缺的语言&#xff0c;已经发展到了ECMAScript 2015&#xff08;简称ES6&#xff09;以及后续的版本。ES6带来了诸多语法上的改进和创新&#xff0c;使得代码更加简洁、优雅&#xff0c;同时也提供了更多的编程模式和实用技巧。…

Python-面向对象编程(超详细易懂)

面向对象编程&#xff08;oop&#xff09; 面向对象是Python最重要的特性&#xff0c;在Python中一切数据类型都是面向对象的。 面向对象的编程思想&#xff1a;按照真实世界客观事物的自然规律进行分析&#xff0c;客观世界中存在什么样的实体&#xff0c;构建的软件系统就存在…

Docker搭建yolov8并训练自己的数据集(包会)

本文通过docker的方式搭建yolov8运行环境&#xff0c;并成功训练了自己的数据集&#xff08;化学仪器数据集&#xff09;。 1、安装docker 在一台通往的服务器上安装docker&#xff0c;建议参考我之前的文章&#xff1a;Docker基础学习-CSDN博客 2、创建yolov8镜像 首先编写…

openresty(Nginx) 301重定向域名 http访问强制使用https

1 访问http 2 修改配置访问 server {listen 80;server_name example.cn;return 301 https://$server_name$request_uri;access_log /data/logs/czgzzfjgsup_access.log access;error_log /data/logs/czgzzfjg_error.log error;#location / {root /usr/local/open…

【Linux进程】Linux下的---七大进程状态(什么是进程状态?Linux下有哪些进程状态?)

目录 一、前言 二、什么是进程状态&#xff1f; 三、操作系统(OS)下的 --- 进程状态 &#x1f525;运行状态&#x1f525; &#x1f525;阻塞状态&#x1f525; &#x1f525;挂起状态&#x1f525; 四、Linux下的7种进程状态 &#x1f525;运行状态 -- R&#x1f525;…

内存优化技巧:让数据处理更高效

Pandas无疑是我们数据分析时一个不可或缺的工具&#xff0c;它以其强大的数据处理能力、灵活的数据结构以及易于上手的API赢得了广大数据分析师和机器学习工程师的喜爱。 然而&#xff0c;随着数据量的不断增长&#xff0c;如何高效、合理地管理内存&#xff0c;确保Pandas Da…

vue中实现百度地图全国与省市地图切换

前言 本文主要是用于示例全国地图&#xff0c;点击省市地图直接跳转到该省市地图并展示&#xff0c;可以拓展在地图上显示标记点&#xff08;本文未做示例&#xff09;&#xff0c;后续有完整代码&#xff0c;但是由于需要与本来项目业务代码进项分割&#xff0c;可能会有些问题…

centos 7无需token编译安装freeswitch 1.10.11 ——筑梦之路

准备工作 安装编译工具和依赖包 yum update -y sudo yum install epel-release vim tcpdump net-tools.x86_64 -y sudo yum install gcc-c sqlite-devel zlib-devel libcurl-devel pcre-devel speex-devel ldns-devel libedit-devel openssl-devel git -y yum install yasm n…

Web APIs--Dom获取属性操作

目录 1.DOM&#xff08;操作网页内容、用户交互&#xff09; 2.DOM对象获取&#xff08;querySelect(‘’)、querySelectAll(‘’)&#xff09; 总结&#xff1a; 3.操作元素内容&#xff08;修改元素的文本更换内容&#xff09; 1. 元素innerText 属性 2.元素.innerHTML…

JavaSE 面向对象程序设计初级 静态static 包package 常量final 代码块 代码实操理论内存原理详解

目录 static(静态) 静态的特点 应用示例 静态变量 静态方法 注意事项 内存图 重新认识main方法 包 什么是包 使用导包在什么时候 final关键字 常量 命名规范 细节&#xff08;重点&#xff09; 权限修饰符 代码块 局部代码块 构造代码块 静态代码块 个人号…

【机器学习】必会降维算法之:随机投影(Random Projection)

随机投影&#xff08;Random Projection&#xff09; 1、引言2、随机投影&#xff08;Random Projection&#xff09;2.1 定义2.2 核心原理2.3 应用场景2.4 实现方式2.5 算法公式2.6 代码示例 3、总结 1、引言 小屌丝&#xff1a;鱼哥&#xff0c;降维算法还没讲完呢。 小鱼&a…

EE trade:炒伦敦金的注意事项及交易指南

在贵金属市场中&#xff0c;伦敦金因其高流动性和全球认可度&#xff0c;成为广大投资者的首选。然而&#xff0c;在炒伦敦金的过程中&#xff0c;投资者需要注意一些关键点。南华金业小编带您一起来看看。 国际黄金报价 一般国际黄金报价会提供三个价格&#xff1a; 买价(B…

c++里 父类私有的虚函数,也是可以被子类重写和继承的。但父类私有的普通函数,子类无法直接使用

谢谢 。今天看课本上有这么个用法&#xff0c;特测试一下。这样就也可以放心的把父类的私有函数列为虚函数了&#xff0c;或者说把父类的虚函数作为私有函数了。 再补充一例&#xff1a;

ls命令的参数选项

ls命令的参数的作用 可以指定要查看的文件夹&#xff08;目录&#xff09;的内容&#xff0c;如果不指定参数&#xff0c;就查看当前工作目录的内容。ls 命令的选项 常用语法&#xff1a;ls [-a -l -h] [linux路径] -a 选项表示 all &#xff0c;即列出全部内容&#xff0c;包括…