云化XR和沉浸式全息交互技术的探索与思考

news2025/2/25 5:14:14

  //  

编者按:计算机图形与仿真技术的发展为人类带来了众多的沉浸式技术。虚拟现实(VR)、增强现实(AR)、混合现实(MR)等技术通过不同程度数字信息与现实环境的融合,为用户带来了全新体验,而统括三者的扩展现实(XR)更强调虚拟世界与现实世界的弥合,缩小人们、信息和体验之间的距离壁垒。LiveVideoStackCon 2023 上海站邀请了来自北京邮电大学的黄亚坤,为大家分享学术界关于云化XR和沉浸式全息交互技术的探索与思考 。

文/黄亚坤

整理/LiveVideoStack

大家好,我是来自北京邮电大学的黄亚坤,目前主要在学术界从事研究工作。本次我将从更好地结合学术和工业界这一角度出发来与大家分享我们的探索与思考。

73c66e6cfaf92ab68fa3fe0f5836f9cd.png

本次分享分为四方面:首先以囊括多种沉浸式技术为主旨谈谈沉浸式XR通信与交互现状,然后介绍我们从2017年至今关于轻量化跨平台WebXR技术的探索与研究进展,接下来介绍全息XR通信与实时交互服务,最后对云化XR的新需求与挑战进行总结。

-01-

沉浸式XR通信与交互现状

0f29553c8a9f840ec04ec87ea76a4436.png

XR包含了AR、VR和MR等沉浸式技术,旨在打造真实、虚拟组合的数字化环境,实现沉浸感更深入的人机交互体验。

其中VR可能更为大众所熟知(如当下热门的VR看房、看车),它通过计算机来模拟虚拟环境。目前多数用户使用手机来体验,而使用沉浸感更强的专业VR终端由于昂贵的成本问题在用户间还没有广泛普及;

进一步地,AR可将VR打造的虚拟世界和真实世界无缝融合,目前在工业界中的落地应用广泛使用率较高;

MR则是在融合AR、VR的基础上,实现用户与现实、虚拟世界间的深层次交互反馈。

最后,在常规XR概念的基础上拓展引入了HR,与VR不同,它可以利用光干涉和衍射记录进行真实物体的再现,还原真实的人物与环境。

d2f66dd3ab337bbbdab5fb3d753a958e.png

以上图表展示了XR的技术架构、产业发展趋势,以及XR业务的网络需求。目前来看,XR还处于部分沉浸式体验阶段,正朝着深度沉浸阶段发展,主要表现为单眼观看可达到2K分辨率,FOV处于100-120度范围内。

对于即将正式发售的Apple Vision Pro,我们也持续关注它对业界带来的潜在前景与应用价值。

e13bb471ca4b74842e43fec701b464a8.png

我们对市场现有的一些XR设备进行了体验分析并总结了几方面问题。

首先是技术成熟度不够:在画面真实率,视场角,眩晕和迟滞感等方面有待提升。例如在工业场景下的三维大模型渲染服务,终端上会出现明显的卡顿、眩晕和迟滞感;

第二是用户成本高:主流的XR头显对于大众用户来说价格过高;

第三是佩戴体验差:当前的XR终端设备存在佩戴沉重,携带性差等体验问题;

第四是优质内容源缺乏:高品质的XR应用稀缺,对用户吸引力不够;

第五是缺乏统一平台:各大厂商当前主要围绕自身产品的生态圈进行内容开发,难以建立有效共享和快速分发体验的统一平台。

65443a543564f5fcc746243f27fcff90.png

随着5G的普及应用,云化XR的部署与应用已经成为可能。

首先5G的网络切片技术保证了应用程序的部分带宽、移动边缘计算(MEC)减少了内容汇聚,在节省带宽的同时降低了时延,为XR云化部署奠定了技术基础。

同时,通过将XR的密集计算上云,有助于减轻终端设备的重量,提升佩戴体验和续航能力,云化XR更有助于提升多用户共享体验,降低单一用户的体验限制;

最后,通过与5G技术相集合,智能手机有望成为承载云XR体验的终端设备,这有助于吸引更多的新用户。

d11a0cb4598ecbe58dd8040f775109ff.png

XR云化主要的优势体现在承载密集三维空间计算方面。大量的视觉、空间计算和密集的3D渲染给资源受限的XR终端设备带来了极大的计算压力,通过将这些密集的计算任务卸载上云后,能够大幅降低终端的设备计算成本,进而助力终端轻量化。

同时云端可借助Wi-Fi、5G等网络技术将内容以视频流形式推向用户,相对于传统设备无需再连接终端的HDMI线,实现了终端无绳化、移动化。

最后,内容云化也便于统一分发和版权管理。

但将云XR推向产业成熟,目前仍面临技术成熟度、云网架构升级、建设健康的生态环境、共赢的商业模式以及XR平台与系统互通等问题,还需要进一步探索。

-02-

轻量化WebXR探索与研究进展

29eed1c07d1e56dab927816e2aa88387.png

上图展示了XR技术的发展简史。从1998年AR首次应用于电视直播到AR专用头显、移动终端、基于APP的AR游戏和基于Web的AR解决方案陆续出现,再到OpenXR 1.0的发布,各大国内厂商加入OpenXR联盟,这些发展充分体现了XR追求移动化、轻量化和跨平台标准化的发展趋势。

Web具有天然的跨平台性,并且有兼容高、普及广的优势,因而基于轻量化移动Web的XR技术开始萌芽。

cf7f4b9c19ecccc27ac4f8c8d0b16b30.png

但实现WebXR并非易事。首先是浏览器极其有限的算力难以满足AR密集的位姿计算需求,这也导致位姿估计与计算的时延差距大,画面延迟较高,无法达到AR的高频实时跟踪要求。且三维模型的复杂度对Web的渲染能力提出很大考验。最后,国内各大硬件厂商浏览器的内核和开放权限参差不齐,导致传统的方案难以跨平台通用。

基于以上考虑,我们提出了基于云实现的WebXR解决方案。

8a49a636cbd6c0a5c917721ea9cd680b.png

接下来,我讲介绍几种云化WebXR方案的典型落地场景。如实现基于Web浏览器的AR导航、真实世界的三维目标实时识别、跟踪、渲染以及异构跨终端的XR通信交互等。

f03130b140e0bfef1425bcfecfd2ea87.png

在统筹考虑端云算力和时延要求的基础上,我们针对AR室内导航服务场景提出了端云协同方案。该方案的核心问题是如何精准、高频次获取移动终端的实施6-DoF相机位姿?

目前基于Web的定位方案一般是提供局部定位,无法提供面向大规模地图场景的全局定位,难以满足导航场景路径规划等功能的需要;其次是终端侧的行人航位推算(PDR)等方案的累计误差较大,只能保持短距离精确定位;第三是传输实时视频帧到云端求解无法满足定位频率要求。

因此,我们通过将终端侧定位位姿和云端VPS定位对齐实现了“端侧轻量化自主定位+云端精确辅助重定位”的方式。具体流程如上图左下角所示,端侧以云端的精确定位为基准点,通过PDR方案进行自主实时定位,导航行进过程中通过借助云端重定位来及时修正误差。

fb605318e73420f55528614ec6eb396e.png

我们从定位精度和开销两方面对该方案进行了性能评估,可以看到最终呈现的效果较好。

964100008f56035d5b6d938c5f8177f4.png

但端云协同方案在网络条件差、环境复杂等条件下难以发挥作用。我们考虑到用户在导航时一般仅调用地图的局部,因此通过将大地图语义化,以物体为特征建立点云地图,将其分块并实时按需下发至端侧,使端侧具备了独立精确定位计算能力。

a1436bf759310093c4444d706f9c1b15.png

经过测试,1M的点云数据即可覆盖40-50平米的范围,且通过预加载等方式可以让用户基本感受不到地图下载的延迟。

f127a7c69a7cc69ce302f9d0cfb7eba7.png

针对局部语义地图的技术架构我们拓展了很多新的应用场景,如上图展示的BIM数字沙盘,可将BIM模型和效果投放到实景沙盘上。

c5bf84362120b0d9d894de4524a6c56a.png

在多人场景,通过移动Web动态加载语义点云地图,使用局部点云定位,在点云世界坐标下记录模型信息即可通过P2P通信实现Web端的多人AR交互。

e9a61a1cc48a5eb73863091993a3a674.png

无论是端云协同还是局部语义地图方案都很大程度上依赖云端预建地图的准确性,但它的时效性非常强。为了解决实时地图更新的问题我们采用了众包方案。

在众包模式下,用户的手机可以作为地图重建采集设备,将拍摄的画面反馈至云端进行更新。

f67a4655000e313e825a31ef76009e53.png

9feefb9c912c3c1ad03106c17298b948.png

我们也采用了两种在定位优化手段。首先,传统定位算法往往依赖低级几何特征(特征点)来建立视觉地图,但在弱光或暗光场景下可能难以提取到足够的特征点,针对这类复杂场景我们通过引入语义化特征,利用高层级语义信息协助建立点云地图,从而增强定位能力。

7c1faad1697e482f50e04561630e6123.png

第二是针对楼梯间等特征点较少的场景改为使用线特征注册图像,使重建流程和定位能力更加稳定。

48bd73afd8c873c9f4ab1c6a9e39555b.png

以上是我们从通信角度对基于MEC+D2D融合的多用户交互XR协同架构提出的一些考虑。

6b9c00225e466483b92937e22249a8a5.png

上图展示了我们从降低分发时延、同步时延角度提出的Web侧多用户XR协作框架。

-03-

全息XR通信与实时交互服务

40924c5e29b058f876a521092321b9c6.png

全息容积视频是一种捕捉3D空间的全息显示技术。而实现3D全息视频实时采集、传输与交互是沉浸式XR的关键挑战。相对于视频的捕捉采集,我们更多地关注它从传输、通信到最终在终端呈现的过程。

24eee7c06fcd68f77beef621c512c009.png

全息视频实时采集、传输过程中的难点体现在以下几方面:一是全息视频的采集时间过长,历经多机位画面融合、编码、传输和解码后严重降低了视频帧率;第二是全息视频的数据量过大,所需带宽过高,现有网络难以承载;第三是编解码效果差,现有标准无法实现实时解码。

394d7203a0d26e3942ce0f43ee6f4de3.png

在此基础上,我们提出了基于AI的语义通信传输机制,通过提取、传输全息视频的关键点云语义特征极大降低了传输数据量。终端侧负责进行容积视频帧重建。

56ec305764a02b5efe4dfed68954ba3b.png

由于基于AI的点云编解码方案对计算和存储的要求较高,资源有限的终端设备难以实现实时解码交互。因而我们提出了面向任务的轻量化传输机制,采用兴趣感知选择技术提取局部用户感兴趣的内容,同时采用剪枝、量化等网络轻量化技术,极大地降低了AI传输模型的参数和推理速度,提高了解码效率。

d3e2bd38f07394d5939da5ea89145a5b.png

除了单纯的3D全息点云实时交互外,我们也在思考面对混合模态视频XR业务场景的解决方案,但现有视频流自适应传输方案都是针对单模态业务的优化。

d346a53188f563403ce32df9cab19e79.png

我们提出了一种面向多模态业务的云渲染自适应视频流框架,对于包含传统2D、360度视频,全息点云视频的多模态业务,通过云渲染的转码方式有效降低了移动终端的带宽和解码压力。

4330a22770be84be44e70fca3e1f4e4f.png

我们采用多智能体强化学习的方式实现多维度内容ABR控制,从而最大程度保证不同用户的QoE。

459726ad7dafcbd311217dc6b8f5690d.png

上图展示了我们基于云渲染的全息XR通信与实时交互多人视频会议场景。用户可通过不同终端进入会议室,并看以全息影像、数字人等不同的形象进行实时互动。

2067b92b2fe4453279eba72f49f51d69.png

上图展示了实时采集和多终端交互的示例效果。

c62dcbc2446c4aecac9771bd51901ecf.png

基于未来网络试验设施(CENI)提供的大带宽、低时延等特性需求,从创造承载高清全息XR的网络条件考虑,我们拟搭建出一套基于CENI的设施,可支持超远距离多人交互的实时全息通信试验系统。

-04-

云化XR的新需求和新挑战

8f0dfae1401303eb8a276f8cfbb2f3b2.png

总体来看,未来云化XR的发展将面临网络能力方面的需求和挑战。目前多个3GPP工作组也在针对5G低时延云游戏、AR/VR、多媒体编解码和XR业务QoE等方向展开研究。

b3d3fce962f617a2dc0dc9cda8266d61.png

同时云化XR仍面临几点技术挑战。

一是在云网架构上,复杂场景下的图形渲染、编码和计算部署在云端也为云侧带来了很大压力。那么未来面对海量用户,云侧要满足确定性渲染计算能力及处理时延,网络需要满足确定性带宽及传输时延;

二是在网络侧,满足XR多模态业务不同场景的差异化和安全隔离需求需要定制化网络切片和安全隔离;

三是在边侧,云XR业务需要消耗GPU资源来实现实时图形渲染、并行计算等能力。边侧IaaS层成本主要是GPU成本,通过GPU虚拟化提升GPU使用效率是拓展云化XR业务的重大挑战;

四是在云侧,XR的超高分辨率画质要求,巨大的数据量给编解码带来的挑战,尤其是强交互云XR直播与交互业务需要支持实时转码,基于通用视频的编解码技术效率相对较低;

五是在终端侧,3D体验的终端价格仍然昂贵,内容质量低,跨平台性差。

f0b2cff6fec7512cc9b1a6195d3bd648.png

最后,由于传统的QoE指标评价通常只针对单一的业务类型,且业务之间的耦合度低,已经无法适应云化XR的业务场景,我们目前正在推进建立兼容云XR的质量评估体系。

我的分享就到这里,谢谢大家!


beb8f0c26b9aa700e949259658278547.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1087935.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

clickhouse数据库简介,列式存储

clickhouse数据库简介 1、关于列存储 所说的行式存储和列式存储,指的是底层的存储形式,数据在磁盘上的真实存储,至于暴漏在上层的用户的使用是没有区别的,看到的都是一行一行的表格。 idnameuser_id1闪光10266032轨道物流10265…

【计算机毕设选题推荐】幼儿园管理系统SpringBoot+SSM+Vue

前言:我是IT源码社,从事计算机开发行业数年,专注Java领域,专业提供程序设计开发、源码分享、技术指导讲解、定制和毕业设计服务 项目名 基于SpringBoot的幼儿园管理系统 技术栈 SpringBootSSMVueMySQLMaven 文章目录 一、幼儿园管…

记录一个@Transaction注解引发的bug

记录一个Transactional(readOnly true)注解引发的bug 一、问题代码和报错 1-1 问题代码模拟 引发这个问题的三大要素分别是: 事务注解任意数据库操作数据库操作后执行耗时业务(耗时超过数据库配置的超时时间) //1.这里是问题的核心之一…

基于springboot实现实验室管理系统项目【项目源码+论文说明】

摘要 社会的发展和科学技术的进步,互联网技术越来越受欢迎。网络计算机的生活方式逐渐受到广大人民群众的喜爱,也逐渐进入了每个用户的使用。互联网具有便利性,速度快,效率高,成本低等优点。 因此,构建符合…

淘宝商品销量数据接口,淘宝API接口

淘宝商品销量数据接口是淘宝开放平台提供的一种API接口,通过该接口,商家可以获取到淘宝平台上的商品销量数据。 淘宝商品销量数据接口可以用于获取特定商品的销量数据、特定店铺的销量数据、特定类目的销量数据等。商家可以根据自己的需求来调用该接口&…

python基础教程:print()函数知识点总结

嗨喽,大家好呀~这里是爱看美女的茜茜呐 print() 方法用于打印输出 语法: print(*objects, sep , end\n, filesys.stdout, flushFalse)参数 objects – 复数,表示可以一次输出多个对象。输出多个对象时,需要用 , 分隔。 sep – …

cas-server5.3自定义密码校验规则

前面几篇文章都是关于cas的,今天继续,cas有自己的一个加密配置.如果只是简单使用MD5或者SM3等加密算法进行加密的话,可以不需要再进行自定义操作,但是我们一般还会给用户密码加盐,这样的话原本的配置就不满足了,所以需要再自定义一个密码校验规则 实现PasswordEncoder接口 Pa…

数据报表的种类

根据报表使用频率不同,目的不同,使用群体不同,细化程度不同等情况,一般数据报表可以分为日常报表和临时报表,日常报表又分为管理报表和专题分析报表。 1. 日常报表 日常报表通常是指使用频率较高(一般取3…

LED台灯控制芯片 LED调光芯片 LED驱动芯片AH6730

AH6730是一款专为LED台灯设计的多功能控制芯片。它采用电容式触摸控制,除了提供简单的开关控制功能外,还能实现从0到100或从100到0的无级调光,方便用户选择合适的亮度。该芯片的触摸板材兼容金属、亚克力板和硬塑料等材质。它具有两个通道的输…

Sketch macOS 支持m1 m2 Sketch 2023最新中文版

SketchUp Pro 2023是一款功能强大的三维建模软件,适用于建筑设计师、室内设计师、工程师和其他创意专业人士。以下是SketchUp Pro 2023的一些主要特点和功能: 三维建模:SketchUp Pro 2023允许用户以直观的方式创建三维模型。通过简单的绘图工…

【前端小技巧】如何使用 Eolink Apilkit 调用 Mock ?

在开发过程中,进度比较赶的情况下,前端人员当页面写完时,后台的接口还没写完,等要交付的时候后端才把接口给你,这个时候就很尴尬。 这个时候 Mock 就可以很好的解决这个问题,前端团队可以在 API 还没开发完…

CVE-2020-1938 Tomcat远程文件包含漏洞

漏洞简介 CVE-2020-1938是由长亭科技安全研究员发现的存在于 Tomcat 中的安全漏洞,由于 Tomcat AJP 协议设计上存在缺陷,攻击者通过 Tomcat AJP Connector 可以读取或包含 Tomcat 上所有 webapp 目录下的任意文件,例如可以读取 webapp 配置文…

whistle安卓手机抓包(图文详解)

1、安装node https://nodejs.org (官网下载对应的node,一般推荐长期稳定版本 LTS) 需要node的版本是大于 v0.10.0 查看自己本地node 版本号 node -v2、安装whistle npm i -g whistle3、开启whistle 补充说明: ● w2 stop:关闭…

ubuntu为可执行程序添加桌面图标

ubuntu为可执行程序添加桌面图标 1 在桌面目录,创建以.desktop为后缀的文件 cd ~/Desktop touch orb_slam.desktop 2 为desktopt添加执行权限 添加执行权限,才能实现双击运行,否则不能实现 chmod ax orb_slam.desktop3 编辑文件 ##(1)打…

Android+Appium自动化测试环境搭建及实操

1、Appium简介1.1 Appium概念1.2 Appium工作原理 2、Appium Server环境搭建2.1 Java JDK2.1.1 下载JDK2.1.2 运行exe安装JDK,设置安装路径2.1.3 设置环境变量2.1.4 验证安装结果 2.2 Android SDK2.2.1 下载安装Android SDK安装包2.2.2 下载platform-tools&#xff0…

php以半小时为单位,输出指定的时间范围

//可预订小时范围$hour [];for ($i$startHour*3600;$i<$endHour*3600;$i1800){//以半小时为单位输出$startHourItem date(H:i,strtotime(date(Y-m-d))$i);//小时开始$endHourItem date(H:i,strtotime(date(Y-m-d))$i1800);//当前时间再加半小时$hourItemStr $startHourI…

广州华锐互动:炼钢工厂VR仿真实训系统

随着科技的发展&#xff0c;我们的教育体系和职业培训方法也在迅速变化。其中&#xff0c;虚拟现实&#xff08;VR&#xff09;技术的出现为我们提供了一种全新的学习和培训方式。特别是在需要高度专业技能和安全性的领域&#xff0c;如钢铁冶炼。本文将探讨如何使用VR进行钢铁…

lark发消息艾特接口

首先访问"https://open.larksuite.com/api-explorer?apiNamebatch_get_id&projectcontact&resourceuser&versionv3"页面登录&#xff0c;然后点击左侧通过手机号或邮箱获取用户id&#xff0c;查询参数下面选择成员&#xff0c;搜索用户&#xff0c;点击…

探秘PMP和六西格玛的不同:哪一个能为你的职业生涯加分?

今天&#xff0c;我们将带你深入了解一项相对冷门但价值不菲的证书——六西格玛黑带。 可能你曾听说过PMP&#xff0c;但相比之下&#xff0c;六西格玛黑带的资源分享似乎较少&#xff0c;考试内容却更为广泛深入。这里&#xff0c;让我为你详细解析这一考试&#xff0c;带你进…

使用Python 获取天气数据

目录 前言 一、天气数据来源 二、Python获取天气数据 三、Python使用代理IP 四、Python获取天气数据实例 总结 前言 Python获取天气数据涉及到网络请求和数据解析两个方面&#xff0c;而代理IP则可以帮助我们有效地应对一些反爬虫的网站。本文将介绍如何在Python中获取天…