现实转虚拟:Video2Game引领3D互动体验

news2024/12/28 4:44:07

在当今数字化时代,虚拟环境的创建对于游戏开发、虚拟现实应用和自动驾驶模拟器等多个领域至关重要。然而,传统的虚拟环境创建过程不仅复杂而且成本高昂,通常需要专业人员和专业软件开发工具的参与。例如,著名的《侠盗猎车手V》以其精细的细节环境而闻名,是开发成本最高的视频游戏之一,预算超过2.65亿美元,主要用于资产创建。为了简化这一过程,研究者们一直在探索直接从现实世界创建环境的方法,如摄影测量技术。但这些方法大多限于创建对象资产,并需要大量的后期处理。

本文介绍了一种名为Video2Game的新颖方法,Video2Game的创新之处体现在它能够将普通视频自动转换成逼真且交互式的虚拟环境。这一过程无需复杂的手动建模,大大降低了创建高质量虚拟环境的门槛。系统的核心是三个关键组件的结合:神经辐射场(NeRF)模块、网格模块和物理模块。NeRF模块负责捕捉场景的几何结构和视觉外观,而网格模块则将NeRF的详细信息转化为适合游戏引擎的网格表示,这样既提升了渲染效率,又保持了画面质量。物理模块则模拟了对象间的交互和物理动力学,为虚拟环境增添了真实感。

Video2Game系统的工作流程和示例交互。图片上方是系统将输入视频转换为交互式环境的概述,下方展示了用户可以执行的不同交互操作,如收集硬币、破坏物体、跑步、站立、驾驶和撞车等

Figure 1 展示了Video2Game技术的核心魅力:将任意场景的视频输入后,系统能够自动将其转换成一个实时、交互式、逼真且浏览器兼容的环境。在这个环境中,用户可以自由地探索,与场景中的对象进行互动。无论是收集硬币、破坏物体,还是驾驶和撞击汽车,这些丰富的交互体验都通过Video2Game变得可能。例如,用户可以投掷球击中花瓶,使其掉落,或者在不同视角下观察场景并与之互动。这种能力不仅为游戏开发提供了便利,也为虚拟现实应用和机器人模拟等领域开辟了新的可能性。通过Video2Game,复杂的现实世界场景得以数字化,并以一种直观、互动的方式呈现给用户,极大地扩展了虚拟体验的边界。

Video2Game的优势在于它能够实现实时渲染和物理模拟,用户可以在浏览器中以高帧率(超过100 FPS)流畅地探索和与虚拟环境互动。这种实时性对于游戏和模拟器的体验至关重要。系统还能够处理大规模户外场景,这在以往的技术中很难实现。Video2Game通过将场景分解为多个块,并在每个块上应用Instant-NGP,解决了大规模场景的渲染问题。

系统的另一个显著优势是它的通用性和兼容性。Video2Game不仅能够创建游戏环境,还能够用于机器人模拟等其他领域,展示了其广泛的应用潜力。它还能够与现有的游戏引擎如Blender和Unreal Engine集成,开发者可以利用现有的工具和工作流程,快速地将Video2Game生成的内容转化为可交互的3D体验。

Video2Game的自动化程度高,它通过一个精心设计的流程,将视频转换为可交互的数字副本,大大减少了传统3D建模和环境创建所需的人工劳动。这种自动化不仅提高了效率,也为非专业人士提供了创造虚拟环境的可能性。

Video2Game:创新的视频转游戏环境

系统的目标是构建一个可交互和可操作的数字孪生体,它不仅可以在视觉上逼真地呈现场景,还能模拟物理动作,如导航、碰撞和操纵等。为了实现这一目标,Video2Game采用了一种组合隐式-显式的3D表示方法,这种方法对于传感器模拟和物理模拟都是有效和高效的。

为了捕捉大规模、无界场景的几何和视觉信息,研究者们提出了一个增强型的NeRF模型。这个模型通过使用Instant-NGP作为基础,能够有效地渲染出新视角下的高质量图像。

Video2Game的高级概述。给定单个视频的多个姿势图像作为输入,首先构建一个大规模的NeRF模型,然后将其转换为具有相应刚体动力学的网格表示,以启用交互。使用UV映射的神经纹理,既具有表现力,又与游戏引擎兼容

Figure 2 提供了Video2Game工作流程的全面概览。该过程从单一视频中获取多个姿态图像作为输入,首先构建一个大规模的NeRF模型,这个模型不仅真实感强,而且具有高质量的表面几何结构。接着,将NeRF模型转换成具有相应刚体动力学的网格表示,以实现交互功能。利用UV映射的神经纹理,这种纹理既富有表现力又与游戏引擎兼容。最终,我们得到了一个交互式虚拟环境,其中的虚拟角色可以与之互动,能够响应用户控制,并从新的摄像机视角提供高分辨率的渲染效果,所有这些都在实时完成。这一流程不仅提高了渲染效率,还保证了用户在不同视角下都能获得逼真的交互体验。

Instant-NGP作为NeRF的一个变体,通过结合空间哈希编码的体素和神经网络来表示辐射场。这种表示方法能够对场景中的每个点进行颜色和密度的预测,为后续的渲染和几何优化提供了基础。为了提高几何质量,系统利用单目深度估计器来预测场景深度,并将其与NeRF模型的渲染深度进行比较和优化。通过预测3D点的表面法线,增强了场景的视觉真实感。

NeRF模型进一步预测了每个采样点的语义标签,帮助系统理解场景中的不同对象。同时,采用了正则化技术来减少场景中的不稳定性,例如通过密度的指数衰减惩罚来减少浮动物。对于大型场景,系统采用阻断技术,将场景分割成多个块,每块由一个单独的Instant-NGP模型处理。这种策略不仅提高了渲染效率,还确保了场景细节的精细捕捉。

为了将NeRF模型的渲染效率提高到适合实时游戏引擎的水平,研究者们开发了一种NeRF烘焙技术,将NeRF模型转换为网格表示。网格模型由顶点、面和UV神经纹理图组成。通过在NeRF密度场中使用Marching Cubes算法来获取初始网格拓扑结构,并通过一系列后处理步骤来优化网格,使其更适合实时渲染。使用可微分渲染器来渲染网格,通过将网格的UV坐标和采样的纹理特征输入到定制的着色器中,计算出像素的颜色。通过最小化网格渲染图像与真实图像之间的颜色差异,以及网格与NeRF模型之间的几何差异,来训练神经纹理图和着色器MLP。

为了增强物理交互的真实感,系统通过将场景分解为具有物理特性的离散实体,并为它们配备刚体物理模型。

可视化自动计算的碰撞几何体,包括球体碰撞器(绿色)、盒子碰撞器(黄色)、凸多边形碰撞器(紫色)和三角网格碰撞器(红色)

利用神经场的组合性质来指导网格的分解,通过识别每个空间区域所属的对象,实现对场景的精确分割。为分解出的个体网格分配物理属性,如质量、摩擦等,可以通过手动设置或查询大型语言模型来估计。使用刚体动力学来模拟用户/代理与环境的交互,包括导航、碰撞和操纵等物理动作。

最后,将交互环境部署在基于WebGL的游戏引擎中,使用Sketchbook和Cannon.js来管理逻辑和资产,确保了环境的实时交互性和物理模拟的真实性。整个Video2Game系统的设计充分考虑了从视频内容到交互式游戏环境的转换过程中的效率、质量和用户体验,为创建逼真的虚拟环境提供了一种全新的自动化解决方案。

实验

研究者们在实验设置阶段选择了三个不同的场景来评估Video2Game系统的有效性,包括户外的“Gardenvase”场景、大规模的KITTI-360自动驾驶场景,以及室内的VR-NeRF场景,后者用于展示机器人模拟的潜力。他们采用了PSNR、SSIM和LPIPS等标准指标来评估图像质量,并利用LiDAR点云数据来评估KITTI-360数据集的几何重建准确性。

研究者们展示了Video2Game在新视角合成方面与现有最先进方法相比的优越性能。特别是在处理KITTI-360这样的大规模、开放场景时,Video2Game显示出了显著的优势。他们在几何重建方面也取得了显著的进步,生成的深度图和表面法线质量优于基线方法。

定性比较了不同NeRF模型的渲染质量。展示了基线NeRF在渲染质量上优于基线,并且通过利用单目线索,在渲染几何上显著优于其他基线

研究者们进一步展示了如何使用Video2Game方法构建的浏览器兼容游戏。他们基于Gardenvase、KITTI-360和VR-NeRF数据集构建了环境,并生成了包含网格几何、材质和刚体物理的可执行环境。利用Sketchbook和Cannon.js等工具,他们构建的游戏能够在不同平台上高效运行,并提供真实的物理交互体验。游戏中的代理可以自由移动,遵循现实世界的物理规则,并与环境进行交互,如收集硬币、驾驶和推动车辆。

Video2Game在新颖视角合成和交互兼容性分析方面的表现,与现有NeRF烘焙方法相比,Video2Game在不同场景下提供了更好或相当的结果

在机器人模拟方面,研究者们展示了Video2Game的潜力。他们使用VR-NeRF数据集重建了场景,并分割出可模拟的刚体对象。利用PyBullet进行物理模拟,他们控制机器人与环境中的对象进行交互。通过将URDF文件中的机器人模型导入渲染引擎,并结合物理模拟结果,研究者们生成并渲染了逼真的机器人模拟视频。

在VRNeRF数据集中进行机器人模拟的示例,包括Stretch Robot推动碗和Fetch Robot执行拾取和放置动作

通过这些实验,研究者们证明了Video2Game系统不仅在渲染质量和几何重建方面表现出色,而且能够在多种硬件和平台上提供流畅的交互体验。Video2Game在机器人模拟领域的应用展示了其在不同领域的广泛潜力。尽管如此,他们也指出了系统的局限性,例如尚未学习到必要的材质属性来进行物理信息的重新照明,这可能在未来的工作中得到解决。

Video2Game的研究成果标志着虚拟环境创建技术的一大进步。它提供了一种新颖的方法,使用户能够将现实世界的视频片段转换成逼真、可交互的游戏环境。这项技术结合了神经辐射场(NeRF)建模和物理建模的优势,并通过现代游戏引擎的集成,极大地降低了创建高质量虚拟环境的复杂性和成本。

这项技术的潜力不仅限于游戏开发,它还为机器人模拟、教育训练、虚拟现实应用等众多领域带来了新的可能性。通过提供一个可交互的3D环境,Video2Game允许用户在安全和可控的数字空间中测试和练习,从而为现实世界的应用提供了一个有效的预演平台。

论文链接:https://arxiv.org/abs/2404.09833

GitHub 地址:https://video2game.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1809798.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java_中间件——Redis

Redis 介绍: Redis是一个基于内存的key-value结构数据库(MySQL是通过数据文件方式存储在磁盘上,数据结构是二维表) 特点: 更改配置文件: 使用密码: redis默认是不需要密码的,如果…

苹果WWDC大会AI亮点:大揭晓

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

vscode 中 eslint 无效?npm init 是什么?

vscode 中 eslint 无效 我想要给一个项目添加 eslint,按照 eslint 官方指南操作: npm init eslint/configlatest自动安装了相关依赖并创建配置文件 eslint.config.mjs。 按理说,此刻项目应该已经配置好 eslint 了。但是我的编辑器 vscode …

初识springclould到生产者消费者的RPC通信

SpringClould SpringBoot和SpringClould搭建springcloud创建项目管理实体类模块服务提供者模块消费者 Eureka 服务注册与发现 SpringBoot和SpringClould springboot和springclould都是spring系列的衍生品,都可以在spring的官网找到对应的参考文档和学习路线以及核心…

贪心算法06(leetcode738,968)

参考资料&#xff1a; https://programmercarl.com/0738.%E5%8D%95%E8%B0%83%E9%80%92%E5%A2%9E%E7%9A%84%E6%95%B0%E5%AD%97.html 738. 单调递增的数字 题目描述&#xff1a; 当且仅当每个相邻位数上的数字 x 和 y 满足 x < y 时&#xff0c;我们称这个整数是单调递增的。…

Python 学习flask创建项目

1、使用pycharm创建flask项目 2、运行访问地址 3、可以看到访问地址内容 4、可以增加路由&#xff0c;尝试访问获取参数

‘AndroidStudio工具平台’尝试运行‘Android原生项目’

AndroidStudio工具平台 (内嵌Intelli IDEA集成环境) /Users/haijunyan/Library/Android/sdk 配置环境变量: #adb命令,安装APK查看连接设备 platform-tools #emulator命令,通过命令创建模拟器 tools #用NDK框架搭建的项目,用到下面的命令编译 ndk-bundle 等等 //查看当前设备…

Java--递归

1.递归就是A方法调用A方法&#xff0c;也就是调用自己本身 2.利用递归可以用简单的程序来解决一些复杂的问题&#xff0c;它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解&#xff0c;递归策略只需少量的程序就可描述出解题过程所需要的多次重复…

Java里面的10个Lambda表达式必须掌握,提高生产力

目录 Java里面的10个Lambda表达式必须掌握&#xff0c;提高生产力 前言 1. 使用Lambda表达式进行集合遍历 2. 使用Lambda表达式进行集合过滤 3. 使用Lambda表达式进行集合映射 4. 使用Lambda表达式进行集合排序 5. 使用Lambda表达式进行集合归约 6. 使用Lambda表达式进…

数据结构与算法题目集(中文)6-2顺序表操作集

题目地址 https://pintia.cn/problem-sets/15/exam/problems/type/6?problemSetProblemId725&page0 注意审题&#xff0c;返回false的时候不要返回ERROR&#xff0c;否则答案错误&#xff0c;机器规则是死的。 位置一般指数组下标&#xff0c;位序一般指数组下标1。但是思…

【传知代码】上下位关系自动检测方法(论文复现)

前言&#xff1a;在信息爆炸的时代&#xff0c;我们每天都沉浸在海量的数据和信息中。随着互联网技术的飞速发展&#xff0c;如何从这些信息中准确、高效地提取出有用的知识&#xff0c;成为了当下研究的热点。其中&#xff0c;上下位关系&#xff08;也称为层级关系或种属关系…

orbslam2代码解读(2):tracking跟踪线程

书接上回&#xff0c;mpTracker->GrabImageMonocular(im,timestamp)函数处理过程&#xff1a; 如果图像是彩色图&#xff0c;就转成灰度图如果当前帧是初始化的帧&#xff0c;那么在构建Frame的时候&#xff0c;提取orb特征点数量为正常的两倍&#xff08;目的就是能够在初…

使用 C# 学习面向对象编程:第 2 部分

C# 类属性简介 属性在面向对象编程中起着至关重要的作用。它们允许我们从类外部访问类的私有变量。在类中使用私有变量是很好的。属性看起来像变量和方法的组合。属性有部分&#xff1a;“get 和 set”方法。get 方法应该返回变量&#xff0c;而 set 方法应该为其赋值。 步骤…

用48个字,总结8条创业心法,悟透将受用一生!

我用48个字&#xff0c;总结8条创业心法&#xff0c;悟透将受用一生。我把这8条创业心法&#xff0c;送给副业微商圈公众号里面的所有朋友们。 希望大家能从中有所启发&#xff0c;脚踏实地&#xff0c;在学习中成长&#xff0c;在前行中坚定。人的烦恼不是源于没有钱&#xf…

【iOS】界面推出的方法

【iOS】界面推出的方法 在学习过程中我们发现在iOS中有两种界面推出的方法&#xff1a;push 和 present这两种方法都可以用来推出一个新的界面 但是这两者是存在区别的 push 方法是通过 UINavigationController 进行导航,新的视图控制器会被压入导航栈中&#xff0c;可以跨级…

BoardLight - hackthebox

简介 靶机名称&#xff1a;BoardLight 难度&#xff1a;简单 靶场地址&#xff1a;https://app.hackthebox.com/machines/603 本地环境 靶机IP &#xff1a;10.10.11.11 ubuntu渗透机IP(ubuntu 22.04)&#xff1a;10.10.16.17 windows渗透机IP&#xff08;windows11&…

springCloudAlibaba之服务熔断组件---sentinel

sentinel组件学习 sentinel学习sentinel容错机制使用代码方式进行QPS流控-流控规则初体验使用SentinelResource注解进行流控 通过代码方式设置降级规则-降级规则初体验sentinel控制台部署客户端整合服务端 springcloud整合sentinelQPS流控规则并发线程数-流控规则BlockExceptio…

wooyun_2015_110216-Elasticsearch-vulfocus

1.原理 ElasticSearch具有备份数据的功能&#xff0c;用户可以传入一个路径&#xff0c;让其将数据备份到该路径下&#xff0c;且文件名和后缀都可控。 所以&#xff0c;如果同文件系统下还跑着其他服务&#xff0c;如Tomcat、PHP等&#xff0c;我们可以利用ElasticSearch的备…

群体优化算法----火山爆发算法介绍以及离散优化Pareto最优解示例

介绍 火山爆发算法&#xff08;Volcano Eruption Algorithm&#xff0c;VEA&#xff09;是一种新兴的群智能优化算法&#xff0c;其灵感来源于火山爆发的自然现象。火山爆发算法模拟了火山爆发过程中熔岩流动和喷发的行为&#xff0c;以寻找全局最优解。这种算法利用了火山爆发…

全网短剧资源

热门短剧资源库&#xff0c;已更新了 9000&#xff0c;记得收藏&#xff1a;https://www.kdocs.cn/l/ciptAICGdWYz