HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

news2024/9/20 18:34:37

HumanNeRF:单目视频中运动人物的自由视点绘制

引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能不存在的各种摄像机角度看到的,以及合成诸如衣服褶皱和面部外观的精细细节。我们的方法优化了一个典型的T-姿势的人的体积表示,在演唱会的运动场,通过向后扭曲映射估计的规范表示到视频的每一帧。运动场被分解为由深度网络产生的骨架刚性运动和非刚性运动。我们显示了显着的性能改进比以前的工作,和令人信服的例子,从单目视频ofmoving人类在具有挑战性的不受控制的捕捉场景的自由视点渲染。

1 介绍

        给定人类执行活动的单个视频,例如,一个舞蹈演员的YouTube或TikTok视频,我们希望能够在任何帧暂停,并围绕表演者旋转360度,以便在那个时刻从任何角度观看他们(图1)。这个问题-移动主体的自由视点渲染-是一个长期的研究挑战,因为它涉及合成以前看不见的相机视图,同时考虑布料褶皱,头发运动和复杂的身体姿势[5,6,15,18,27,38,59,65]。这个问题是特别困难的情况下,“在野外”的视频用一个单一的摄像头(单目视频),我们在本文中地址的情况下。

图1.我们的方法将人类执行复杂运动的单目视频1作为输入,跳舞(左),并为序列中的任意帧创建自由视点渲染(右)。我们构建了一个规范的对象外观体积,以及一个从观察到规范空间的运动场映射,在视频上进行了训练。在测试时,我们只从源帧(红色正方形)中提取姿势,并合成所有输出视图,包括目标视图。请参阅项目第2页查看动画效果。 

        以前的神经渲染方法[3,33,36,37,50,66,75]通常假设多视图输入,仔细的实验室捕获,或者由于非刚体运动而对人类表现不佳。人类特定的方法通常假设SMPL模板[34]作为先验,这有助于约束运动空间,但也会引入服装中的伪影和SMPL模型无法捕获的复杂运动[49,50]。最近可变形NeRF方法[47,48,51,64]对于小变形表现良好,但对于大型全身运动(如跳舞)表现不佳。

        我们介绍了一种方法,称为HumanNeRF,它将一个移动的人的单个视频作为输入帧、现成的分割(具有一些手动清理)和自动3D姿态估计,优化了人类的规范的体积T姿态以及经由向后扭曲将估计的规范体积映射到每个视频帧的运动场。运动场将骨架刚性运动与非刚性运动相结合,每个运动都以体积表示。我们的解决方案是数据驱动的,规范的体积和运动场来自视频本身,并针对大型身体变形进行了优化,经过端到端训练,包括3D姿态优化,无需模板模型。在测试时,我们可以在视频中的任何帧处暂停,并以该帧中的姿势为条件,从任何视点渲染生成的体积表示。

        我们展示了各种示例的结果:现有的实验室数据集,我们在实验室外捕获的视频,以及从YouTube下载的(具有创建者权限)。我们的方法在数值上优于最先进的方法,并产生更高的视觉质量。请参阅项目页面以查看运动中的结果。

2 相关工作

        自由视点渲染的物理过程涉及几何和曲面属性建模,然后从新的相机视图进行渲染。然而,它仍然难以重建复杂的几何形状和微妙的照明效果。或者,基于图像的渲染[57,61]提供了基于图像域中的给定视图集渲染新视图,并在过去几十年中进行了大量研究[8,9,13,17,21,22,30,78]。

        人类特定渲染:Kanade等人的工作[27]是对人类自由视点渲染的最早研究之一。它引入了一个配备摄像头的圆顶来恢复深度图和网格,通过重新投影和混合不同的视图来渲染新的视图,以解决由于遮挡而导致的网格孔。后来,Matusik等人[38]从主体的轮廓重建了一个视觉船体,并通过仔细选择像素来渲染它,而无需辅助几何表示。Carranza等人[5]使用参数化的身体模型作为先验和组合的无标记运动捕捉和视图相关纹理[13]。后续工作介绍了非刚性变形[65],纹理扭曲[6,72]以及基于体积[12]或球体[59]的各种表示。Collet等人。[11]和Guo等人。[18]构建了一个系统和管道,可以生成高质量的可流式传输的[11]甚至是可重定向的[18]移动人物的自由视点视频。

        这些方法中的大多数依赖于多视图视频-通常是昂贵的工作室设置-而我们对简单的单目相机配置感兴趣。

        神经辐射场:NeRF [41]及其扩展[3,23,44,58,62,75,77]能够高质量地渲染静态场景的新视图。NeRF最近已扩展到动态场景[16,31,47,48,51,64,71],虽然这些方法通常假定运动很小。我们在结果部分将我们的方法与这些动态和可变形的NeRF作品进行了比较。

        人类特定的神经渲染:Liu等人的工作。[33]从预先捕获的身体模型开始,并学习对时间相关的动态纹理进行建模,并加强时间连贯性。Martin-Brualla等人。[36]训练UNet来改善体积捕获引入的伪影。Pandey等人的后续工作。[46]通过半参数学习将所需输入帧的数量减少到单个RGBD图像。Wu et al. [70]和Peng et al. [50]探索了嵌入点云(来自MVS [55])或静止网格顶点(来自SMPL [34])的学习结构化潜在代码的使用,并学习了一个附带的基于UNESCO NeRF的神经渲染器。Zhang等人。[26]将场景分解为背景和单个表演者,并用单独的NeRF表示它们,从而实现场景编辑。除了自由视点渲染之外,还有另一个相关的活跃研究领域,专注于2D [2,7,35,43,54,67,68]或3D [19,20,25,32,49,53,69,74]中的人体运动重定向。我们的方法和这些作品之间的主要区别是,我们作为输入单目视频,包含复杂的人体运动,并使高保真全3D渲染。

        此外,我们的骨骼运动公式从Weng等人提出的Vid2Actor中汲取灵感。[69],一种用于刚性动画角色的方法。相反,我们专注于自由视点应用程序和恢复姿势相关的非刚性变形,并在此应用程序中显着优于它们。

        并行工作:Xu等人。[73]共同学习隐式几何以及图像的外观。他们主要关注多视图设置,其中有一些关于单目视频的例子,其中人体运动很简单(A姿势)。Su等人。[60]使用过参数化的NeRF来严格转换NeRF特征,以优化身体姿势,从而最终渲染。非刚体运动没有明确建模,绘制质量不高。Noguchi等人也发现了类似的方法。[45]但仍然显示出有限的视觉质量。

3 将人类表示为神经场

        我们表示一个移动的人,其具有扭曲到观察到的姿势的规范外观体积Fc,以产生输出外观体积Fo:

        其中F_{c}:x →(c,σ)将位置x映射到颜色c和密度σ,并且T:(x_{o},p)→ x_{c}定义由观察到的姿势p =(J,Ω )引导的将点从观察到的空间映射回规范空间的运动场,其中J包括K个标准3D关节位置,并且Ω = {w_{i}}是表示为轴角向量w_{i}的局部关节旋转。

        我们通过将运动场分解为两个部分来处理具有复杂变形的复杂人体运动:

        其中,Tskel表示非线性驱动的变形,基本上是逆(体积)线性混合蒙皮,并且TNR从非线性驱动的变形开始并且产生到它的偏移量Δ x。实际上,Tskel提供由标准蒙皮驱动的粗略变形,并且TNR提供更非刚性的效果,例如,因为衣服变形。 

        对于“野外”图像,我们使用现成的3D身体+相机姿态估计器。由于姿态估计的不准确性,我们还求解了更好地解释观察结果的姿态校正函数P_{pose}(p),并将这种改进应用于光子驱动的变形,即,我们用T_{skel}(x,P_{pose}(p))替换等式2中的T_{skel}(x,p)

        图2给出了我们系统的组件的概述。在以下部分中,我们将详细描述这些组件。

       正则体积:我们将正则体积F_{c}表示为具有MLP的连续场,该MLP在给定点x的情况下输出颜色c和密度σ:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2114250.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python批量读取身份证信息录入系统和重命名

前言 大家好, 如果你对自动化处理身份证图片感兴趣,可以尝试以下操作:从身份证图片中快速提取信息,填入表格并提交到网页系统。如果你无法完成这个任务,我们将在“Python自动化办公2.0”课程中详细讲解实现整个过程。…

教师节送什么礼物给老师好 送礼送什么显高档又实用

教师节送什么礼物给老师好 送礼送什么显高档又实用 教师节即将到来,许多学生和家长都在思考如何表达对老师的感激之情。选择一份合适的礼物不仅能够表达心意,还能让老师感受到学生的关心和尊重。那么,送什么礼物给老师既显高档又实用呢&#…

字节跳动笔试题:自动校对程序:解决王大锤的拼写错误

字节跳动面试题:自动校对程序:解决王大锤的拼写错误 引言问题描述数据范围输入输出描述算法与数据结构伪代码C 代码实现代码解释测试用例边界情况复杂度分析结论后记引言 王大锤,一个出版社的编辑,每天面对海量的英文稿件,不胜其烦。然而,凭借他蓝翔技校挖掘机和程序设计…

[情商-13]:语言的艺术:何为真实和真相,所谓真相,就是别人想让你知道的真相!洞察谎言与真相!

目录 前言: 一、说话的真实程度分级 二、说谎动机分级:善意谎言、中性谎言、恶意谎言 三、小心:所谓真相:只说对自己有利的真相 四、小心:所谓真相:就是别人想让你知道的真相 五、小心:所…

Redis 事务:支持回滚吗?深入解析

今天我们要来探讨一个关于 Redis 事务的重要问题:Redis 事务支持回滚吗?这个问题在 Redis 的使用中经常被提及,对于正确理解和使用 Redis 事务至关重要。那么,让我们一起深入解析这个问题吧! 一、Redis 事务简介 在了…

Linux命令分享 三 (ubuntu 16.04)

1、‘>’ >>输出重定向 用法:命令 参数 > 文件 ls > a.txt ‘>’ 将一个命令的结果不输出到屏幕上,输出到文件中,如果文件不存在就创建文件,如果存在就覆盖文件。 ls >> a.txt ‘>>’ 如果文件不存…

数据结构与算法02 - 复杂度

1、空间复杂度 空间复杂度指的是临时占用存储空间大小的量度;空间复杂度计算的是变量的个数,也采用大O渐进表示法;由于函数在运行的时候所需要的栈空间(存储参数、局部变量、一些寄存器信息等)在编译器已经确定好了&a…

BERN2(生物医学领域)命名实体识别与命名规范化工具

BERN2: an advanced neural biomedical named entity recognition and normalization tool 《Bioinformatics》2022 1 摘要 NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病…

modelsim仿真流程

modelsim仿真流程 1、建立工程 project new "../prj" test.mpf2、添加rtl文件 project addfile "../test.v" verilog3、建立仿真库 vlib work4、编译rtl到仿真库中 vlog -sv -sv09compat defineT133 incdir"../rtl" test.v -work work5、加载…

【Python】6.基础语法(6)文件

文章目录 1. 文件是什么2. 文件路径3. 文件操作3.1 打开文件3.2 关闭文件3.3 写文件3.4 读文件 4. 关于中文的处理5. 使用上下文管理器 1. 文件是什么 变量是把数据保存到内存中。如果程序重启/主机重启, 内存中的数据就会丢失。 要想能让数据被持久化存储, 就可以把数据存储…

openGauss 之索引回表

一. 前言 ​ 在openGauss中如果表有索引信息,查询的谓词条件中又包含索引列,openGauss支持通过索引信息快速拿到需要访问元组的位置信息,然后直接到该位置上取出元组数据,称之为回表查询。如下所示,利用索引索引…

JS中this指向问题

首先,this的绑定和定义的位置无关,它的指向只和调用方式有关,this只有在运行时才知道指向谁。 一,默认绑定 默认绑定,也可以说是独立函数调用,这时this指向window。 function foo() {console.log(this) …

DataGrip数据迁移

第一步 第二步 第三步 第四步 选择你刚刚到处的文件即可

海信发布以旧换新举措,补贴力度、补贴链路、服务体验全面升级

9月7日,由中国家用电器商业协会主办的“海信全国十城联动以旧换新”发布会在北京举行。 据「TMT星球」了解,活动以“品质换新就选海信”为主题,旨在贯彻政府加大消费品以旧换新的战略部署,为我国家电行业绿色化、智能化、高端化高…

知名AIGC人工智能专家培训讲师唐兴通谈AI大模型数字化转型数字新媒体营销与数字化销售

在过去的二十年里,中国企业在数字营销领域经历了一场惊心动魄的变革。从最初的懵懂无知到如今的游刃有余,这一路走来,既有模仿学习的艰辛,也有创新突破的喜悦。然而,站在人工智能时代的门槛上,我们不禁要问…

最厉害顶尖新媒体营销专家培训讲师唐兴通谈数字营销社群营销私域运营大客户销售AIGC大模型创新思维数字化转型商业模式短视频内容社私域数字经济人工智能

​数字人工智能时代的营销进化:从临摹到自我革新 引言:从模仿到变革的时代拐点 中国企业在过去的几十年里,经历了从电子商务的初兴到搜索引擎营销,再到微博、微信以及短视频等多种数字营销形式的迅速发展。在这个过程中&#xf…

力扣最热一百题——最大子数组和

目录 题目链接:53. 最大子数组和 - 力扣(LeetCode) 题目描述 示例 提示: 解法一:动态规划 举例分析 时间复杂度 Java写法: C写法: 优化 总结 题目链接:53. 最大子数组和 …

「数学::质数」试除法 / Luogu P5736(C++)

概述 在质数的第一节我们来讲解试除法。 质数是指在大于1的自然数中只能被1和它自己整除的数。 我们可以利用这一除法性质对质数进行判定。 Luogu P5736: 输入 n 个不大于 10^5 的正整数。要求全部储存在数组中,去除掉不是质数的数字,依…

012.Oracle-索引

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉&…

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Nginx等服务的需求,一定…