[论文解析] NeRF-Art: Text-Driven Neural Radiance Fields Stylization

news2025/1/17 0:28:17

在这里插入图片描述

文章目录

  • Overview
    • What problem is addressed in the paper?
    • Is it a new problem? If so, why does it matter? If not, why does it still matter?
    • What is the key to the solution?
    • What is the main contribution?
    • What can we learn from ablation studies?
    • Potential fundamental flaws; how this work can be improved?‘’
  • 3 Overview
      • NeRF-Art Pipeline
    • 3.1 Preliminary on NeRF Scene Representation
  • 4 TEXT-GUIDED NERF STYLIZATION
    • 4.1 Trajectory Control w/ Directional CLIP Loss
      • **absolute directional CLIP loss**
      • **relative directional CLIP loss**
    • 4.2 Strength Control w/ Glocal Contrastive Learning
      • contrastive learning strategy
      • **final globallocal contrastive loss**
    • 4.3 Artifact Suppression w/ Weight Regularization
      • the weight regularization loss
    • 4.4 Training
  • 5 EXPERIMENTS
    • 5.3 Text Evaluation
    • 5.4 Comparisons
    • 5.6 Ablation Study
      • Why global-local contrastive learning?
      • Why weight regularization?
    • 5.7 Generalization Evaluation
    • 5.8 Geometry Evaluation
  • 6 CONCLUSION
    • limitations
  • 其他信息:

Overview

What problem is addressed in the paper?

Text-Driven Neural Radiance Fields Stylization.
In this paper, we present NeRF-Art, a text-guided NeRF stylization approach that manipulates the style of a pre-trained NeRF model with a simple text prompt.

Is it a new problem? If so, why does it matter? If not, why does it still matter?

No. Stylizing NeRF, however, remains challenging, especially on simulating a text-guided style with both the appearance and the geometry altered simultaneously (对NeRF进行风格化仍然具有挑战性,特别是在模拟一个同时改变外观和几何的文本引导样式时)

Unlike previous approaches that either lack sufficient geometry deformations and texture details or require meshes to guide the stylization, our method can shift a 3D scene to the target style characterized by desired geometry and appearance variations without any mesh guidance (不同于以前的方法,要么缺乏足够的几何变形和纹理细节,要么需要网格来引导风格化,我们的方法可以将3D场景转移到目标风格,其特征是所需的几何和外观变化,而无需任何网格引导)

What is the key to the solution?

  • This is achieved by introducing a novel global-local contrastive learning strategy, combined with the directional constraint to simultaneously control both the trajectory and the strength of the target style. (这是通过引入一种新的全局-局部对比学习策略(global-local contrastive learning strategy),结合方向约束,同时控制目标风格的轨迹和强度来实现的。)
  • Moreover, we adopt a weight regularization method to effectively suppress cloudy artifacts and geometry noises which arise easily when the density field is transformed during geometry stylization. (权值正则化方法有效地抑制了几何风格化过程中密度场变换时容易产生的浑浊伪影和几何噪声)

What is the main contribution?

What can we learn from ablation studies?

Potential fundamental flaws; how this work can be improved?‘’

3 Overview

NeRF-Art Pipeline

在这里插入图片描述

方法分为两个阶段:

  • recostruction stages
    首先根据目标场景的多视图输入 使用重构损失 L r e c L_{rec} Lrec预训练 NeRF model F r e c F_{rec} Frec
  • stylization stages
    风格化 F r e c − > F s t y F_{rec} -> F_{sty} Frec>Fsty. 用文本提示 t t g t t_{tgt} ttgt ,结合相对方向损失 L d i r r L_{dir}^r Ldirr 和global-local 对比损失 L c o n g + l L_{con}^{g+l} Lcong+l, 还有权重正则化损失 L r e g L_{reg} Lreg 和感知损失 L p e r L_{per} Lper

3.1 Preliminary on NeRF Scene Representation

Color:
在这里插入图片描述
重构损失 L r e c L_{rec} Lrec:
在这里插入图片描述

4 TEXT-GUIDED NERF STYLIZATION

风格化的目的是,在保留 F r e c F_{rec} Frec内容的同时,使用文本提示 t t g t t_{tgt} ttgt的风格控制。

挑战:

  • preserves the original content from being washed away by the new style,
  • reaches the target style with proper strength that satisfies the semantics of the input text prompt,
  • maintains cross-view consistency and avoids artifacts in the final NeRF model.

4.1 Trajectory Control w/ Directional CLIP Loss

CLIP有两个encoder:

  • images encoder ε ^ i ( ⋅ ) \hat{\varepsilon}_i(\cdot) ε^i()
  • text encoder ε ^ t ( ⋅ ) \hat{\varepsilon}_t(\cdot) ε^t()

absolute directional CLIP loss

that measures the cosine similarity (⟨·, ·⟩) between the stylized NeRF rendering 𝑰𝑡𝑔𝑡 and the target text prompt 𝒕𝑡𝑔𝑡 (Figure 3(a)) :
在这里插入图片描述
在这里插入图片描述
该损失的缺点:
容易使生成器模式崩溃并损害风格化的生成多样性

relative directional CLIP loss

在这里插入图片描述
在这里插入图片描述

它可以执行相对的风格化轨迹。然而,在改变预训练的NeRF模型时,它很难保持足够的风格化强度。

4.2 Strength Control w/ Glocal Contrastive Learning

contrastive learning strategy

在这里插入图片描述
其中,{ v , v + , v − v,v^+,v- v,v+,v} 分别是查询样本,正样本,负样本。
全局loss: 将完整的视角图像 I t g t I_{tgt} Itgt作为查询锚点。
在这里插入图片描述

全局对比损失在整个NeRF场景上仍然难以实现充分均匀的风格化,导致某些部分风格化过度,而其他区域风格化不足。
为了实现更充分和平衡的风格化,我们提出了一种互补的局部对比损失:使用随机局部patches P t g t P_{tgt} Ptgt
在这里插入图片描述

final globallocal contrastive loss

在这里插入图片描述

在这里插入图片描述

4.3 Artifact Suppression w/ Weight Regularization

我们的方法不仅要改变颜色,还要改变预训练NeRF的密度,以实现外观和几何的联合风格化。然而,允许训练过程来改变密度可能会导致在相机附近产生像云一样的半透明伪影和几何噪声,即使预训练的NeRF是完全干净的。
为了缓解这个问题,
我们采用权重正则化损失来抑制几何噪声,并鼓励更集中的密度分布,更好地类似于现实场景。

the weight regularization loss

在这里插入图片描述

4.4 Training

总体损失:
在这里插入图片描述
感知损失:
在这里插入图片描述

5 EXPERIMENTS

5.3 Text Evaluation

在这里插入图片描述

5.4 Comparisons

在这里插入图片描述

StyleGAN- nada对真实人脸的友好度较低,因为输入图像必须倒转到StyleGAN潜空间才能进行风格化,这将不可避免地导致一些细节丢失和身份变化。与之不同的是,NeRF-Art不受任何预训练网络的潜在空间的限制,也不需要反转步骤。

文森特·梵高 , “野兽派”
在这里插入图片描述

CLIP-NeRF风格化的NeRF使用绝对方向损失,我们只在鼻子和头发上看到了足够的“野兽派”风格的风格化,但男人的脸颊还没有完全风格化。 相比之下,我们设计了一个全局-局部对比学习策略,以确保理想的风格强度。
CLIP-NeRF没有使用权值正则化,其结果可能会出现严重的几何噪声。相比之下,我们的权重正则化通过鼓励更集中的密度分布来抑制几何噪声。

“托尔金精灵”, 野兽派”,蝙蝠侠、 绿巨人
在这里插入图片描述

DreamField也采用绝对方向损失对NeRF进行风格化,不能保证风格化足够均匀。DreamField采用随机背景增强CLIP在前景上的注意力,这需要视图一致的蒙版,而我们的不需要。
我们的方法在详细的布料褶皱、面部属性和细粒度几何变形(如肌肉形状和天线)方面始终优于DreamField。
我们的NeRF-Art通过提出一种对比学习技术来实现充分和均匀的风格化,并设计权重正则化来去除浑浊的伪影和几何噪声,从而优于这些方法。

爱德华•蒙克
皮克斯,伏地魔、 钢铁侠、超人
在这里插入图片描述

受限于网格表示的表达能力,Text2Mesh大多数运行失败,呈现不稳定的风格化结果,导致边缘或表面出现不规则的变形和压痕。
AvatarCLIP采用随机背景增强来引导CLIP聚焦于前景,并防止浮动的工件生成。然而,这个过程需要视图一致的面具,而我们的不需要。
AvatarCLIP仍然不能产生令人满意的纹理和几何细节。相比之下,我们的胡子更细,衣服上的皱纹更细,面部特征也更清晰。

在没有任何网格引导的情况下,使用所提出的对比学习策略,nerf - art实现了更好的风格化

5.6 Ablation Study

Why global-local contrastive learning?

如果没有全局-局部的对比损失,结果会出现风格化不足或不均匀的问题。目标提示分别是“异鬼”和“托尔金精灵”。在这里插入图片描述

在图9的第三列中的“托尔金精灵”示例中,面部风格化不足,眼睛风格化过度。
通过将全局和局部对比损失与定向CLIP相结合,我们的方法成功地实现了均匀的风格化,风格化方向正确,大小足够

Why weight regularization?

改变NeRF的几何形状可能会导致模糊的伪影。在图11中,我们证明了权重正则化损失可以通过鼓励更集中的密度分布进行程式化来抑制模糊伪影和几何噪声。
在这里插入图片描述

在没有权值正则化损失的情况下,观察到角附近的模糊伪影或几何噪声。

5.7 Generalization Evaluation

在这里插入图片描述

5.8 Geometry Evaluation

为了评估几何图形在风格化过程中是否被正确调制,我们在图10中显示了几何图形评估结果。
在这里插入图片描述

例如,“伏地魔”画平了女孩的鼻子,“托尔金精灵”画尖了女孩的耳朵,“皮克斯”画圆了女孩的下巴。此外,我们在VolSDF和NeuS上都发现了相同的观察结果。总之,我们得出结论,我们的方法可以正确地调制NeRF的几何形状,以匹配所需的风格。

6 CONCLUSION

在本文中,我们提出了基于CLIP的文本引导的NeRF风格化方法NeRF- art。不同于现有的方法,在风格化过程中需要网格引导或在风格化中捕获不足的几何变形和纹理细节,我们的方法同时调节其几何和外观以匹配所需的风格,并仅通过文本引导显示几何变形和纹理细节的视觉愉悦结果。为了实现这一目标,我们引入了精心设计的方向约束组合来控制风格轨迹,并引入了新颖的全局-局部对比损失来加强适当的风格强度。此外,我们提出了一种权值正则化策略,以消除几何变形中的模糊伪影和几何噪声。在真实人脸和一般场景上的大量实验表明,该方法在风格化质量和视图一致性方面都是有效和鲁棒的。

limitations

一些文本提示在语言上存在歧义,如“数字绘画”,它描述了广泛的风格,包括油画、铅笔素描、3D渲染图像、卡通素描等。这种模糊性可能会混淆CLIP,使最终结果出乎意料,如图13所示。
在这里插入图片描述

如果我们将单词“Mouth”和“Batman”组合在一起作为提示,结果意外地在嘴巴上放了一个蝙蝠形状,这可能不是用户想要的。这些都是值得我们在未来探索的有趣问题。

其他信息:

Project page: https://cassiepython.github.io/nerfart/

text-guidence stylization:

  • StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
    it is an image-based method and will lead to inconsistencies when applied to stylizing multiple views.
  • AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars
  • Text2Mesh: Text-Driven Neural Stylization for Meshes
    uses CLIP to guide the stylization of a given 3D mesh by learning a displacement map for geometry deformation and vertex colors for texture stylization
  • HairCLIP: Design Your Hair by Text and Reference Image

(这些方法仅限于网格输入。相比之下,我们的方法能够在没有任何网格输入的情况下对3D场景进行风格化,具有更好的视觉质量和视图一致性。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/117213.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3 路由 vite方式新建项目【适合新手】

一 配环境、并初始化项目 安装nodejs https://blog.csdn.net/lh155136/article/details/128444850 参考官网https://cn.vuejs.org/guide/quick-start.html#creating-a-vue-application 找个空目录cmd打开黑窗口 初始化项目 npm init vuelatest输入y 输入项目名字&#xff…

大聪明教你学Java | 带你了解 Binlog 实现 MySQL 主从同步的原理及实现方式

前言 🍊作者简介: 不肯过江东丶,一个来自二线城市的程序员,致力于用“猥琐”办法解决繁琐问题,让复杂的问题变得通俗易懂。 🍊支持作者: 点赞👍、关注💖、留言&#x1f4…

MYSQL性能分析

MYSQL性能分析 1.慢SQL查询 开启慢sql查询机制 set global slow_query_logon set global long_query_time2; set global log_queries_not_using_indexesonslow_query_log:慢查询log日志记录 on(开启)/off(关闭); long_query_time:SQL语句执行时间超过2…

Django学习 Day8

1.查询语句 主要目的是学习在ORM中使用条件查询 Filter(条件) 语法: MyModel.objects.filter(属性1值1,属性2值2) 作用:返回包含此条件的全部数据集 返回值:QuerySet容器对象,内部存放MyModel实…

元旦礼!2022年国家高新技术企业

​近日,2022年度第一批高新技术企业证书已正式发放。根据《高新技术企业认定管理办法》(国科发火〔2016〕32号)和《高新技术企业认定管理工作指引》(国科发火〔2016〕195号)有关规定,北京市高新技术企业认定…

项目实战之旅游网(七)后台分类管理 后台产品管理(上)

目录 一.后台分类管理 二.后台产品管理&#xff08;上&#xff09; 1.产品列表 2.新增产品 3.富文本编辑器 一.后台分类管理 mapper层&#xff1a; public interface CategoryMapper extends BaseMapper<Category> { } service层&#xff1a; Service Transactio…

什么是机器视觉计算机?

机器视觉是用于通过分析视频和图像帮助计算机做出决策的硬件和软件的集成。在制造业中&#xff0c;机器视觉通常用于生产线上&#xff0c;以便在产品的每个阶段进行自动检查。机器视觉还扩展了其在高端监控和安全、生物医学成像甚至视觉引导机器人、车辆中的应用。随着视觉技术…

“虚拟试衣间”项目可行性分析报告

目录 “虚拟试衣间”项目可行性分析报告 1 引言 1.1 标识 1.2 背景 1.3 项目概述 1.3.1 软件的基本描述 1.3.2 项目开发基本描述 1.3.3 投资方 1.4 文档概述 3 可行性分析的前提 3.1 项目的要求 一、功能 二、性能 三、输出 四、输入 五、基本数据流程和处理流程 六、安全与保…

如何从0开始画出一张优秀的架构图

你好&#xff0c;我是悟空。 最近在画项目的技术架构图&#xff0c;找到了一些不错的模板&#xff0c;分享给大家~ 画图工具&#xff1a;ProcessOn。 画图技巧&#xff1a;如何从0开始画出一张优秀的架构图 文末再送 5 本书给大家&#xff01; 业务架构图 定义&#xff1…

深圳东方英文书院顺利通过IB五年评估

2021年12月中旬&#xff0c;国际文凭组织&#xff08;IB&#xff09;正式发布官方的评估报告&#xff0c;我院国际小学第一个五年评估顺利通过&#xff01;书院整个社区一片欢腾&#xff01; 何为IB五年评估&#xff1f;为什么它对我们这么重要&#xff1f;不通过会怎么样&…

六十天训练总结

终于啊&#xff0c;六十天说长不长说短不短&#xff0c;但是按时坚持下来的人也确实是少&#xff0c;非常高兴自己能够做到打卡标语的那样&#xff08;完美坚持&#xff09; 要总结的话&#xff0c;东西还是很多的 开了个目录来存放各个题目&#xff0c;并且道题目都有自己看来…

远程桌面控制工具---NoMachine踩坑记录

NoMachine for mac是一款免费的远程桌面访问工具&#xff0c;这款软件的连接到远程桌面后延迟可以非常低&#xff0c;NX协议在高延迟低带宽的链路上提供了近乎本地速度的响应能力&#xff0c;打破空间和时间的障碍&#xff0c;让您的桌面环游世界。 1.环境配置 服务端&#x…

客快物流大数据项目(一百零一):实时OLAP开发

文章目录 实时OLAP开发 一、实时ETL处理 二、SparkSQL基于DataSourceV2自定义数据源

ABAP Function ALV 使用教程

Function ALV 是实现最简单,使用频率最高的报表 使用Function ALV的关键就是调用SAP标准的程序 REUSE_ALV_LIST_DISPLAY 简单实现: 生成报表 示例代码&#xff1a; REPORT ZABAP_FUNCTION_ALV.DATA gt_itab TYPE TABLE OF SFLIGHT.SELECT * FROM SFLIGHT INTO TABLE gt_it…

线程数,512是否合理?

Web-Server有个配置&#xff0c;工作线程数。Service一般也有个配置&#xff0c;工作线程数。经验丰富的架构师&#xff0c;懂得如何配置这些参数&#xff0c;使得系统的性能达到最优&#xff1a;有些业务设置为CPU核数的2倍&#xff0c;有些业务设置为CPU核数的8倍&#xff0c…

Sringboot2整合shiro实现登录认证和记住我功能

Sringboot2整合shiro实现及登录认证和记住我 提示&#xff1a;这里可以添加系列文章的所有文章的目录&#xff0c;目录需要自己手动添加 例如&#xff1a;第一章 Python 机器学习入门之pandas的使用 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生…

resolution-robust large mask inpainting with fourier convolutions

Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)_studyeboy的博客-CSDN博客_分辨率稳健的大掩膜修复[Paper] Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)[Code]saic-mdal/lama基于傅里叶卷积的分辨率稳健的大型掩码修…

数据结构之排序【归并排序和快排的顶级优化和快排的三种原理的实现及分析】 内含动态演示图

文章目录引言&#xff1a;1.归并排序(MergeSort)2.快速排序的优化&#xff08;顶级优化&#xff09;3.快速排序的三种思路的代码实现及分析4.归并排序和快排第3原理的测试引言&#xff1a; 刚刚去回顾了一下递归实现的几个小代码&#xff0c;感觉递归真的是很神奇的一个东西&a…

C# StringBuilder

StringBuilder位于命名空间System.Text下&#xff0c;使用前需引入 using System.Text; StringBuilder的构造 new StringBuilder(string value) StringBuilder sb1 new StringBuilder("www.abc.com"); 利用构造函数创建一个值为“www.abc.com”的StringBuilder…

解决Ubuntu不能上网以及无法远程连接Ubuntu

本文环境 物理机OS&#xff1a; Windows10 专业版 虚拟机平台&#xff1a; VMware Workstation 16 Pro 虚拟机OS&#xff1a; Ubuntu 20.04 相信大家在使用Ubuntu中也有遇到不能上网&#xff0c;我也是尝试了很多的方法都不行&#xff0c;终于找到了一种可行的方法。 步骤…