一个值得关注的3D生成新算法:速度和图像生成平齐,能生成合理的展开贴图和高质量mesh

news2024/10/7 1:33:26

今天跟大家介绍的GIMDiffusion是一种新的Text-to-3D模型,利用几何图像(Geometry Images)来高效地表示3D形状,避免了复杂的3D架构。通过结合现有的Text-to-Image模型如Stable Diffusion的2D先验知识,GIMDiffusion能够在有限的3D数据下实现强大的泛化能力,生成包含语义意义和内部结构的3D对象,同时保持高效的速度。 一起来看下他的3D生成效果~

GIMDiffusion生成的网格。 对于每个对象显示生成的反照率纹理、纹理网格、无纹理网格和相应的文本提示。对象完全使用GIMDiffusion生成:UV 贴图的结构、纹理和布局都是完全从头生成的。

GIMDiffusion 的优势包括:

  • 基于图像:通过利用现有基于图像的 2D 模型,简化了模型设计和训练。

  • 快速生成:在每个对象 10 秒内生成定义明确的 3D 网格。

  • 泛化:通过协作控制重复使用预先训练的文本到图像先验,能在有限训练数据之外进行泛化。

  • 独立部分:GIMDiffusion 创建的资产由可分离部分组成,可以轻松地操作和编辑单个组件。

  • 反照率纹理:GIMDiffusion 生成的 3D 资产没有内置的灯光效果,因此适用于各种环境。

  • 简单的后期处理:3D资产不需要应用等值面提取算法或 UV 展开。

相关链接

论文链接:https://arxiv.org/pdf/2409.03718

代码链接:(即将开源)

论文阅读

GIMDiffusion:基于图像的表面表示的快速且数据高效的文本到 3D 转换

摘要

由于计算成本、3D 数据稀缺性和复杂的 3D 表示,从文本描述生成高质量 3D 对象仍然是一个具有挑战性的问题。我们引入了几何图像扩散 (GIMDiffusion),这是一种新颖的文本到 3D 模型,它利用几何图像有效地使用 2D 图像表示 3D 形状,从而避免了对复杂的 3D 感知架构的需求。通过集成协作控制机制,我们利用了现有文本到图像模型(如稳定扩散)的丰富 2D 先验。这即使在有限的 3D 训练数据(允许我们仅使用高质量的训练数据)的情况下也能实现强大的泛化,并保持与 IPAdapter 等引导技术的兼容性。简而言之,GIMDiffusion 能够以与当前文本到图像模型相当的速度生成 3D 资产。生成的对象由语义上有意义的、独立的部分组成,并包含内部结构,从而增强了可用性和多功能性。

方法

协同控制方案应用于GIMDiffusion,其中分别产生两个独立的扩散模型反照率纹理和几何图像。前者是一个冻结的预训练模型,而后者是一个从头开始训练的架构克隆。

在多图表几何图像创建过程中使用接缝检测来隔离 UV 映射的局部可逆区域。(左)如果两个相邻的网格区域对应于 UV 映射中的两个不同图表,则边界上的顶点将重复并具有不同的 UV 坐标。(右)如果 UV 映射循环回到自身,则 UV 访问热图中将出现局部最小值,我们将接缝沿着 UV 度最小的线放置,以有效地分离这些区域。

由于训练数据集中几何图像的面积保留特性,我们生成的对象的三角剖分结果在表面上几乎是均匀的。

实验

数据集

在 Objaverse 数据集上训练模型。通过过滤掉 3D 扫描和低多边形模型来整理此数据集,使其仅包含具有高质量结构和语义上有意义的 UV 图的对象。最终数据集包含大约 100,000 个对象。每个数据条目都附有 Cap3D 和 Hong 等人提供的标题。在训练期间,从这些标题中随机抽样,并对提取的纹理图集应用 90、180 或 270 度的随机旋转。现在讨论如何将这些网格转换为几何图像并转回:整个预处理是在消费级 PC 硬件(AMD Ryzen 9 7950X、GeForce RTX 3090、64 GB RAM)上执行的,大约需要 20 个小时。

(a)真实几何图形、(b)几何图像、(c)来自数据预处理的反照率、(d)使用专用的 VAE 进行的重建。真实对象的高度可分离性,它被分成小部分。

GIMDiffusion 的样本多样性用于对提示进行微小更改或对初始高斯噪声使用不同的随机种子。 很明显,生成的变化不仅在外观和结构上存在很大差异,而且在纹理的图集布局上也存在很大差异。这在实际应用中非常有价值,因为用户通常会生成多个选项并选择最佳选项。

GIMDiffusion 得益于基础模型强大的自然图像先验与协同控制方案的结合,能够很好地超越 Objaverse 训练数据的“原始”性质。

可以通过将预先训练的 IPAdapter 应用于冻结的基础模型生成反照率纹理,以风格化的方式指导逆向过程。这在资产需要与现有“感觉”相匹配的应用中非常有价值。

生成的图像保留了纹理图集中图表的语义上有意义的分离。我们在这里通过展示生成的“毒蝇伞蘑菇”的分解图来说明这一点。很明显,蘑菇的各个部分像人类一样被分开,而且该方法甚至能够模拟形状的内部部分。

结论

在本文跟大家介绍了几何图像扩散(GIMDiffusion),这是一种新颖的文本到 3D 生成范例,它利用几何图像作为其核心 3D 表示,并结合预先训练的扩散模型形式的强大自然图像先验。

GIMDiffusion 可以像现有的文本到图像方法生成普通图像一样高效地生成可重新点亮的 3D 资产,同时避免了对复杂的自定义 3Daware 架构的需求。该研究为文本到 3D 生成的新方向奠定了基础。进一步的质量改进包括解决图表间对齐和消除可见裂缝等问题。此外,结合拓扑预测和对特定多边形预算的调节将增强对生成的 3D 对象的控制,使其更适合用于游戏和其他图形管道。GIMDiffusion 在动画或文本到视频生成等相关领域的潜力同样有希望。

局限性。 最常见的问题是生成的网格中出现可见的裂缝。虽然目前没有将图表的接缝缝合在一起,这可以提高生成的网格的视觉质量,但 VAE 的潜在压缩进一步加剧了这个问题。小于 8×8 像素的区域基本上低于 VAE 的潜在分辨率,从而导致视觉问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2193353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

系统架构设计师论文《论NoSQL数据库技术及其应用》精选试读

论文真题 随着互联网web2.0网站的兴起,传统关系数据库在应对web2.0 网站,特别是超大规模和高并发的web2.0纯动态SNS网站上已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展…

LeetCode讲解篇之139. 单词拆分

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 我们使用一个数组记录字符串s在[0, i)区间能否使用wordDict组成 我们使用左右指针遍历字符串s的子串,左指针 j 为子串的左端点下标,右指针 i 为右端点下标的下一个 遍历过程中如果字符串s…

利士策分享,哀牢山:网红打卡地背后的探险风险

利士策分享,哀牢山:网红打卡地背后的探险风险 最近,云南的哀牢山因其独特的自然风光和神秘探险氛围而迅速走红网络。许多游客,特别是户外探险爱好者,纷纷涌入这片神秘的山脉,想要亲身体验那份原始与野性的…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06目录1. A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization摘要:研究背景&…

MATLAB智能优化算法-学习笔记(4)——灰狼优化算法求解旅行商问题【过程+代码】

灰狼优化算法(Grey Wolf Optimizer, GWO)是一种基于灰狼社会行为的元启发式算法,主要模拟灰狼群体的捕猎行为(包括围攻、追捕、搜寻猎物等过程)。多旅行商问题(Multi-Traveling Salesman Problem, mTSP)是旅行商问题(TSP)的扩展,它涉及多个旅行商(车辆)从一个起点城…

超好用的element的el-pagination分页组件二次封装-附源码及讲解

前言:在很多后台管理系统开发时总会有很多分页组件的使用,如果我们每次都用elementui官网的el-pagination去写的话,调整所有分页的样式就会很麻烦,而且页面内容也会很累赘繁琐。 讲解一个我经常使用的二次封装el-pagination组件&…

产品经理产出的原型设计 - 需求文档应该怎么制作?

需求文档,产品经理最终产出的文档,也是产品设计最终的表述形式。本次分享呢,就是介绍如何写好一份需求文档。 所有元件均可复用,可作为管理端原型设计模板,按照实际项目需求进行功能拓展。有需要的话可分享源文件。 …

免费版U盘数据恢复软件大揭秘,拯救你的重要数据

我们的生活和工作越来越离不开各种存储设备,其中优盘因其小巧便携、方便使用的特点,成为了我们存储和传输数据的重要工具之一。为了防止你像我一样会遇到数据丢失抓狂的情况,我分享几款u盘数据恢复软件免费版工具来即时补救。 1.福昕U盘数据…

DDR6 或将出炉 (含 LPDDR6, CAMM)

前记:目前DDR6 尚未问世,文中较多信息是“据说”,笔者也无法考证,请大家后期以JEDEC官方为准。 很多朋友可能还没用上DDR5,但不好意思的是,DDR6 可能马上就要出现了。 三星和海力士较早开始DDR6 的设计,预计2025年商业化。 DDR6 速度 来源: 半导体观察 DDR6的速度…

VL53L4CD液位监测(2)----液位检测

VL53L4CD液位监测.2--液位检测 概述视频教学样品申请完整代码下载硬件准备STSW-IMG039容器特性包含必要的头文件变量定义测距函数 Ranging()液位误差补偿函数 Liquidlevelmeasureerrorcomponsate()数据轮询函数 get_data_by_polling()演示 概述 液位检测在工业自动化、环境监测…

[git] github管理项目之环境依赖管理

导出依赖到 requirements.txt pip install pipreqs pipreqs . --encodingutf8 --force但是直接使用pip安装不了torch,需要添加源!! pip install -r requirements.txt -f https://download.pytorch.org/whl/torch_stable.htmlpython 项目中 …

使用树莓派搭建音乐服务器

目录 引言一、搭建Navidrome二、服务穿透三、音流配置 引言 本人手机存储空间128G,网易云音乐6个G,本就不富裕的空间更是雪上加霜,而且重点是,我根本没有听几首歌,清除缓存后,整个软件都还是占用了5个G左右…

5 个PPT设计技巧,让你的开题答辩脱颖而出!

AIPaperGPT,论文写作神器~ https://www.aipapergpt.com/ 开题答辩是论文写作的第一道关键关卡,开题报告不仅展示了你的研究计划和方向,还要让评审老师理解你的研究背景和目的。一个设计精良的开题答辩PPT,不仅可以帮助你更好地陈…

LeetCode Hot100 | Day1 | 二叉树:二叉树的直径

LeetCode Hot100 | Day1 | 二叉树:二叉树的直径 主要学习内容: 二叉树深度求法 深度的 leftright1 得到的是从根结点到叶子结点的节点数量 543.二叉树的直径 [543. 二叉树的直径 - 力扣(LeetCode)](https://leetcode.cn/prob…

二分查找算法——山脉数组的峰顶索引&寻找峰值

1.题目解析 题目来源:852.山脉数组的峰顶索引 测试用例 题目来源:162.寻找峰值 测试用例 2.算法原理 山脉数组的峰顶索引 根据二段性将山脉数组分为两段:上升段与下降段 1.当mid指针落入上升段,说明峰值在mid指针后,要…

Linux 系统五种帮助命令的使用

Linux 系统五种帮助命令的使用 本文将介绍 Linux 系统中常用的帮助命令,包括 man、–help、whatis、apropos 和 info 命令。这些命令对于新手和有经验的用户来说,都是查找命令信息、理解命令功能的有力工具。 文章目录 Linux 系统五种帮助命令的使用一…

19年408数据结构

第一题&#xff1a; 解析&#xff1a; 设程序执行了K次&#xff0c;则有x K&#xff0c;n<k^2,解得nn^(1/2) 答案选B。 第二题&#xff1a; 解析&#xff1a;这道题直接当作一个结论来记&#xff0c;因为已经出现过很多次了&#xff1a;树的后根遍历和对应二叉树的中序遍…

【异常记录Vue_20241006】使用TagsView后控制台报错

报错截图 报错原因 未将TagsView所依赖的组件permission组件注册到store中&#xff0c;导致TagsView组件在找permission.routes时没找到 解决方法&#xff1a;store注册相应组件

Linux:进程入门(进程与程序的区别,进程的标识符,fork函数创建多进程)

往期文章&#xff1a;《Linux&#xff1a;深入了解冯诺依曼结构与操作系统》 Linux&#xff1a;深入理解冯诺依曼结构与操作系统-CSDN博客 目录 1. 概念 2. 描述进程 3. 深入理解进程的本质 4. 进程PID 4.1 指令获取PID 4.2 geipid函数获取PID 4.3 kill指令终止进程 …

计算机毕业设计 校内跑腿业务系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…