MeshAnything:艺术家级别的自回归3D网格生成

news2025/2/27 2:00:55

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

📜 文献卡

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers
作者: Yiwen Chen; Tong He; Di Huang; Weicai Ye; Sijin Chen; Jiaxiang Tang; Xin Chen; Zhongang Cai; Lei Yang; Gang Yu; Guosheng Lin; Chi Zhang
DOI: 10.48550/arXiv.2406.10163
摘要: Recently, 3D assets created via reconstruction and generation have matched the quality of manually crafted assets, highlighting their potential for replacement. However, this potential is largely unrealized because these assets always need to be converted to meshes for 3D industry applications, and the meshes produced by current mesh extraction methods are significantly inferior to Artist-Created Meshes (AMs), i.e., meshes created by human artists. Specifically, current mesh extraction methods rely on dense faces and ignore geometric features, leading to inefficiencies, complicated post-processing, and lower representation quality. To address these issues, we introduce MeshAnything, a model that treats mesh extraction as a generation problem, producing AMs aligned with specified shapes. By converting 3D assets in any 3D representation into AMs, MeshAnything can be integrated with various 3D asset production methods, thereby enhancing their application across the 3D industry. The architecture of MeshAnything comprises a VQ-VAE and a shape-conditioned decoder-only transformer. We first learn a mesh vocabulary using the VQ-VAE, then train the shape-conditioned decoder-only transformer on this vocabulary for shape-conditioned autoregressive mesh generation. Our extensive experiments show that our method generates AMs with hundreds of times fewer faces, significantly improving storage, rendering, and simulation efficiencies, while achieving precision comparable to previous methods.
github(Pytorch): [buaacyw/MeshAnything:https://github.com/buaacyw/meshanything

MeshAnything

⚙️ 内容

近期,由重建和生成创建的3D 资产已经达到了手工制作资产的质量水平,凸显了它们在替代领域的潜力。然而,这一潜力并未得到充分实现,因为这些资产总是需要转换为网格以用于3D 行业应用,而当前的网格提取方法产生的网格明显劣于由人类艺术家创作的网格(AMs)。特别是,当前的网格提取方法依赖于密集的面,并忽略了几何特征,导致低效、复杂的后处理以及较低的表示质量。为了解决这些问题,研究人员提出了 MeshAnything。

MeshAnything 将3D模型的网格提取视为生成问题,旨在产出与指定形状对齐的艺术家创作网格(Artist-Created Meshes, AMs)。这项技术可以将任意3D表示形式的资产转化为AMs,从而与多种3D资源生产流程相结合,增强其在3D行业中的应用。MeshAnything的核心架构包括一个VQ-VAE和一个形状条件解码器,该解码器是一个仅有的自回归变压器,首先通过VQ-VAE学习网格词汇,然后在此基础上训练形状条件解码器进行自回归网格生成。

💡 创新点
  1. 网格生成新视角:首次将网格提取视为生成任务,模拟人类艺术家的网格提取过程,生成具有高效拓扑结构的AMs。

  2. 减少面数显著提升效率:生成的AMs相比传统方法能减少数百倍的面数,极大地提高了存储、渲染和模拟的效率,同时保持与先前方法相当的精确度。

  3. 形状条件解码:提出形状条件的自回归网格生成方法,仅需学习如何为已知形状构建高效拓扑,简化学习过程。

  4. 广泛适用性:适用于任何3D表示形式,能与不同的3D资产生产方法集成,提高3D行业的应用范围

🧩 不足
  1. 面数限制:MeshAnything无法生成超过最大面数限制的网格,因此对于大型场景或特别复杂的对象处理能力有限。受计算资源限制,MeshAnything 是在少于 800 个面的网格上训练的,无法生成超过 800 个面的网格。

  2. 形状质量:输入网格的形状应足够锋利;否则,仅用 800 张面孔来表示它将具有挑战性。因此,由于形状质量不足,前馈图像到 3D 方法通常会产生不良结果。我们建议使用 3D 重建、扫描和基于 sds 的方法(如 DreamCraft3D)的结果作为 MeshAnything 的输入。

  3. 稳定性问题:由于其生成性质,相比于确定性方法如Marching Cubes,MeshAnything在稳定性上略显不足。

🔁实验卡

💧 数据

数据准备
  1. 数据来源与选择:MeshAnything的训练数据来源于两个主要的数据集:Objaverse和ShapeNet。Objaverse因其包含大量无类别限制的AMs而被选中,这使得MeshAnything能够处理一般形状。另一方面,ShapeNet虽然局限于特定类别,但提供了高质量的数据。结合这两个数据集,研究确保了模型的广泛适用性。

  2. 数据过滤:为了保证数据质量,研究者从两个数据集中过滤掉了面数超过800的网格,并通过人工检查移除了低质量的网格。最终,数据集包含了51k个来自Objaverse和5k个来自ShapeNet的网格。

  3. 数据划分:从总数据集中随机抽取10%作为评估数据集,剩余的90%用于训练。这样的划分确保了模型的泛化能力能够得到有效评估。

👩🏻‍💻 方法

数据处理与增强
  1. 预处理:所有网格的面按照最低顶点索引排序,然后是下一个最低,以此类推。顶点则按z-y-x坐标升序排列,其中z轴代表垂直方向。每个面内的索引进行重排,确保最低索引优先。这一步骤有助于模型学习一致的表示。

  2. 数据增强:在训练过程中,研究团队应用了实时的缩放、平移和旋转增强,将每个网格标准化到[-0.5, 0.5]的单位边界框内。这样的增强策略增加了模型的鲁棒性,使其能够更好地泛化到未见过的数据。

🔬 实验

实现细节
  1. 网络架构:MeshAnything的架构结合了VQ-VAE和自回归变压器。VQ-VAE的编码器和解码器基于BERT架构,而自回归部分选择了OPT-350M模型。使用了残差向量量化技术,深度为3,代码本大小为8,192个条目。

  2. 点云编码器:点云的编码由一个预训练的点云编码器完成,该编码器基于Objaverse数据集训练,能输出一个固定长度的257个令牌序列,其中包括256个携带形状信息的令牌和1个含有形状语义信息的头令牌。每组点云采样4096个点。

  3. 训练策略:模型使用交叉熵损失进行训练。在推理阶段,输入点云令牌序列到变压器中,要求生成后续序列,然后通过噪声抵抗解码器重构网格。每个序列在点云令牌后添加一个开始令牌(),在网格令牌后添加一个结束令牌()。

📜 结论

  • 实验表明,MeshAnything能够有效从各种3D表示中生成AMs,并且在集成到不同3D资产生产流程时,能适应多样化的条件进行网格生成。定量实验通过计算Chamfer距离、Edge Chamfer距离、法线一致性等指标来评估网格质量,结果显示MeshAnything不仅能生成与艺术家作品相媲美的网格,而且在某些情况下以更少的面数超越了地面真值。
  • 噪声抵抗解码器的消融实验验证了其有效性,提高了模型在有噪声情况下的性能。

🤔 总结卡


MeshAnything是一项突破性的研究,它通过创新地将网格提取视为一个生成问题,成功地缩小了自动生产与手工创建3D资产之间的差距。该模型不仅提升了网格的拓扑效率,降低了存储和处理成本,还通过灵活的兼容性为3D行业带来了广泛的应用潜力。尽管存在一些局限性,如对复杂对象处理的局限和稳定性问题,但MeshAnything无疑为3D内容创造开辟了新的可能,有望在游戏、电影及元宇宙等领域引发生产效率的革命。未来的研究可进一步探索提高模型稳定性和扩大适用范围的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1841641.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

守护系统稳定性的关键技术之看门狗

目录 一、独立看门狗 二、窗口看门狗 三、总结 看门狗定时器(Watchdog Timer,WDT)是嵌入式系统中至关重要的组件,用于监控和维护系统的稳定性。主要是用来监测单片机运行状态和解决程序引起的故障的模块。在由单片机构成的微型…

Python酷库之旅-比翼双飞情侣库(18)

目录 一、xlwt库的由来 1、背景和需求 2、项目启动 3、功能特点 4、版本兼容性 5、与其他库的关系 6、示例和应用 7、发展历史 二、xlwt库优缺点 1、优点 1-1、简单易用 1-2、功能丰富 1-3、兼容旧版Excel 1-4、社区支持 1-5、稳定性 2、缺点 2-1、不支持.xls…

Perl:从小白到大神,最全指南

Perl入门语言学习 一、引言1.1 学习Perl编程语言的重要性1.2 学习Perl的应用领域1.3 学习Perl的基础知识的目标和意义1.4 Perl开发环境搭建1.4.1 下载和安装Perl解释器(Downloading and Installing Perl Interpreter)1.4.2 编辑器选择和配置(…

通过sql语句直接导出excel文件

SELECT column1 as 名字 FROM your_table INTO OUTFILE /path/to/your_file.csv FIELDS TERMINATED BY , ENCLOSED BY " LINES TERMINATED BY \n 这里的注意事项是,INTO OUTFILE 这后面的路径需要通过下面的SQL查出来 show variables like %secure%; 操作步骤…

CPU-Z 查看电脑硬件信息

当谈及电脑硬件性能时,CPU-Z无疑是一款不可或缺的工具。作为一款专注于显示电脑各种硬件信息的软件,CPU-Z提供了详尽而精确的数据,让用户可以深入了解他们的计算机。 下载地址: https://software.ptw-cwl.com/#/3720903030

微信小程序-伪类选择器

一.伪类选择器 结构伪类常见书写方式: 第一类:找第几个孩子 1. :first-child 找第一个孩子2. :last-child 找最后一个孩子3. :nth-child(),正着找数字:写数字几就是找第几个孩子,2n或者even:找偶数2n1或者o…

做一个架构师需要什么能力?

作为一个架构师,需要具备多方面的能力来确保项目的顺利进行和系统的成功设计。以下是架构师所需的主要能力,按照不同的类别进行归纳和分点表示: 技术能力 编程能力:架构师通常是一个开发团队中技术较为出色的人员之一&#xff0…

【网络安全学习】使用Kali做信息收集-01-<域名信息主机信息>

1.收集开源情报 开源情报(Open Source Intelligence,OSINT)是指从各种公开的渠道中寻找和获取有价值的信息 如:互联网、媒体、社交网络、公共数据库等开源情报具有以下特点: - 丰富性:开源情报涵盖了各种类型和领域的信息 - 可…

【微服务】什么是Hystrix?一文带你入门Hystrix

文章目录 强烈推荐引言主要功能实现容错应用场景1. 远程服务调用2. 防止级联故障3. 网络延迟和超时管理4. 资源隔离5. 高并发场景6. 熔断与自动恢复7. 故障检测与监控 示例应用场景使用实例1. 引入依赖2. 创建 Hystrix 命令类3. 使用 Hystrix 命令4. 配置 Hystrix5. 实时监控集…

Python语言修改控制台输出文字的颜色和背景颜色

Python语言修改控制台输出文字的颜色和背景颜色 格式显示模式字体颜色背景颜色文字加效果显示类 格式 \033[显示模式;字体颜色;背景颜色m 显示模式 显示模式格式将文本颜色和背景颜色重置为默认值,取消所有其他文本属性\033[0m高亮(加粗)\03…

一站式实时数仓Hologres整体能力介绍

讲师:阿里云Hologres PD丁烨 一、产品定位 随着技术的进步,大数据正从规模化转向实时化处理。用户对传统的T1分析已不满足,期望获得更高时效性的计算和分析能力。例如实时大屏,城市大脑的交通监控、风控和实时的个性化推荐&…

AMEYA360 | 江苏润石最新发布12颗车规级模拟芯片

日前江苏润石再度新增12颗通过AEC-Q100 Grade1,满足MSL 1湿敏等级认证的车规级芯片。截止目前,润石科技总计有70颗Grade1 & MSL1的车规级芯片通过认证并进入量产。凭借卓越的产品技术指标和稳定的品质性能不仅展示了公司在车规级模拟芯片领域的技术积…

React 通信:深层传递(Props、Context、Children Jsx)

在之前的文章 探讨:围绕 props 阐述 React 通信 中总结了关于“父子”组件传值,但是当需要在组件树中深层传递参数以及需要在组件间复用相同的参数时,传递 props 就会变得很麻烦。 实际案例: 下述展示有两种状态:① 详…

智慧分流:探索互联网与物联网的负载均衡技术

数字化时代,个人认为,无论是互联网还是物联网,还是其他网,在各个层级,都对系统的稳定性和效率提出了更高的要求。负载均衡技术作为保障系统平稳运行的关键,其重要性不言而喻。在数字世界的海洋中&#xff0…

【TB作品】MSP430G2553,单片机,口袋板, 单相交流电压、电流计设计

题5 单相交流电压、电流计设计 设计基于MSP430的单相工频交流电参数检测仪。交流有效值0-220V,电流有效值0-40A。电压、电流值经电压、电流传感器输出有效值为0-5V的交流信号,传感器输出的电压、电流信号与被测电压、电流同相位。 基本要求如下 &#xf…

AI写作平台:提升文档撰写效率的神器

工欲善其事,必先利其器。 随着AI技术与各个行业或细分场景的深度融合,日常工作可使用的AI工具呈现出井喷式发展的趋势,AI工具的类别也从最初的AI文本生成、AI绘画工具,逐渐扩展到AI思维导图工具、AI流程图工具、AI生成PPT工具、AI…

电子竞赛6——基于DDS的正弦波发生器

前言 作为电子系统必不可少的信号源,在很大程度上决定了系统的性能, 因而常称之为电子系统的“心脏”。传统的信号源采用振荡器, 只能产生少数几种波形,自动化程度较低,且仪器体积大,灵活性与准确度差。而现在要求信号源能产生波形的种类多、频率高,而且还要体积小、可靠性高、…

推荐一款功能强大的显示器!

最近在写项目开发文档,经常需要几个界面来回切换,真的深刻感受到了一台外接显示器对一名程序员来说有多重要了,画功能流程图的时候嫌弃自己的笔记本屏幕不够大,看代码的时候又在想要是有个旋转屏就好了,来回切换界面的…

【OpenHarmony开发】自定义系统应用之实践

前言 OpenHarmony系统应用是指预装在OpenHarmony操作系统中的应用程序,也称为系统应用。这些应用程序通常由操作系统开发者开发,包括系统设置、电话、短信、浏览器、相机、音乐、视频等常用应用程序。这些应用程序通常具有更高的权限和更深入的系统集成…

看到漂亮的UI设计,就挪不开眼,还有救吗?

在App设计中,瓷片区(Tile Area)是指用于展示信息或功能的独立区域。瓷片区可以被设计成具有不同的形状、大小、颜色和内容。以下是瓷片区的一些作用: 信息展示: 瓷片区可以用于显示重要的信息,如最新消息、…