3D模型的生成式AI

news2025/1/20 13:29:16

生成式 AI 席卷了 2022 年,我们最近决定 Physna 不应错过这个热点。 因此,尽管生成 AI 并不是我们的商业模式—Physna 是一家 3D 搜索和分析公司,专注于 AR/VR 和制造中的工程和设计应用—我们还是决定为 3D 模型和场景生成 AI 构建一个非常基本的原型,由三名工程师进行为期两周的冲刺。 为什么?

1、生成式AI与3D

随着 Metaverse、增强现实、虚拟现实和混合现实变得更加主流,3D 内容消费将急剧增加。 这增加了对 3D 内容的需求,并为 3D 创作者提供了千载难逢的机会。 生成式AI——如果使用得当和公平——有可能大大提高创作者的生产力。 我们相信,通过克服 3D 数据固有的复杂性问题,我们可以释放 3D 的最大优势:它的数据非常丰富。 这可能意味着可以使用相当少量的 3D 模型来创建或影响全新生成的模型。 换句话说:创作者自己过去的作品可以用于新作品的开发。 这将使 3D 模型和场景不仅对用户更有价值,而且可以克服与使用第三方数据相关的风险。

尽管有机会和巨大的潜力,生成 AI 比其他地方需要更长的时间才能达到 3D:

红杉资本对生成式 AI 应用程序的概览展示了一系列公司生成从创意文本到视频、代码和图像的一切内容。 但作为一家专注于 3D 的科技公司,Physna 引起我们注意的是那个空的粉红色盒子:用于 3D 模型和场景的生成 AI 是唯一留空的盒子。

在这里插入图片描述

那么,是什么让生成式 AI 在 3D 中如此困难,而它在其他地方发展得如此之快?

2、3D模型生成式AI的挑战

问题 1:3D 模型……很复杂

一个问题是 3D 本身的复杂性所固有的:模型传统上很难创建,存在各种不兼容的格式中,令人惊讶的是,与 2D(文本、图像、视频、 ETC。)相比,越来越少的公司有能力专注于 3D,因为它在分析层面通常更难突破——更不用说生成 AI 了。

问题 2:缺乏标记的 3D 数据

谷歌的 DreamFusion 团队在他们 9 月份的文章中或许对另一个问题做了最好的总结:3D 数据不如 2D 数据多。 就像 Nvidia 最近宣布的 Magic3D 一样,Google 的 DreamFusion 团队使用了 NeRFs(神经辐射场),最好将其视为介于 2D 和 3D 之间的东西……考虑到这篇博文的“2.5D”。 它们也是空的“壳”,因为它们没有任何内部组件和几何形状。 这意味着拟不仅掌握的关于手头物体的信息更少,而且也更难得出关于是什么造就了它的结论。 因此,尽管在 NeRFs 上进行训练可能比使用 2D 更有益,但正如谷歌的 DreamFusion 团队指出的那样:NeRFs 根本不是真正的、带标签的 3D 模型的很好替代品。 这意味着,如果没有解决方案,在可预见的未来,生成式 AI 将无法在 3D 领域和其他领域发挥作用。

3、如何克服困难

我们意识到可以通过一种非常简单的方式克服 3D 数据稀缺的问题:Physna 拥有世界上最大的标记 3D 数据库,以及使用它的适当许可。 但考虑到生成式 AI 的计算成本,利用它来运行原型将是一种昂贵的方式。 相反,我们意识到更有价值的是简单地确定是否可以用比以前想象的少得多的 3D 数据在生成式 AI 中完成更多工作。

我们的假设很简单:对手头 3D 模型的更深入理解意味着需要更少的模型来实现可扩展且有意义的 3D 生成 AI。 毕竟,虽然 3D 的缺点是数据的复杂性,但优点是与 2D 图像等其他资产相比,这些 3D 模型的数据有多丰富。

这是一个我们认为非常适合解决的问题。 我们的整个业务都建立在我们的核心技术之上,该技术“编码”了 3D 模型——也就是说,它创建了一个数字“DNA”,以标准化的方式代表模型的几何形状、特征和属性。 这样做使我们能够确定所有模型如何相互关联——包括在子模型级别。 这个关系矩阵允许我们使用人工生成的标签以指数方式传播更多的标签(在两到三个数量级之间)。 而且这个标签系统不仅具有可扩展性,而且相当可靠,因为我们在创建过程中使用了两个步骤:

第 1 步:我们使用一组获得专利的确定性算法来创建模型“DNA”的第一层。 这会绘制出模型的每个属性、其确切的几何形状和特征,并对模型进行标准化。 这一步对于确保在精度是关键时不会错误识别看起来模糊的事物至关重要,并且它显示了每个特征或部分应该如何组合在一起。

第 2 步:然后,我们使用一组由深度学习增强的专有非确定性算法,这对于启用模型生成同样重要。 此步骤还确保在概念层面理解不同大小和形状的模型(即没有“匹配”的几何或属性)。

这两层的结合使我们能够深入了解每个模型、它与其他模型的关系、构成模型的特征/组件以及它们存在的其他位置。 这意味着对于训练中使用的每个 3D 模型或场景,我们可以学到更多——并使 3D 模型和场景生成更有效——所有这些都需要更少的数据。

3、3D模型生成式AI测试

在我们生成芝士汉堡和纸杯蛋糕(我们喜欢食物)的 3D 模型的简短“阶段 1”之后,我们进入阶段 2 中更具挑战性的原型:场景生成。 毕竟,一旦可以同时生成模型和整个场景,你距离添加运动并创建你选择的整个“Metaverse”或混合现实世界的能力仅一步之遥(也许非常小)。

我们将我们的项目限制在 Amazon-Berkeley 库中的大约 8,000 个模型。 以任何标准来看,这都没有什么可训练的(二维稳定扩散最初训练了大约 6 亿张图像以进行比较)。 我们相信,通过首先分析上述模型,这个小数据集很有可能足以创建一个非常简单的原型。

我们提到的简单,确实意味着简单。 正如你在下面的视频中注意到的那样,这个原型仅限于家具。 展示的一些例子可能有点傻——比如在外太空沙发周围布置的花瓶——但重点是从中获得乐趣,看看有什么——如果有的话——可以由三名工程师在短短两周内完成,同时接受培训 8,000 个模型。
在这里插入图片描述

4、结束语

结果肯定比我们希望的要多。 从这些测试中得出的一个意外收获是,使用上述方法,3D 生成式 AI 中最困难的部分不是生成模型或场景本身,而是在较短的开发时间框架内克服相对简单的错误(如模型碰撞)。 虽然只使用如此小的数据集的决定肯定会限制原型的范围,但结果证明,3D 中的生成式 AI——无论是在对象还是场景级别——都可以利用 3D 模型中存在的庞大数据量。

这对最终用户来说是一个特别有希望的消息:即使是相对较小的数据集也足以极大地影响生成的模型。 这意味着个人和企业可以使用他们自己的模型来生成为他们量身定制的新 3D 资产。 3D 生成 AI 不仅可以作为设计师和创作者的力量倍增器,还可以让你牢记自己的风格和用例。

志愿参与这项工作的三位工程师正在休几天假来恢复体力,由于他们的努力和测试的积极结果,我们正在 Physna 积极扩大对 AI 的关注。

这篇文章的目的有两个:分享我们的发现和它们所带来的机会,并向任何可能有兴趣加入该团队的人工智能研究人员敞开大门。


原文链接:3D模型生成式AI — BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/116487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Node.js——初识Node.js与内置模块(一)

1.初识 Node.js 1.1 浏览器中的 JavaScript运行环境 1.浏览器中的 JavaScript 的组成部分 2.为什么 JavaScript 可以在浏览器中被执行 3.为什么 JavaScript 可以操作 DOM 和 BOM 4.浏览器中的 JavaScript 运行环境 Javascript可以借助node,js进行后端开发 1.2 Node.js 简介 …

virtio前端驱动通知机制分析

virtio前端驱动通知机制分析 virtio 前后端主要通过PCI配置空间的寄存器来完成通信,I/O 请求的数据地址存放于 vring 中,并通过共享vring这个区域来实现 I/O 请求数据的共享。 由上图可知,虚拟机与主机之间交互用到了两个结构体:p…

智能网联汽车行业发展

智能网 联汽车信息安全发展趋势 智能网联汽车行业发展 根据工信部发布的《国家车联网产业标准体系建设 指南(智能网联汽车)》的定义,智能网联汽车是指搭载先进的车载传感器 、控制器、执行器等装置,并融合现代通信与网络技术&a…

明道云联合思迈特打造会员管理应用可视化联合解决方案

背景介绍 明道云在协助企业数字化转型过程中,发现客户对利用业务数据形成企业级报表和数据可视化大屏的需求十分强烈。为了满足这种需求,企业通常需要成立专门的数据分析团队,但这需要巨大的人力和财力投入,时间周期也较长。为了…

信息数智化招采系统源码——信息数智化招采系统

信息数智化招采系统 服务框架:Spring Cloud、Spring Boot2、Mybatis、OAuth2、Security 前端架构:VUE、Uniapp、Layui、Bootstrap、H5、CSS3 涉及技术:Eureka、Config、Zuul、OAuth2、Security、OSS、Turbine、Zipkin、Feign、Monitor、Stre…

React 学习笔记总结(五)

文章目录1. React 嵌套路由(多级路由)2. params参数 与 query参数3. React路由组件 传递params参数数据4. React路由组件 传递search参数5. React路由组件 传递search参数6. React路由组件 特殊情况: 刷新页面7. React路由 的 push 和 replace8. React的 编程式路由9. React路由…

Transformer架构:位置编码

2017年,Google等人提出了Vaswani提出了一种新颖的纯注意力序列到序列架构,闻名学术界与工业界的Transformer架构横空出世,它的可并行化训练能力和优越的性能称为自然语言处理领域和计算机视觉领域研究人员的热门选择,本文将重点讨…

elasticsearch--Master选举

最近一直在学习elasticsear相关的东西,在这学习的过程中记录一下比较重要的学习内容。方便以后看的时候加深印象。 假如宕机的节点是Master节点 下面是Maste节点选举 的流程图 在findMaster的方法中每隔一段时间就会ping所有的节点,看看有没有哪个节…

java设计模式三

文章目录4) 创建IOC容器相关的类5) 自定义IOC容器测试6) 案例中使用到的设计模式7.2 剖析MyBatis框架中用到的经典设计模式7.2.1 MyBatis回顾7.2.1.1 MyBatis与ORM框架7.2.1.1 MyBatis的基础使用7.2.2 MyBatis中使用到的设计模式7.2.2.1 Builder模式7.2.2.2 工厂模式7.2.2.3 单…

基于Java开发(PC)小说自检测系统【100010061】

Java 语言与系统设计课程(小说自检测系统) 一、目的与要求 ​ 自行下载最喜爱的小说 1 部。存到服务器中,格式自定。一般存储为文本文档。要求长篇小说,20 万字以上。举例说明:下载《三国演义》保存在服务器端。 ​…

Secure Boot功能简析

在数据中心中,云服务器由各种处理设备和外围组件(如加速器和存储设备)组成,这些设备通常都运行着固件。对云平台服务商来说,为保证这些设备的安全可靠,需要一种或多种机制,来保证这些设备在测试…

XYplorer使用教程

XYplorer使用教程 XYplorer是Windows的文件管理器。它具有标签式浏览,强大的文件搜索功能,多功能预览,高度可定制的界面,可选的双窗格以及一系列独特的方法,可以有效地自动执行频繁重复的任务。它快速,轻便…

【DCDC转换器】BUCK电路的演进

本文将是对BUCK型DCDC转换器的起步介绍,从BUCK电路模型的建立出发,可以对转换器原理有更清晰的认识。其次对三种不同类型开关电源转换器的原理进行计算,转换器的原理基本是类似的,相同的分析方法可以套用在其他模型上。最后引入了…

PHP基本语法(1)

前言:PHP是什么呢?PHP是一种后端开发用的语言,简单点说制作的网页分为静态和动态,静态网页用户体验性差,动态网页用户可以进行交互,而这种交互就需要PHP了。所以PHP他就是一门用于后端开发的语言。 注意&a…

操作系统实验1:操作系统的引导

操作系统实验1:操作系统的引导 现在是2022年12月22日,本人一如既往又是ddl战神😅 (虽然一周前刚立过flag) 两个月前就布置了的内容硬是拖到现在,这波实在是看不下去自己了😅😅😅 拖到了ddl的最后一天&…

String、StringBuffer、StringBuilder的区别

文章目录一、StringBuffer1、介绍2、StringBuffer中方法二、StringBuilder1.介绍2.常用方法总结一、StringBuffer 1、介绍 是可以存储和操作字符串,即包含多个字符的字符串数据。对于StringBuffer而言,本身是一个具体的操作类,所以不能像St…

推送MOBPUSH-API说明

消息监听接口 MobPushReceiver: 消息监听接口(包含接收自定义消息、通知消息、通知栏点击事件、别名和标签变更操作等) MobPush.addPushReceiver(MobPushReceiver receiver): 设置消息监听 MobPush.removePushReceiver(MobPushReceiver receiver): 移除…

2022年全国最新消防设施操作员模拟试题题库及答案

百分百题库提供消防设施操作员考试试题、消防设施操作员考试预测题、消防设施操作员考试真题、消防设施操作员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 38.下列说法正确的是()。 A.低压供配电系统中&…

vue的基本概念与vue2的指令

目录 一、 Vue的基本概念 1、前端技术的发展(html、CSS、JavaScript) ​ 2、MVVM架构: 数据的双向绑定: 二、Vue开发的方式 1、基本方式:在页面中引入vue.js文件。(vscode) 2、组件…

智能网 联汽车信息安全发展趋势

智能网 联汽车信息安全发展趋势 智能网联汽车行业发展 根据工信部发布的《国家车联网产业标准体系建设 指南(智能网联汽车)》的定义,智能网联汽车是指搭载先进的车载传感器 、控制器、执行器等装置,并融合现代通信与网络技术&a…