绝!OpenAI 年底上新,单卡 1 分钟生成 3D 点云,text-to 3D 告别高算力消耗时代

news2025/1/12 6:18:50

 

内容一览:继 DALL-E、ChatGPT 之后,OpenAI 再发力,于近日发布 Point·E,可以依据文本提示直接生成 3D 点云。

关键词:OpenAI   3D 点云   Point·E   

OpenAI 年底冲业绩,半个多月前发布的 ChatGPT 广大网友还没玩明白,近日又悄么发布了另一利器--可以依据文本提示,直接生成 3D 点云的 Point·E。

 text-to-3D:用对方法,一个顶俩

3D 建模想必大家都不陌生,近年来,在电影制作、视频游戏、工业设计、VR 及 AR 等领域中,都可以看到 3D 建模的影子。

然而,借助人工智能创建逼真的 3D 图像,仍然是一个耗时耗力的过程,以 Google DreamFusion 为例,给定文本生成 3D 图像通常需要多个 GPU、运行数小时。

给定一个描述,DreamFusion 生成高保真 3D 物体

通常意义上,文本到 3D 合成的方法分为两类:

方法 1:直接在成对的 (text, 3D) 数据或无标签的 3D 数据上训练生成模型。

此类方法虽然可以利用现有的生成模型方法,有效地生成样本,但由于缺乏大规模 3D 数据集,因此很难扩展到复杂的文本提示。

方法 2:利用预先训练好的 text-to-image 模型,优化可区分的 3D 表征。

此类方法通常能够处理复杂多样的文本提示,但每个样本的优化过程都代价高昂。此外,由于缺乏强大的 3D prior,此类方法可能会陷入 local minima(无法与有意义或连贯的 3D 目标一一对应)。

Point·E 结合了 text-to-image 模型以及 image-to-3D 模型,综合以上两种方法的优势,进一步提升了 3D 建模的效率,只需要一个 GPU、一两分钟即可完成文本到 3D 点云的转换。

 原理解析:3 步生成 3D 点云

Point·E 中,text-to-image 模型利用了大型语料库 (text, image pair),使其对复杂的文本提示也能处理得当;image-to-3D 模型则是在一个较小的数据集 (image, 3D pair) 上训练的。

用 Point·E 依据文本提示生成 3D 点云的过程分为三个步骤:

1、依据文本提示,生成一个合成视图 (synthetic view)

2、依据合成视图,生成 coarse point cloud (1024 point)

3、基于低分辨率点云和合成视图,生成 fine point cloud (4096 Point)

Point·E 流程概览

由于数据格式和数据质量对训练结果影响巨大,Point·E 借助 Blender,将所有训练数据都转换为了通用格式。

Blender 支持多种 3D 格式,并配有优化的渲染 engine。Blender 脚本将模型统一为一个 bounding cube,配置一个标准的 lighting 设置,最后使用 Blender 内置的实时渲染 engine 导出 RGBAD 图像。 

"""
Script to run within Blender to render a 3D model as RGBAD images.

Example usage

    blender -b -P blender_script.py -- \
        --input_path ../../examples/example_data/corgi.ply \
        --output_path render_out

Pass `--camera_pose z-circular-elevated` for the rendering used to compute
CLIP R-Precision results.

The output directory will include metadata json files for each rendered view,
as well as a global metadata file for the render. Each image will be saved as
a collection of 16-bit PNG files for each channel (rgbad), as well as a full
grayscale render of the view.
"""

Blender 脚本部分代码

通过运行脚本,将 3D 模型统一渲染为 RGBAD 图像

完整脚本详见:

https://github.com/openai/point-e/blob/main/point_e/evals/scripts/blender_script.py

 过往 text-to-3D AI 横向对比

近两年来,涌现了众多关于 text-to-3D 模型生成的相关探索,Google、NVIDIA 等大厂也纷纷推出了自己的 AI。

我们收集汇总了 3 个 text-to-3D 合成的 AI,供大家横向对比差异。

DreamFields

发布机构:Google

发布时间:2021 年 12 月

项目地址:https://ajayj.com/dreamfields

DreamFields 结合了神经渲染 (neural rendering) 与多模态图像及文本表征,仅依据文本描述,就可以可以在没有 3D 监督的情况下,生成各种各样 3D 物体的形状和颜色。

DreamFields 从 4 个视角分别渲染的示例

DreamFields 生成 3D 物体的过程中,借鉴了在大型文本图像数据集上预训练过的 image-text model,并对源自多视角的 Neural Radiance Field 进行了优化,这使得预训练 CLIP 模型渲染的图像,在目标文本下取得了良好的效果。

DreamFusion

发布机构:Google

发布时间:2022 年 9 月

项目地址:https://dreamfusion3d.github.io/

DreamFusion 可以借助预训练 2D text-to-image diffusion model,实现 text-to-3D synthesis。

DreamFusion 引入了一个基于概率分布蒸馏 (probability density distillation) 的 loss,使 2D diffusion model 能够作为参数图像生成器 (parametric image generator) 优化的 prior。


输入文本提示

a DSLR photo of a peacock on a surfboard

DreamFusion 生成 3D 物体

通过在与 DeepDream 类似的程序中应用该 loss,Dreamfusion 优化了一个随机初始化的 3D 模型(一个 Neural Radiance Field 或者 NeRF),通过梯度下降法使其从随机角度的 2D 渲染达到一个相对较低的 loss。

Dreamfusion 不需要 3D 训练数据,也无需修改 image diffusion model,证明了预训练 image diffusion model 作为 prior 的有效性。

Magic3D

发布机构:NVIDIA

发布时间:2022 年 11 月

项目地址:deepimagination.cc/Magic3D/

Magic3D 是一个 text-to-3D 内容的创建工具,可用于创建高质量的 3D mesh model。利用 image conditioning 技术以及基于文本提示的编辑方法,Magic3D 提供了控制 3D 合成的新方法,为各种创意应用开辟了新的途径。

Magic3D 结构概述

以 coarse-to-fine 的方式

依据输入的文本提示,生成高分辨率的 3D 内容

过程包括两个阶段:

阶段 1:使用低分辨率的 diffusion prior 获得一个 coarse model,并用 hash grid 和 sparse acceleration structure 进行加速。

阶段 2:使用从粗略神经表征 (coarse neural representation) 初始化的 textured mesh model,通过高效的可微分渲染器与高分辨率的 latent diffusion 模型交互进行优化。

 技术进步仍需突破局限

text-to 3D 的 AI 陆续面世,但基于文本生成 3D 合成尚处于早期发展阶段,业内还没有一套公认的 Benchmark,能用来更公正地评估相关任务。

Point·E 对于 fast text-to 3D 合成而言,具有重大意义,它极大提升了处理效率,降低了算力消耗。

但不可否认,Point·E 仍然具有一定的局限性,比如 pipeline 需要合成渲染,生成的 3D 点云分辨率较低,不足以捕捉细粒度的形状或纹理等。

关于 text-to 3D 合成的未来,你怎么看?未来的发展趋势又会怎样?欢迎评论区留言讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/110593.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

政务行业势能厂商 |美创科技入选《嘶吼2022中国网络安全产业势能榜》

近日,网络安全垂直媒体嘶吼网络安全产业研究院正式发布《嘶吼2022中国网络安全产业势能榜》评选结果。凭借在政务数据安全领域的服务深耕以及广泛的市场认可,美创科技入选势能榜“政务篇”,获评政务行业“专精型”安全厂商。 嘶吼安全产业研究…

Apache 之执行 CGI 脚本(Python 实现)

目录前言1 查看并挑选 Python 版本2 用 Python 实现一个简单的 CGI 脚本3 查看 CGI 环境变量总结前言 本文记录了一个搭建 CGI 环境的示例。前文推荐:《Apache 2.4.54 x64 安装及配置》。 【系统环境】 Win10-64bit Apache 2.4.54 x64 Python 3.11.1 1 查看并挑选…

PyInstaller的常用打包命令

学习了pyqt后,设计了界面,并且需要打包为exe程序。 每次打包时,都要查好久资料,故此记录一下常用的命令。 PyInstaller 是一个 Python 应用程序打包工具,它可以将 Python 程序打包为单个独立可执行文件。 要使用 P…

2022星空创造营应用创新大赛圆满落幕,获奖名单出炉!

​12月22日,2022星空创造营应用创新大赛在2022手机创新周暨第十届手机设计大赛颁奖典礼上作为特别专场正式公布获奖名单。2022星空创造营应用创新大赛由联通在线、手机设计大赛天鹅奖组委会联合主办,联通在线音乐公司及工信部赛迪研究院共同承办&#xf…

Vulnhub靶机:HOLYNIX_ V1

目录介绍信息收集主机发现主机信息探测网站探测万能密码文件包含漏洞文件上传提权补充:ip问题介绍 系列:Holynix(此系列共2台) 发布日期:2010年11月27日 难度:中 运行环境:VMware Workstation …

F9P使用说明

1.介绍 ZED-F9P简易使用说明,只是简单使用无需点击具体的链接。 使用硬件:F9P 软件:ucenter 22.07 2.数据类型 ublox接收机接收到的数据 NEMA数据:https://baike.baidu.com/item/NMEA-0183/1810482UBX数据:二进制的GNSS观测值…

12月更新!EasyOps全平台产品能力再升级,新增22+功能亮点解读~

哈喽伙伴们 又到了优维EasyOps全平台产品每月功能上新时间 转眼就到了2022年的最后一个月份 12月有些事情结束了 有些事情才刚刚开始 闲言少叙 咱们来看看12月上线了哪些新功能吧 HyperInsight 超融合监控 「APM」 支持通过日志采集接口数据和指标数据 丰富APM数据接…

哪里能够找到完整的信息安全标准

写在前面 早年刚参加信息安全工作更多的学点皮毛技术,到处找安全工具,跟踪poc,拿到一个就全网扫一遍,从来没有想过,系统化的安全工作应该怎样搞?我做的工作在安全体系中处于哪个阶段? 后来有机会做企业安全建设&…

刷爆力扣之仅含 1 的子串数

刷爆力扣之仅含 1 的子串数 HELLO,各位看官大大好,我是阿呆 🙈🙈🙈 今天阿呆继续记录下力扣刷题过程,收录在专栏算法中 😜😜😜 该专栏按照不同类别标签进行刷题&#x…

Chrome谷歌浏览器清空缓存并强制刷新页面

在项目开发过程中,用浏览器测试时很多时候会被浏览器自带的缓存搞得很头疼,那么下面会介绍几种方法实现Chrome浏览器清空缓存并强制刷新页面 1.通过快捷键方式 Windows和Linux操作系统:CtrlShiftR Mac OS: CmdShftR 这样就可以使用硬性重…

第十六章 强化学习

16.1 任务与奖赏 上图给出了强化学习的一个简单图示。强化学习任务通常用马尔可夫决策过程(MDP)来描述: 机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述,如在种瓜任务上这就是当前…

java中的反射

反射 类加载的过程 当程序主动使用某个类时,如果该类还未被加载到内存中,则JVM会通过加载、连接、初始化3个步骤来对该类进行初始化。如果没有意外,JVM将会连续完成3个步骤,所以有时也把这个3个步骤统称为类加载或类初始化。加载…

MySQL面试常问问题(索引) —— 赶快收藏

目录 1.能简单说一下索引的分类吗? 2.为什么使用索引会加快查询? 3.创建索引有哪些注意点? 4.索引哪些情况下会失效呢? 5.索引不适合哪些场景呢? 6.索引是不是建的越多越好呢? 7.MySQL索引用的什么数…

HackTheBox Soccer 通过WebSockets进行SQL注入,Doas与Dstat插件提权

靶机网址: https://app.hackthebox.com/machines/Precious枚举 使用nmap枚举靶机 nmap -sC -sV 10.10.11.194机子开放了22,80和9091端口,我们本地dns解析这个域名 echo "10.10.11.194 soccer.htb" >> /etc/hosts然后fuzz…

SpringBoot启动时无法加载自定义配置文件(根据环境不同,本地和生产)

问题背景 springboot启动的时候总是报找不到ftp_upload.properties. 估计同学该诧异了,明明就是在项目下的config下,为啥找不到呢?我们都知道springboot的配置文件启动加载顺序是: 第一: ./config/(项目根目录下的…

【文献阅读笔记】利用松弛方法解决非凸问题

文章目录如何判断凸函数常见的凸函数复合函数判断是否凸函数对于约束问题使用泰勒公式进行松弛参考文献如何判断凸函数 当满足下面的公式时候可以判断目标函数为凸函数 f(ξx(1−ξ)y)<ξf(x)(1−ξ)f(y)f(\xi x(1-\xi)y)<\xi f(x)(1-\xi)f(y) f(ξx(1−ξ)y)<ξf(x)…

eclipse整合tomcat+maven

eclipse整合tomcatmaven 前提 本地安装好 tomcat 本地安装好 maven 本地选择一个目录作为 eclipse 工作空间 , 即 workspace 我本地 tomcat 版本是 8.5 , maven 版本是 3.6.1 整合tomcat windows —> preferences --> 搜索 Runtime 选择本地对应的 tomcat 版本 (我…

VXLAN技术是什么,谈何打破与大厂项目的技术壁垒

随着IT环境的不断变化以及新技术的快速发展&#xff0c;新的客户需求下&#xff0c;新的隧道协议也随之被引入进来。从GRE到VXLAN、GENEVE&#xff0c;网络虚拟化技术得到迅猛发展。 尤其是在大数据背景下&#xff0c;海量数据的处理对网络中数据中心的虚拟化、数据迁移等问题提…

BitSail issue 持续更新中,快来挑战,赢取千元礼品!

背景介绍 近期&#xff0c;BitSail 社区发布了 Contributor 激励计划第一期&#xff0c;包含众多 issue&#xff0c;吸引了很多热衷开源的小伙伴的加入&#xff0c;详情可查看&#x1f449;https://mp.weixin.qq.com/s/GkGs-EqTV-szvzndMYrG1g Issue 介绍 为了扩展 BitSail …

全面edge浏览器体验优化

前言 使用Windows系统的朋友们肯定都多少会用到edge浏览器&#xff0c;但是你们都真的了解edge的实用功能吗&#xff0c;本文会介绍edge优秀好用的自带功能以及能极大程度提升使用体验的第三方插件&#xff0c;帮助你打造一个用着更加顺手方便的edge浏览器。 自带功能 1、re…