3D Diffusion模型来了!OpenAI出品,已开源

news2025/1/18 17:12:30

d83daefe4a5353dddf46ad4ae9b363f7.png

文|天于刀刀

2022年不愧是 AIGC 行业元年。

伴随着 ChatGPT 的大火使得谷歌一周之内改口“会认真评估 ChatGPT 对搜索引擎的影响”,OpenAI 在 3D 图像生成领域进一步放出了大招开源项目“Point-E” [1],可玩程度不下于 ChatGPT!

简单来说,用户可以输入一连串文字 prompt 内容,只需要短短 18 秒,模型就会生成一个 3D 点云图![2]

f779e50148a079286a7b0fe1bac42f72.png

这种快速出图极速反馈的特性使得 Point-E 成为了当下运行速度最快和对算力需求最小的生成模型。

想象一下之前 AI 作图也都需要以分钟级别进行等待,现在只需要毫秒级的等待就能获得一个 3D 模型,这不得不说是一次业界进步!

Point-E 详解

在文章中作者详细阐述了 Point-E 模型的工作原理,一共分为两步走:

  1. GLIDE [3] 负责根据文字提示生成平面图像( text-to-image );

  2. CLIP [4] 基于平面图像生成 3D 点云图 ( image-to-3D )。

这样的工程设计极大地减少了对于难以获取的 3D 数据集的依赖,同时也充分地利用了现有的强大的文字转图片模型,增加了系统的可复制性。

值得注意的是,GLIDE 和 CLIP 都是 OpenAI 之前在图像生成领域的明星开源项目,而 Point-E 则相当于是基于工具库的一个微创新,专门针对轻量级生成领域准备的手术刀式的模型。

287d2014ec8db616a728baac0fa19a4f.png

任何成功的深度学习模型都离不开一个优秀的训练集,作为一个 3D 生成模型的训练集,最终的训练集包含 2D 渲染图和 3D 点云图。

  1. 首先,收集几百万个不同质量不同格式的 3D 模型,通过一系列工作流(牵涉到 Blender 的使用)输出尽可能同样大小和光感的 3D 模型,并且每个模型都拥有20个不同角度的 2D 渲染图;

  2. 基于 2D 渲染图进一步生成 3D 点云图;

  3. 通过 CLIP 模型进行聚类分析,将过于平面的和低质量的模型删除后,得到模型训练集。

在得到训练集后,作者选择了 fine-tuning 现有的 GLIDE 模型处理文字转图片任务,以及基于 transformer 和 CLIP 模型处理图片转 3D 任务。

38b6a04a33e99718c557da0d9e401e3f.png

就像所有其他的扩散模型一样,Point-E 模型接受噪声向量并尝试对其进行降噪。输出直接作为输入反馈,直到满意为止。时间步长令牌也被输入以跟踪步数。

特别的,Point-E 的输出向量定义了点位置 (xyz) 和颜色 (rgb) 的 3D 点云。

此外,与其他扩散模型一样,Point-E 首先构建一个低分辨率的点云输出,随后由具有类似架构的升级模型对输出进行升级。

这也就意味着 Point-E 的输出精度可以随着输出点的增加而增加,作者希望最终该模型的输出精度可以达到“3D 打印”级别,从而成为一个真正的生产力工具

922a1ad9cff0fd085145f3538bbd0c53.png

风起 Text-to-3D

之前火到破圈的 AI 作画让无数人看到了 AIGC 的潜力,一个自然而然的进阶想法就是,如果生成 3D 模型会怎样?

于是谷歌在去年推出了 Dream Fields [5],前段时间一位华人建筑学小哥蒙胜宇(Simon Meng)制作的 colab 友好版本的 dreamfields-3D 正是基于这个模型。

紧接着谷歌在今年进一步推出了 DreamFusion [6],同样是致力于解决三维合成大规模标注数据缺失的问题,先基于文本提示生成 2D 图像,在训练优化一个神经辐射场 NeRF 模型。

b3946c726f4f4096cecc8f99f830bb15.png7ba11ecb41dad40a3b5ba0bd81761b0c.png

bbb670d344c556034276ee58ede246f0.png

在这里我们不深究各个模型之间的优劣和技术之间的区别,单独聊一聊我对这一波 AIGC 浪潮的看法。

首先我认为这是一个不可避免,也无需避免的大趋势,正好比19世纪摄影技术的发展逐渐在艺术界引起艺术家们的讨论和反感一样,我们目前所处在的也正是这个科学技术发展而改变旧格局的时代。

当初为什么画家们反对摄影,因为当时画家谋生的一个重要手段就是给人们创作肖像画,而摄影技术的出现就是在砸他们的饭碗。

而现如今,我们回过头查看那段历史,我们可以发现照相机的出现彻底将绘画从为人们塑像的功能中解放了出来,艺术家们不需要考虑画面是否足够真实,相反画家们开始向人类的内心世界进发,从而造就了19世纪末到20世纪初印象画派杰出的艺术成就。

另一方面,随着摄影分离派在20世纪初纽约291艺廊的活动,摄影也逐渐被更广大的社会群体所接纳。至此,摄影与绘画的关系在这半个世纪的时间里从相爱相杀走向稳定的各自精彩,人类迎来了新时代。

b8cf64b08fcf16d4afbe87c0fc7877a7.png

AI 创作也不外乎于此,它们是“工具”。

我在试玩 ChatGPT 和 Point-E 的时候,常常抱着咖啡坐在屏幕前,傻呵呵地看着模型给出一个生成结果,然后再接着想一个新的 prompt 输入,此过程循环往复让我感到极为上瘾并乐此不疲。

这让我想到了小时候放学回家路上捡到了一根异常和手的树枝,一路上左挥右甩爱不释手,拿回家后交给老妈加工一下,这就是我家小木棍的来历。

垃圾满了捅一下,东西掉到床下扫一下,小孩皮了抽一下,大家用了都说好。

作为人类我们本质上就是要创造工具、利用工具。

我还没忘记所谓的“元宇宙”概念,如果我们拥有了批量低成本获得 3D 模型的方法,也许每个人都能构建一个属于自己的“元宇宙”。

OpenAI 和谷歌公司提供的这些模型就好比是一个一个不同用处的工具,伴随着 ChatGPT 的出现,我们可以看到 OpenAI 正在逐渐布局 toC 产业。

说不定在不远的将来,我们能够真正作为用户,去参与这一次新的工具改革的浪潮。

a16de0889f8a21de534373dfd30e4066.png

bb80deddb4506ea5a71baa30a59ee250.png

卖萌屋作者:天于刀刀

注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。

作品推荐

1.腾讯薪酬改革来了!晋升≠加薪?员工到底为何工作?

2.从 Google AI 离职了,这里让我爱不起来

3.百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

4.想通这点,治好 AI 打工人的精神内耗

d0af145970cadc69438c89b2283809d0.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 4b51a866bed3931ca56ee87ca5095ad0.png

[1] Point cloud diffusion for 3D model synthesis, https://github.com/openai/point-e

[2]Point-E demo: text to 3D, https://huggingface.co/spaces/openai/point-e

[3] GLIDE: a diffusion-based text-conditional image synthesis model, https://github.com/openai/glide-text2im

[4]Contrastive Language-Image Pretraining, https://github.com/openai/CLIPngface.co/spaces/openai/point-e

[5]Zero-Shot Text-Guided Object Generation with Dream Fields, http://arxiv.org/abs/2112.01455

[6]DreamFusion: Text-to-3D using 2D Diffusion, https://arxiv.org/abs/2209.14988

[7]AI 会改变游戏美术吗?, https://www.gcores.com/radios/154838

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/130244.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring AOP源码探究

1. 前言 Spring除了IOC和DI,还有另一个杀手锏功能——Spring AOP。AOP是一种面向切面的编程思想,它的关注点是横向的,不同于OOP的纵向。面向对象编程时,如果我们要给多个类引入同一个行为,唯一的方式就是使用继承&…

了解SpringBoot自动配置原理

目录 1、SpringBoot特点 1.1、依赖管理 1.1.1 父项目做依赖管理 1.1.2 开发导入starter场景启动器 1.1.3 无需关注版本号,自动仲裁机制 1.1.4 可以修改默认版本号 1.2、自动配置 2、容器功能 2.1、组件添加 1、Configuration 2、Bean、Component、Contro…

医院室内定位导航,便捷、低成本智慧医院室内地图应用解决方案

医院布局作为公共建筑最复杂的结构之一,有规模大、功能复杂等特点,因而,面向医护人员、患者就诊、医院管理等一系列基础医疗服务就成了当下医院智慧化改善的首要问题。电子地图作为大家最喜闻乐见的高效应用形式,可高效为病患提供…

SpringMVC的学习

SpringMVC 文章目录SpringMVC学习目标SpringMVC简介优点入门案例springmvc入门程序开发流程入门案例工作流程分析SpringMVC对应bean加载与spring对应bean加载web配置类简化开发PostMan插件简介基本使用请求与响应请求映射路径请求参数请求方式请求参数(传递json数据)日期类型参…

小程序和公众号相互跳转

小程序跳转公众号 小程序跳转公众号目前只找到 微信暴露的 引导关注组件 official-account, 官方文档如下: https://developers.weixin.qq.com/miniprogram/dev/component/official-account.html 且这个组件展示是有限制的,只有在扫码进入小程序的情况下…

【数据结构Java版】二叉树堆与优先级队列PriorityQueue

目录 一、优先级队列 (1)优先级队列的概念 (2)优先级队列的模拟实现 二、堆 (1)堆的概念 (2)堆的存储方式 (3)堆的创建 1.堆的向下调整 2.堆的创建 …

Nginx access.log日志详解及统计分析

Nginx access.log日志详解及统计分析一、nginx的access.log二、日志流量统计统计接口地址访问量PV统计UV统计独立IP统计三、配置access.log按天生成四、nginx.conf配置一、nginx的access.log 1.日志文件一般存放在 /var/log/nginx 下,若是docker启动则可以使用主机…

奇舞周刊 477 期:一文弄懂 React ref 原理

记得点击文章末尾的“ 阅读原文 ”查看哟~下面先一起看下本期周刊 摘要 吧~奇舞推荐■ ■ ■一文弄懂 React ref 原理对于 Ref 理解与使用,一些读者可能还停留在用 ref 获取真实 DOM 元素和获取类组件实例层面上 其实 ref 除了这两项常用功能之外,还有很…

简单通过Sentinel监控请求

文章目录一:运行Sentinel服务二:安装Sentinel依赖2.1:Sentinel Pom依赖2.2:Sentinel YML 配置注意:clientIp.localhost不同sentinel版本依赖缩进层级结构可能不一样,可根据idea提示回车三:启动服…

年终给您提个醒:明年的分区表创建好了吗?

2022年某月,某运营商客户突然出现部分业务办理失败,数据无法入库的现象......经过查询,应用进程insert提示:“ORA-14400”错误。由此诊断,故障出现是由于上月部分表分区未提前创建,导致本月前端业务在导入数…

130道基础OJ编程题之: 47 ~ 57 道

130道基础OJ编程题之: 47 ~ 57 道 文章目录130道基础OJ编程题之: 47 ~ 57 道0. 昔日OJ编程题:47. BC50 计算单位阶跃函数48. BC51 三角形判断49. BC52 衡量人体胖瘦程度50. BC53 计算一元二次方程51. BC54 获得月份天数52. BC55 简单计算器53. BC56 线段图案54. BC57 正方形图案…

【生信】初探蛋白质性质和结构分析

实验目的 熟悉蛋白质序列和结构的主要分析内容在实践中逐步理解蛋白质序列和结构的主要分析算法的基本原理 实验内容 综合使用多种在线工具,对蛋白质的一级、二级和三级结构进行分析和预测综合使用多种在线工具,对蛋白质的跨膜结构、翻译后修饰、亚细…

第二十八讲:神州路由器地址转换的配置

实验拓扑图如下所示 设置内网地址段为192.168.0.0,S0/1为外网出口。通过nat访问192.168.2.0网段。 操作步骤: 步骤1:连接网络拓扑结构图。 步骤2:配置计算机的IP地址、子网掩码和网关。 步骤3:设置Router-B的接口IP地址和DCE的…

linux0.11+Bochs环境搭建和使用

Linux 系统的创始人在一篇新闻组投稿上所说的,要理解一个软件系统的真正运行机制,一定 要阅读其源代码(RTFSC – Read The Fucking Source Code)。系统本身是一个完整的整体,具有很多看似 不重要的细节存在&#xff0c…

声明式事物的属性之只读、超时、回滚策略

声明式事物的属性之只读、超时、回滚策略 1. 事务属性:只读 ①介绍 对一个查询操作来说,如果我们把它设置成只读,就能够明确告诉数据库,这个操作不涉及写操作。这样数据库就能够针对查询操作来进行优化。 ②使用方式 Overri…

zabbix报警方式,邮件报警和微信报警。

整理csdn时候发现了一篇2016年整理zabbix报警不知道当时啥情况没有发布出去,凑个数重新发布 最近这些天都在弄Zabbix不再只是简单的监控物理硬件,服务端口,流量图等。让Zabbix的功能发挥到极致。 本篇博客只做笔记介绍zabbix的报警&#xff…

【数据结构与算法】顺序队列与环形队列

文章目录一 顺序队列1 应用场景2 基本概念(1)基本介绍(2)队列的顺序实现(3)队列的入队和出队操作(4)使用数组模拟队列3 代码实现(1)初始化队列(2&…

React Native windows环境搭建

1.首先准备下载必须的依赖:Node、JDK 、Android Studio、夜神模拟器 ①Node可以直接到 官网 下载,版本必须大于14,我这边用的是v16.15.1 ②Jave JDK,我直接在360软件管家安装的,搜的是JDK 11,React Nativ…

【算法】双指针、位运算、离散化、合并区间

文章目录1.双指针2.位运算3.离散化4.区间合并1.双指针 双指针的算法可以优化时间复杂度,双指针,指的是在遍历对象的过程中,不是普通的使用单个指针进行访问,而是使用两个相同方向( 快慢指针 )或者相反方向&#xff08…

SQL调优SQLSERVER 数据页

1. 什么是数据页 一般来说,对大块资源或者数据进行高效管理都会按照一定粒度来划分的,比如说 Windows 对内存的管理就是按照 内存页 (4k) 来进行划分,言外之意就是 SQLSERVER 对 mdf 的管理也是按照 数据页 (8k) 来划分的&#x…