AIGC生成3D模型探索与实践

news2025/1/8 5:57:08

b4b2ce3e22f97553d7d79a826a2cb4fb.gif

本文将以AIGC生成3D模型探索与实践为主题,结合电商平台的应用需求,探讨如何利用AIGC技术实现3D模型的个性化生成、大规模生产和快速推广,以及其对于电商行业的推动作用。

296fc18b1b3aa0510e343672ca033f2f.png

背景

随着电商平台的兴起,3D模型已经成为展示商品的重要手段,手机天猫正在积极探索3D相关的投放场景,电商商品3D化,可以使得用户在APP中,实时浏览3D商品模型,更直观地了解商品的外观颜色、形状结构、物理材质等信息,为用户带来更好的消费体验,为虚实结合带来更多可能,后续也可以用于AR\VR等内容生产。然而,传统的3D模型生成方法存在着效率低、精度不够高、难以满足个性化需求等问题,导致商家在展示商品时难以达到理想的效果。而AIGC(Artificial Intelligence in Graphics and Computing)技术的出现,为3D模型的生成提供了全新的思路和方法。AIGC技术可以利用人工智能和计算机图形学的结合,实现更加高效、准确和灵活的3D模型生成。

525133ab55f54e549d8cf5bfe9be8753.png

技术模型

  NeRF 神经辐射场

2020年,谷歌提出神经辐射场3D建模方法NeRF,可以渲染出较高质量的图片,不需要人工修模,3D建模成本较低,为大规模3D模型生产带来了新思路。起初淘宝Meta 团队主要致力于 提升 NeRF重建效果(布料细节清晰度、商品文字清晰度等提升),使其渲染清晰度达到工业落地标准。

神经辐射场(NeRF)是一个简单的全连接网络(权重约为5MB),经过训练,可以使用渲染损失再现单个场景的输入视图。网络直接从空间位置和观看方向(5D输入)映射到颜色和不透明度(4D输出),充当“体积”,因此我们可以使用体积渲染来渲染新视图。神经辐射场是一种面向三维隐式空间建模的深度学习模型,这种深度学习模型又称全连接神经网络(又称多层感知机)。NeRF 所要做的任务是 Novel View Synthesis,一般翻译为新视角合成任务,定义是:在已知视角下对场景进行一系列的捕获 (包括拍摄到的图像,以及每张图像对应的内外参),不需要中间三维重建的过程,仅根据位姿内参和图像,合成新视角下的图像。在基于Nerf的表示方法下,三维空间被表示为一组可学习且连续的辐射场,由输入视角+位置学习后,得到密度+色彩。

3504a058a8ac467045d8e9f32705e72d.png

0a139dc554669c3f616d499dbcc66c36.png

  Point-E

尽管基于Rerf的相关生成模型在text-to-3D的相关任务下取得了较大的进展, 但是大部分的的方法通常需要多个GPU小时才能生成一个样本。这与最先进的生成图像模型形成了鲜明的对比,后者可以在几秒钟或几分钟内生成样本。2022年OpenAI又提出 Point-E的一种独特的3D点云生成方法,该方法可以在单个GPU上仅用1-2分钟生成3D模型。Point-E首先使用文本到图像扩散模型生成单个合成视图,然后使用一个扩散模型在生成的图像的条件下产生3D点云。虽然Point-E在样本质量方面仍然不如最先进的方法,但它在样本生成速度上比最先进的方法快1到2个数量级。

8851dd2d91274b4ace31af6b65d7551c.png

824bce4e1c15d293d711a13cd9dba4b3.png

Code地址:https://github.com/openai/point-e

  Shap-E


OpenAI再次发布了一款升级模型Shap-E,相比基于点云的显式生成模型Point-E,Shap-E直接生成隐函数的参数来渲染纹理和神经辐射场,收敛速度更快,在更高维的多表示输出空间中实现了更好的样本质量!Shap-E是一种条件生成模型,用于生成3D资产。与最近的3D生成模型只能生成单个输出表示不同,Shap-E直接生成可以呈现为纹理网格和神经辐射场的隐式函数参数。Shap-E分两个阶段:首先训练一个编码器,将3D资产确定性地映射到隐式函数的参数中;其次,在编码器输出上训练条件扩散模型。Shap-E在大型配对的3D和文本数据集上训练时,得到的模型能够在几秒钟内生成复杂而多样化的3D资产。与点云上的显式生成模型Point-E相比,尽管建模了更高维度的多重表示输出空间,Shap-E收敛更快,并达到了更好的样本质量。

git: https://github.com/openai/shap-e/tree/main

8cf24fa6a998afe1beffc8e1738e6a20.gif8bd39eb112ddeb7a07e60ba88fdc305e.gifdca8ba792bfe0f4d9f263c7020d61f88.gif636d19eeeff0c81188f576de6efad49e.gif
a5f95391893d0da920c9a3cfedb86740.giffd63640f59da6fd6909e7c5c1645946f.gifd7350cf64e156d03aed83f5701c3fdf0.gif2dd91a9bf7468752f408e067c07eb5f0.gif

  DreamFusion

079eb0541b7a75b03579bf031aa4a6e9.png

DreamFusion是谷歌提出的一种Text-to-3D模型,大体思路是通过 2D 生成模型(如 Imagen)生成多个视角的 3D 视图,然后用NeRF 重建。这里面有个“鸡生蛋蛋生鸡”的问题:如果没有一个训练得比较好的 NeRF,Imagen 吐出的图会视角之间没有consistency;而没有 consistent 的多视角图,又得不到一个好的 NeRF。于是作者想了个类似 GAN 的方法,NeRF 和 Imagen 来回迭代。好处是多样性比较强,问题也比较明显,因为需要两边来回迭代 15,000 次,生成一个模型就需要在 4 块 TPUv4 上训练 1.5 小时。

b014e6c1bf8e074ac892072b7ee5b073.png

DreamFusion: 3D NeRF 和 2D 生成模型来回迭代优化

https://github.com/ashawkey/stable-dreamfusion

  Magic3D

2022年11月,英伟达(Nvidia)提出的Magic3D模型在DreamFusion的基础上提出了两步优化策略:首先用与DreamFusion相似的扩散模型生成低分辨率、简单渲染的哈希网格三维模型,之后再采用与传统计算机图形学相似的方法对三维模型进行更高质量的渲染。

与DreamFusion相比,Magic3D模型生成的三维模型分辨率更高,且渲染效果更好,生成效率也有了显著的提升。由于Magic3D模型的渲染方式与传统计算机图形学有非常紧密的关系,且其生成结果可以直接在标准的图像软件中进行查看,因此Magic3D模型可以更好地与传统三维生成工作进行衔接。鉴于各方面优势,Magic3D模型已经具备进行产业应用的能力基础。

在Magic3D模型之后,学界与业界也提出了更多三维生成模型,在生成质量、生成效率、硬件需求、场景应用等方面均进行了更深入的探讨,也有着较为明显的优势与缺陷。



6bfe6135373564da610671c189d03d35.png

49df448333ed849c572cc21892390a37.png

模型实践

本地机器配置如下:

  1. 显卡:英伟达3060 12G

  2. CPU:Intel  I9-13900KF

  3. 内存:64GB

  Shap-E

我们在本地通过cuda部署了Shap-E模型,使用Jupyter Notebook 来进行代码测试,经测试生成一个3d模型的平均时长为5分钟,但是生成的模型细节、质量等都较差。

git: https://github.com/openai/shap-e/tree/main

DEMO

3cb8c3742393528cb7ef2b8ad7fcb829.gifbe216163217f1d8b24792cb6ecbe7f91.gif301ca4e0ee7ff156c458c53b790bcb02.gif306177408a0f76b14c797d41c8f733c4.gif
d251d3060b916c010bff3bb00048579b.gif703c2869e8974c885ecdafdcf265a30a.gife335f26a258aef2f04c5f1962a831223.gif29585a5f16639ae23eeb2d42a2acdfa6.gif

Prompt:A  shark

8f1253f4f122d7bde42561aebf17b345.png

e31060dd7131209ce9e15a28c53b5b89.png

Prompt:“A beautiful girl in a long dress”

d3cd977b43f7c649978e5cc261ea5a57.png

11dde0765b360ecae74e4b6ef5df2c1f.png

  AvatarCLIP

我们基于顶会论文在本地部署了AvatarCLIP,AvatarCLIP是一个基于Zero-shot的文本驱动的三维数字人模型与动作生成器。训练一个精模至少需要10h以上的时间,生成的模型包含基础的人体骨骼,可以通过mixamo平台绑定骨骼获取不错的动画效果,但是近看面部、手部等处细节比较差。项目地址:https://hongfz16.github.io/projects/AvatarCLIP.html



Prompt:a 3d rendering of a XX in unreal engine

生成一个宇航员的前1/5过程:

产出的梅西模型在mixamo平台绑定骨骼后的动画效果:

160053aee9117c92b0c8be0414f6be5f.jpeg

业界的应用场景

  文本生成平面贴图

  1. barium.ai(地址:https://unity.com/cn)

  2. spline.design(地址:https://spline.design/)

  3. Maliang(地址:https://www.bilibili.com/video/BV1A24y1x7vD/)

  根据几何(mesh)在 UV 空间生成贴图(“AI 画贴图”)

  1. Meshy.ai (地址:https://www.meshy.ai/)

  2. Polyhive.ai(地址:https://polyhive.ai/)

  文本直接生成 3D 模型

目前还没有真正公测的产品

a0d9651805df4dc25c1db92d340bee5d.jpeg

aigc生成3D模型目前存在的一些问题

  1. 数据质量问题:由于采集数据的不准确或缺失,可能导致3D模型中存在缺陷、错位或其他问题。

  2. 计算机性能问题:在生成复杂的3D模型时,需要大量的计算和存储资源,计算机性能不足可能导致生成效果差。

  3. 纹理映射问题:生成的3D模型需要进行纹理映射,但是在现实世界中很难找到完美匹配的纹理图像,这可能导致纹理不自然或者出现缝隙等问题。

  4. 模型解释问题:生成的3D模型需要能够被人理解和识别,但是可能存在歧义或者难以解释的地方,导致使用者无法充分利用模型。

9beac7a2976df12de7a56bfcaa6ce234.jpeg

参考资料



  1. https://www.zhihu.com/search?type=content&q=DreamFusion

  2. Taichi NeRF (下): 关于 3D AIGC 的务实探讨(地址:https://zhuanlan.zhihu.com/p/613679756)

  3. Taichi NeRF(上):不写 CUDA 也能开发、部署 Instant NGP

  4. 详解神经渲染算法NeRF及其发展(地址:https://zhuanlan.zhihu.com/p/612102573)

  5. https://github.com/awesome-NeRF/awesome-NeRF

41e0162bbed2b069d4c2370ee2ecc97b.jpeg

团队介绍

我们是大淘宝技术-手猫技术-营销&导购团队,我作为一支专注于手机天猫创新的商业化及导购场景探索的团队,我们团队紧密依托淘天集团强大的互联网背景,致力于为手机天猫带来更高效、更具创新性的技术支持和商业化的导购场景。

我们的团队成员来自不同的技术领域和营销导购领域,拥有丰富的技术经验和营销经验。我们不断探索并实践新的技术,创新商业化的导购场景,并将这些创新技术应用于手机天猫业务中,提高了用户体验和平台运营效率。

作为一支技术创新和商业化的团队,我们致力于为手机天猫带来更广阔的商业化空间和更高效的技术支持,赢得了用户和客户的高度评价和认可。

我们团队一直秉承“技术领先、用户至上”的理念,不断探索创新、提升技术水平,为手机天猫的导购场景和商业化发展做出重要贡献。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/953726.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM垃圾回收算法和CMS垃圾收集器

目录 判断一个对象是否死亡? 1、引用计数法 2、可达性分析算法 三色标记 垃圾收集算法 1、分代收集理论 2、垃圾回收算法 标记-清除 标记-复制 标记-整理 CMS(Concurrent Mark Sweep)收集器 CMS垃圾收集器步骤 CMS垃圾收集器优…

C语言每日一练----Day(13)

本专栏为c语言练习专栏,适合刚刚学完c语言的初学者。本专栏每天会不定时更新,通过每天练习,进一步对c语言的重难点知识进行更深入的学习。 今日练习题关键字:数字颠倒 单词倒排 💓博主csdn个人主页:小小uni…

git 代码提交有错误,要回退到指定的分支

第一步,找到要回退到的版本号 第二步,切换到要回退的分支,执行 git reset --hard xxx第三步,提交 git push -f

STM32--RTC实时时钟

文章目录 Unix时间戳时间戳转换BKPRTC简介RTC框图硬件电路RTC的注意事项RTC时钟实验工程 Unix时间戳 Unix 时间戳是从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不考虑闰秒。 时间戳存储在一个秒计数器中,秒计数器为32位/64…

【大数据毕设】基于Hadoop的招聘网站可视化的设计与实现(一)

博主介绍:✌全网粉丝6W,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌ 🍅文末获取项目联系🍅 基于Hadoop的招聘网站可视化的设计与实现 摘要&#…

gitHooks使用教程

1. 安装所需依赖 npm install eslint prettier husky lint-staged --save-dev 2.初始化 husky npx husky-init && npm install 这将创建一个 .husky/ 目录,并且在其中包含一个示例的 pre-commit 文件。 3.设置 pre-commit 钩子 npx husky add .husky/…

正规黄金代理的三大要素

对于现货黄金投资来说,寻找一个正规的黄金代理是十分重要的问题。在目前的现货黄金投资市场中,现货黄金代理的数量很多,他们都致力于耕耘现货黄金投资市场。当越来越多的专业人士加入到现货黄金投资的市场中当中时,这个市场将会越…

【AI辅助办公】PDF转PPT,移除水印

PDF转PPT 将PDF上传链接即可转换成PPT。​​​​​​ ​​​​​​​ https://www.camscanner.com/pdftoppthttps://www.camscanner.com/pdftoppt​​​​​​​​​​​​​​移除水印 第一步:打开视图-宏 第二步:输入宏名(可以是人以文字…

天津python培训机构大揭秘!Python与人工智能

Python是一门开源的编程语言,它已经成为了企业界和科技领域大多数选择的语言之一。许多人已经通过编写Python应用程序赚取了不错的收入,这些成功者之所以能够成功,一部分原因是因为他们善于创新,能够始终跟上技术和市场&#xff0…

基于单片机的超声波语音测距系统

一、系统方案 超声波具有指向性强,能量消耗缓慢,在介质中传播的距离较远,因而超声波经常用于距离的测量,如测距仪和物位测量仪等都可以通过超声波来实现。利用超声波检测往往比较迅速、方便、计算简单、易于做到实时控制&#xff…

Joom、Etsy、Daraz、Newegg专业运营模式解析,助你更上一层楼

首先我们来先了解一下这些平台的结构和运营模式。 Joom是一家总部位于爱沙尼亚的跨境电商平台,专注于为全球消费者提供具有竞争力价格和高品质商品的便利购物体验。Joom通过直采模式与全球品牌和供应商直接合作,确保商品的优质和价格的合理。此外&#x…

java使用多线程不分页查询100万条数据

如果用普通查询需要5分多分钟才查询完毕,所以我们用索引加多线程来实现。 那我们就开始吧!GO!!GO!! 数据库设计 编写数据库字段 然后要生成100万条数据 在数据库添加索引 代码实现 java编写 controll…

STM32CubeMX 软件删除用户代码的问题解决

总结stm32cubeMx 会删除用户代码的问题。 自己的代码不会被删除的软件格式及配置方法。当然还需要注意一点:软件生成的工程不能有中文字符,要不然生成错误。 1、stm32cubeMx 的配置如下: 2、就是按照格式把自己的代码写到应该写的位置。如下图…

【Python】Python Flask token身份认证(附完整代码)

前言 Python Flask是一个使用Python编写的轻量级Web应用框架,它可以非常方便地搭建Web应用。在Web应用中,经常需要进行身份认证,以确保只有授权用户才能访问某些资源。本文将介绍如何使用token进行身份认证,以及如何在Python Fla…

IIS搭建本地电脑服务器:通过内网穿透技术实现公网访问的步骤指南

1.前言 在网上各种教程和介绍中,搭建网页都会借助各种软件的帮助,比如网页运行的Apache和Nginx、数据库软件MySQL和MSSQL之类,为方便用户使用,还出现了XAMPP、PHPStudy、宝塔面板等等一系列集成服务,都是为了方便我们…

20W到80W SIP音柱

SIP-7042 20W到80WSIP音柱 一、描述 SIP-7042是一款壁挂式SIP有源音柱,具有10/100M以太网接口,可将SIP音源通过自带的功放和喇叭输出播放,其采用铝合金防水设计,功率可以从20W到80W。SIP-7042作为SIP广播播放系统的终端&#xff…

一招搞定Nuxt3中配置全局样式和全局变量

// nuxt.config.ts // https://nuxt.com/docs/api/configuration/nuxt-config export default defineNuxtConfig({devtools: { enabled: true },css: [/assets/style/global.less], // 全局样式vite: {css: {preprocessorOptions: {less: {additionalData: import "/asse…

记录一次ORA-00600 [kdsgrp1]导致的large tracefile的处理过程

文章目录 1.问题描叙2 查因过程2.1 查看磁盘空间状况2.2 检查表空间增长情况2.3 检查$ORACLE_BASE相关文件2.4查看trace file内容 3.处理过程3.1数据文件检查3.2 表及索引段检查 4.结论: 1.问题描叙 收到check_mk告警,约在15:17左右硬盘空间消耗暴增 …

在Ubuntu Linux系统上安装RabbitMQ服务并解决公网远程访问问题

文章目录 前言1.安装erlang 语言2.安装rabbitMQ3. 内网穿透3.1 安装cpolar内网穿透(支持一键自动安装脚本)3.2 创建HTTP隧道 4. 公网远程连接5.固定公网TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 RabbitMQ是一个在 AMQP(高级消息队列协议)基…

数据资产入表 先行者数据宝在做什么?

2023年8月21日,财政部印发了《企业数据资源相关会计处理暂行规定》,规定数据将作为资产进入企业资产负债表,具体是将数据确认为企业资产负债表中“资产”一项,在财务报表中体现其真实价值与业务贡献。入表意味着数据完成了从自然资…