AIGC产业研究报告2023——三维生成篇

news2024/11/22 11:19:40

定义

人工智能三维生成是指利用深度神经网络学习并生成物体或场景的三维模型,并在三维模型的基础上将色彩与光影赋予物体或场景使生成结果更加逼真。在应用中,生成物体或场景的三维模型称为三维建模,生成三维模型的色彩与光影称为三维渲染。

主要类型

三维生成中学习与生成的三维数据可分为显性表达数据与隐性表达数据两类,显性表达数据主要包括体素栅格、点云与网格;隐性表达数据是以神经网络参数表达的三维场景,即神经场。根据学习与生成的三维数据类型,人工智能三维生成可以分为显性数据驱动型与隐性数据驱动型。

在利用人工智能技术前,传统的三维生成工作中全部使用显性表达的三维数据,因此早期人工智能三维生成的研究同样聚焦于学习并生成显性表达的三维数据,这类人工智能三维生成可以称为原生三维型。

人工智能直接学习与生成三维数据存在诸多问题,其中的重点问题之一是可学习的三维数据量小且不满足多样性要求。为解决这一问题,许多人工智能三维生成的研究聚焦于从二维图像中学习并生成三维数据,这类人工智能三维生成可以称为二维升维型。

技术发展的关键阶段

2018年前受限于技术发展,仅有原生三维型人工智能三维生成应用,使用的模型有VAE模型、流模型、GAN模型、EBM模型、扩散模型等,其中GAN模型在生成效果方面的优势使其在2022年前一直是人工智能三维生成的主流模型,但由于训练难度极大,对硬件要求极高等问题,产业级应用发展十分受限。

由于二维图像生成技术的快速进步与应用的蓬勃发展,因此二维升维型是目前人工智能三维生成研究与应用的关注重点。

●    2018年-2020年:二维升维萌芽期

2018年,将三维内容表达为神经网络参数的神经场诞生。虽然神经场表达的仍然是三维数据,且由于缺乏学习数据在2018年至2020间其发展速度十分缓慢,但为二维升维派奠定了技术基础。

●    2020年-2022年:二维升维技术发展期

2020年,伯克利、谷歌与加大圣地亚哥分校的联合团队提出神经辐射场(NeRF)算法。神经辐射场算法可以从静态二维图像中感知其三维属性,生成内容统一但视角不同的二维图像,即具备三维感知的图像。由于生成的图像精度高且可以生成大场景的三维感知图像,因此受到广泛关注且出现大量相关研究,加速二维升维技术发展。在应用方面,由于训练难度大、对硬件要求高、生成效率低等问题,仅能进行试验性与娱乐性的小范围应用。在产业应用方面,虽然出现将显性表达与隐性表达相结合的相关研究,但除以上问题外,在与传统三维生成工作的衔接和满足产业应用要求方面仍然存在诸多问题,因此产业应用发展缓慢。

●    2022年-至今:二维升维应用探索期

2022年中,以Stable Diffusion、Dall·E为代表的二维图像生成应用快速发展,生成的二维图像质量与想象力迅速提升。得益于此,二维升维型三维生成应用的商业化价值进一步提升,产业界对其关注度因此迅速提升,技术发展再次提速。目前,二维升维型三维生成的训练难度、对硬件要求、生成效率等仍然是其应用商业化的巨大阻碍,但产业界公司加强了其与传统三维生成工作的衔接性,并尝试开发产业级应用,二维升维型三维生成应用的商业化仍然有待探索。

主流模型实现原理及优缺点

●    Dream Fields模型

2021年末,Dream Fields模型首次将CLIP¹模型与NeRF模型相关联,利用CLIP从文本到二维图像的生成能力,结合NeRF从二维图像学习三维结构与纹理渲染的能力,实现从自然语言到三维的生成。

Dream Fields模型证明了CLIP模型可以与NeRF模型结合应用,并突破了以往三维生成模型在想象力方面的限制。但Dream Fields模型生成的三维内容的结构仍然较为简单,因此不能生成大规模的三维场景,且其三维渲染效果较差。此外,Dream Fields模型的生成效率很低,与传统三维生成工作的衔接性也较差,因此并不具备商业化价值。

注:1.请参考《AIGC产业研究报告2023——图像生成篇》

●    CLIP-NeRF模型

与Dream Fields同一时期提出的CLIP-NeRF模型同样将CLIP模型与NeRF模型进行关联,与Dream Fields模型不同的是,CLIP-NeRF模型更加注重以自然语言或二维示意图对生成的三维模型与三维渲染效果进行调整。但在生成效果与商业化价值方面,CLIP-NeRF模型与Dream Field模型存在同样的问题。

虽然存在种种缺陷,Dream Fields模型与CLIP-NeRF模型展示了人工智能三维生成的应用潜力,验证了以自然语言进行三维生成的技术可行性,且探索了以自然语言改进生成结果的可能性。

●    DreamFusion模型

2022年9月,Google提出的DreamFusion模型以Dream Fields模型为基础,用扩散模型得出概率密度蒸馏损失函数以替代CLIP模型,提升了从自然语言到三维内容的内容统一性,且证明可从单张二维图像生成三维模型具备可行性。

虽然DreamFusion提升了三维模型的结构准确性与渲染的真实性,提升生成效率的同时降低了对硬件的要求,但其生成的三维内容在规模、渲染与结构细节方面仍然不满足产业级应用的要求,且Dream Fusion模型在原理上即与传统三维生成工作的衔接性差,因此仍然难以进行商业化。

●    Magic3D模型

2022年11月,英伟达(Nvidia)提出的Magic3D模型在DreamFusion的基础上提出了两步优化策略:首先用与DreamFusion相似的扩散模型生成低分辨率、简单渲染的哈希网格三维模型,之后再采用与传统计算机图形学相似的方法对三维模型进行更高质量的渲染。

与DreamFusion相比,Magic3D模型生成的三维模型分辨率更高,且渲染效果更好,生成效率也有了显著的提升。由于Magic3D模型的渲染方式与传统计算机图形学有非常紧密的关系,且其生成结果可以直接在标准的图像软件中进行查看,因此Magic3D模型可以更好地与传统三维生成工作进行衔接。鉴于各方面优势,Magic3D模型已经具备进行产业应用的能力基础。

在Magic3D模型之后,学界与业界也提出了更多三维生成模型,在生成质量、生成效率、硬件需求、场景应用等方面均进行了更深入的探讨,也有着较为明显的优势与缺陷。

影响模型应用能力的关键因素

●    生成质量

三维生成的内容质量包括三维模型的精细度、模型的准确性、三维渲染的分辨率、渲染的色彩与光影的准确性、渲染对材质的表达等多个方面,在应用中对三维内容的质量有较高的要求。相比于传统三维生成,目前人工智能三维生成的生成质量仍然存在一定差距。

●    生成效率

与生成二维图像不同,三维生成由于维度的增加,生成过程中所需计算量呈指数级上升。由于庞大的计算量,目前人工智能三维生成的效率较低,多数模型的生成效率难以满足实际应用中的要求。且模型在训练与推理过程中需要占用大量存储空间,因此目前多数人工智能三维生成成本较高。

●    可控性

对三维内容的可控性主要包括是否可以生成符合要求的三维内容、是否可以根据要求对生成的三维模型与三维渲染效果进行修改。目前人工智能三维生成模型在三维内容方面可以满足应用的基本要求,但是在修改方面的表现仍然差强人意。满足应用中修改功能要求的方法有两种,一种是继续加强模型对自然语言指令与图像指令的理解能力,这种方法主要需要技术上的持续突破。但由于技术突破的不确定性,使模型可以与传统三维生成工作进行衔接的方法则更有可行性,这要求模型可以将三维建模工作与三维渲染工作分离,且生成的三维模型必须为网格数据。

典型产业应用场景

●    游戏开发

游戏开发者可以使用三维生成技术快速地创建逼真的三维场景和虚拟角色,提高游戏的真实感和沉浸感。

●    建筑设计

建筑设计师可以使用三维生成技术更快速地创建建筑模型和可视化效果图,提高设计的效率和准确性。

●    电影和动画制作

制片人可以使用三维生成技术创建逼真的三维场景和角色,并实现复杂的视觉效果,提高电影和动画的质量和观赏性。

●    虚拟现实

虚拟现实应用开发者可以使用三维生成技术创建逼真的虚拟世界和角色,提高虚拟现实的真实感和沉浸感。

●    工业制造

制造商可以使用三维生成技术更快速地创建零部件和模具,提高生产的效率和准确性,降低制造成本。

●    医疗保健

医生和研究人员可以使用三维生成技术创建逼真的人体器官模型和医疗设备,用于医疗教育、手术模拟和疾病诊断等领域。

●    艺术设计

艺术家和设计师可以使用三维生成技术创建数字艺术品、数字雕塑和其他创意作品,提高创作的效率和表现力。

●    教育培训

三维生成技术在教育培训中应用广泛。教师和学生可以使用三维生成技术更好地理解和学习复杂的科学和技术知识,提高教学效果和学习效率。

市场主流应用

传统三维生成工作流程可以大致分为生成三维模型与渲染三维模型两部分,出于产业应用对可控性的要求会将这两部分分开,因此目前市场上人工智能三维生成应用可以分为可以完成这两部分工作的应用,与仅能完成三维渲染工作的应用。

●    海外市场情况

目前海外市场的三维生成工具部分来自英伟达、Meta等科技巨头,部分来自OpenAI、Luma、Kaedim、Meshy等创业公司。

英伟达作为计算机图形学领域的老牌科技公司,在三维生成领域有着优秀的产品生态与合作伙伴生态。英伟达开发的Magic3D模型既可以完成三维建模工作也可以完成三维渲染工作,且英伟达宣布其生成式AI云服务平台Picasso将上线Magic3D模型。英伟达与素材供应商Shutterstock的合作保证其三维生成在版权方面的合法性,并将与Adobe合作探索人工智能三维生成的应用场景。

Meta开源的MCC模型实现了从单张具有深度感知的二维图像即可进行三维重建,但MCC模型仅能生成简单的三维模型,且生成过程具有较高的失败率,生成效果也较差。

OpenAI开源的Point·E模型支持从自然语言到三维生成,生成速度极快,且应用中对硬件要求较低,但生成质量较差,且由于生成的三维数据采用点云表达,难以满足与传统三维生成工作流的专业应用的需求。而之后开源的Shap-E模型在生成速度与效果方面较Point·E有了较大提升,且采用网格与NeRF的双重表达,但生成质量距离专业应用要求仍有较大差距。

Luma作为专注于三维生成的人工智能创业公司,目前已经上线移动端Luma AI应用,可以仅使用移动端摄影设备实现真实的三维物体重建,同时开放从视频到三维生成功能的API接口以支持开发者将此功能接入工作流。

Meshy作为专注于三维生成的人工智能创业团队,目标是帮助游戏开发者与三维内容艺术家更快地进行创作。目前可在Discord社区内应用Meshy的三维模型渲染功能,其功能包括以自然语言生成三维渲染模型和从二维概念图生成三维渲染模型。Meshy也宣布日后将发布其人工智能三维建模工具。

●    中国市场情况

目前中国市场的三维生成工具既来自阿里云、华为云、商汤、旷视等老牌科技厂商,也来自太极图形、上海交通大学等创业团队与研究机构。

阿里云、华为云、商汤等老牌科技厂商的三维生成应用均基于行业应用场景与行业解决方案展开。如阿里云的全息空间产品侧重于对现实空间的三维还原,目前主要行业应用场景为利用建筑信息模型(BIM)还原建筑三维空间信息与在线上还原线下店铺。商汤则利用其空间三维生成产品SenseMARS为房地产营销打造线上三维看房解决方案,而其琼宇SenseSpace与格物SenseThings则是面向场景与物体两个尺度的人工智能三维生成工具。旷视开源的OccDepth模型可以通过二维视觉输入中的语义对场景的三维结构进行补全,且对硬件需求小,模型针对的应用场景为自动驾驶中的道路检测。

而中国市场的创业团队与研究机构则更加倾向于从技术底层促进三维生成应用的发展。太极图形作为一家创业型图形软件公司,其开发的Taichi并行编程语言正在支持更多三维生成模型,为三维生成应用于移动端做出贡献。来自上海交通大学、香港城市大学与微软研究院的团队提出的Make-IT-3D模型大幅提升了人工智能进行三维重建的能力,可以从单张二维图像生成质量较高的三维内容,并支持从文字生成三维内容与三维渲染调整。

商业化过程中面临的挑战

●    场景应用落地挑战

目前人工智能三维生成模型在生成质量、生成效率与可控性方面仍然存在诸多问题,而在短时间内问题无法解决的前提下,人工智能三维生成需要寻找合适的应用场景才能实现应用落地。

目前,三维生成的应用场景可以大致分为面向专业人士的场景与面向普通消费者的场景。面向专业人士的场景必然需要人工智能三维生成的能力满足工业产线级的应用要求,如高质量的生成、高度的可控性,另外也需要满足专业场景的特殊应用需求,如游戏与电影行业的三维生成需要具有想象力现实化的能力,工业、建筑业与医疗需要三维生成具有高度的准确性等等。而面向普通消费者的应用场景对人工智能三维生成的生成质量与可控性要求相对较低,但面向普通消费者的应用却普遍对生成效率有着较高的要求。

无论是哪类应用场景,更重要的问题是如何应用人工智能三维生成可以带来更高的经济效益,而目前人工智能三维生成能力上的不足也大幅减少其可以商业化落地的场景。

●    版权挑战

版权问题是从二维图像生成实现商业化应用以来一直困扰AIGC产业的问题,而这一问题也将从二维图像生成延续至三维生成。目前许多人工智能三维生成应用仍然需要大量的文本数据与二维图像数据作为训练模型的基础。如果这些数据来源于版权受保护的资产,那么使用这些数据进行商业化行为就容易涉及版权问题。

●    技术革新挑战

目前许多人工智能三维生成的有机会商业化的应用场景,如电影制作、产品概念设计、游戏三维资产制作等,在实际应用中用户接受的仍旧是二维图像。此类应用场景目前仍然应用三维生成的原因是需要保证画面内容在不同视角下的统一性,因此目前三维生成在这些场景下仍然具有其独特的应用价值。

但二维图像生成的技术进步速度较快,若在此类应用场景中,二维图像生成应用可以保证用户接受的二维图像在不同视角下的内容统一性,那二维图像生成在此类应用场景中将大范围取代三维生成。

除此之外,若人工智能语言生成发展迅速,则可以训练专用于操作传统三维生成工具的语言模型,也可能全面取代人工智能三维生成模型。

前沿探索与趋势展望

随着技术的进步,人工智能三维生成模型的生成质量、生成效率与可控性均有望实现大幅提升。可控性方面,人工智能三维生成与传统三维生成工作流程的衔接性将更强,将有越来越多的模型采用逐级生成,每级生成内容均可于传统三维生成工作软件中查看与修改再返回模型的能力,提升人工智能三维生成在专业应用场景中的辅助作用。在此过程中,需要开源技术社区的大量贡献,也有可能与语言生成应用结合使用以增强自然语言对三维生成结果的操控性。

而随着生成质量与生成效率的提升,一站式的人工智能三维生成也将进入更多消费应用场景,加速数字孪生与元宇宙的发展。而人工智能三维生成也将拓展其能力,如学习不同材质的物理属性、组织的生物特性、分子的化学特性等,提升其在工业、建筑与医疗等专业领域的应用价值。

AIGC产业研究报告系列共分为六个部分,包括语言生成篇图像生成篇音频生成篇视频生成篇三维生成篇分子发现与电路设计篇,并将在本月陆续发布,欢迎关注并与我们共同探讨AIGC产业发展。

声明须知易观分析在本文中引用的第三方数据和其他信息均来源于公开渠道,易观分析不对此承担任何责任。任何情况下,本文仅作为参考,不作为任何依据。本文著作权归发布者所有,未经易观分析授权,严禁转载、引用或以任何方式使用易观分析发布的任何内容。经授权后的任何媒体、网站或者个人使用时应原文引用并注明来源,且分析观点以易观分析官方发布的内容为准,不得进行任何形式的删减、增添、拼接、演绎、歪曲等。因不当使用而引发的争议,易观分析不承担因此产生的任何责任,并保留向相关责任主体进行责任追究的权利。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/540769.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在博客逮到一个阿里8年测试开发,聊过之后我悟了....

老话说的好,这人呐,一旦在某个领域鲜有敌手了,就会闲得疋虫疼。前几天我在上班摸鱼刷社区的时候认识了一位腾讯测试开发大佬,在阿里工作了8年,因为本人天赋比较高,平时工作也兢兢业业,现在企业内…

异常检测相关论文记录

1、Unsupervised anomaly detection algorithms on real-world data: how many do we need?真实世界数据的无监督异常检测算法:我们需要多少? Abstract: 将所考虑的算法在所有数据集上的相对性能进行可视化和聚类,我们确定了两个…

10分钟轻松实现三菱FX3UPLC连接阿里云平台

MQTT协议网关串口连接三菱FX3UPLC操作说明v1.3 目录 一. 使用流程 二. 准备工作 2.1 需要准备如下物品 2.2 LF220网关准备工作 2.3 PLC准备工作 2.4 电脑的准备工作 2.5 MQTT服务器准备工作 三. 阿里云IoT平台配置步骤 3.1 创建产品 3.2 添加设备 3.3 配…

pip下载包报错ERROR: No matching distribution found for xxx时的解决方案

前言 当我们使用python自带的pip安装一些包时,可能会报以下错误: 出现这种情况有三种可能: 第一种可能: pip的版本过低,需要升级一下,可以执行以下命令进行尝试 python -m pip install --upgrade pip第…

MySQL---存储函数、触发器

1. 存储函数 MySQL存储函数(自定义函数),函数一般用于计算和返回一个值,可以将经常需要使用的计算 或功能写成一个函数。 存储函数和存储过程一样,都是在数据库中定义一些 SQL 语句的集合。 存储函数与存储过程的区…

如何裁剪图片,裁剪图片的几个方法

如何裁剪图片,裁剪图片的几个方法你知道吗?在日常生活中,当浏览图片时,常会想要对某些图片进行裁剪,或从生活照片中裁剪自己的部分。如何处理这种情况?裁剪图片可去除图像不必要的部分,让其更美…

[日记]LeetCode算法·二十六——二叉树⑥ 红黑树(插入与删除,附图)

承接上一篇AVL树AVL树,红黑树相较于AVL树,就相当于完全二叉树相当于AVL树,如何在性能退化和维护成本之间做出CS中经典的trade-off 文章目录 红黑树的概念红黑树查询效率红黑树的插入1 插入节点N为根节点2 插入节点N的父节点P为黑色3 N的父节…

雷鸟Air Plus体验:视觉大幅升级,影视/办公/游戏全能胜任

雷鸟BirdBath系列XR眼镜一直保持着较快的迭代频率,如今迎来该系列第三款产品:雷鸟Air Plus,新品在视觉体验上得到大幅升级,不仅FOV达到49,边缘成像质量更高,搭配索尼旗舰级Micro OLED屏实现最高120Hz刷新率…

LoRa温振变送器的类型特点及技术参数

自电器文明开始,短短一个世纪,我们对科学探索已经从工业到达了智能化的程度。传感器的应用,不断为时代带来惊喜,各行各业都在争相抓紧契机,利用科技不断创新,推动着整个传感器行业的发展。在工业自动化系统…

redis单机版本Java代码实践

pom依赖 引入redis的starter以及commons-pool2的依赖&#xff0c;commons-pool2是配置连接池需要使用的&#xff0c;不引入&#xff0c;只有连接池配置是不会创建连接池的 <!-- redis --><dependency><groupId>org.springframework.boot</groupId><…

k8s的一些基本概念

目录 masterNodePod和ContainerControllerService和IngressLabelSecretVolumeReplicationController和ReplicaSetDeploymentDaemonSetJobCronJobStatefulSetNamespace 推荐k8s中文文档&#xff0c;里面有各种概念的具体用法http://docs.kubernetes.org.cn/437.html 一个k8s集群…

Spring Boot 整合MyBatis 和 Spring Boot 整合MyBatis-Plus

目录 Spring Boot 整合MyBatis 代码配置实现 创建数据库和表 使用灵活的方式创建maven 创建resources/application.yml &#xff0c;配置数据源参数, 并完成Spring Boot 项目启动测试 测试DruidDataSourceConfig 创建MonsterMapper接口 创建resources\mapper\MonsterMap…

开发笔记之:文件读取溢出分析(QT C++版)

&#xff08;1&#xff09;引言 以下是QT C读取数据文件&#xff08;QDataStream&#xff09;的代码&#xff1a; /*** 按双字读取* param fis 文件输入流* param isBigEndian 是否大头&#xff08;字节序&#xff09;* return 双字值*/ DWORD FsFileUtil::readAsD…

工欲善其事必先利其器——开发神器(IDEA)

&#x1f525;IDEA 简介&#x1f525;IDEA的特色功能&#x1f525;IDEA的优点&#x1f525;IDEA 的使用&#x1f525;IDEA的常用快捷键 &#x1f525;IDEA 简介 IDEA 全称 IntelliJ IDEA&#xff0c;是 java 编程语言开发的集成环境&#xff0c;被公认为最好的 java 开发工具之…

如何轻松搭建一套行情回放系统

一个量化策略在生产&#xff08;交易&#xff09;环境中运行时&#xff0c;实时数据的处理通常是由事件驱动的。为确保研发和生产使用同一套代码&#xff0c;通常在研发阶段需将历史数据&#xff0c;严格按照事件发生的时间顺序进行回放&#xff0c;以此模拟交易环境。在 Dolph…

ChatGPT 提问,软件杂项部分

堆内存与栈内存一般分别 有多少 ChatGPT 堆内存和栈内存的大小取决于操作系统和编译器的限制以及程序的运行环境。以下是一些常见的默认大小范围&#xff0c;但请注意这些值可以因环境而异&#xff1a; 栈内存大小&#xff1a; Windows平台&#xff1a;默认情况下&#xff…

vue3 大致总结

一、开发、生产、测试环境的文件编写 需要以VITE开头&#xff01;&#xff01;&#xff01; 输出时&#xff1a;console.log(import.meta.env.VITE_ENV,"------***---------"); 二、路由守卫 1、全局路由守卫beforeEach和afterEach ①全局前置守卫beforeEach ②…

六、达梦8数据库适配记录

达梦数据库适配记录 记录关于我的业务微服务,适配国产达梦数据库的过程,以及遇到的一些错误问题和其解决方案。 目前的项目最初基于Mysql开发,现在要适配到达梦,不要以为迁移任务很easy,但实际过程中还是出现了很多问题。 基 由于达梦是的国产数据库,本身与MySQL数据库…

idea配置阿里云翻译

idea配置阿里云翻译 0前言1开通阿里云机器翻译2配置阿里云AccessKeyidea配置Translation 0前言 使用idea的码农们都应该对Translation这款插件不会陌生了&#xff0c;尤其是英语基础比较薄弱的盆友&#xff0c;在看源码的时候更是会经常使用Translation边翻边看源码。 但是由于…

EW代理工具的使用说明

一、EW介绍 Earthworm&#xff08;EW&#xff09; 是一套便携式的网络穿透工具&#xff0c;具有 SOCKS v5服务架设和端口转发两大核心功能&#xff0c;可在复杂网络环境下完成网络穿透。 该工具能够以“正向”、“反向”、“多级级联”等方式打通一条网络隧道&#xff0c;直达…