AIGC 施展“物理魔法”,3D视觉突破“精度极限”

news2024/12/26 20:52:39

点击关注

文|姚悦,编|王一粟

“没有艺术,全是物理!物理让你快乐,不是吗?”

近日,在世界计算机图形会议 SIGGRAPH 2023 上,英伟达创始人、CEO 黄仁勋宣布,将生成式AI与仿真模拟平台Omniverse结合的时候,如同他宣布“AIGC是iPhone时刻”一样兴奋。

不同于大语言模型只能应用在图文,有了基于物理规律的仿真模拟平台,生成式AI就可以直接用到现实世界。

除了黄仁勋,美国斯坦福大学李飞飞团队,近期也将大模型接入机器人,不仅使得机器人能够与环境有效交互,还能够在无需额外数据和训练的情况下完成各种任务。

“基于物理世界模拟的生成式AI,是生成式AI 2.0”,跨维智能创始人、华南理工大学教授贾奎对光锥智能表示,与具身智能的结合,生成式AI 将发挥出更确定性的作用。

而随着通用能力的增强,AI也有望打破商业化的“魔咒”。

01 当生成式AI学会物理

将生成式AI与物理世界结合,并不容易,这里面涉及的技术链条非常长。

首先,需要对物理世界基本规律的掌握,才能将真实世界建模到仿真模拟平台。

仿真模拟平台,不仅可以仿真物理场景,还可以模拟真实世界中物体之间相互作用、运动和变形。

而生成式AI的加入,会让仿真模拟平台拥有“预演”能力。

“人类从小就知道的物理常识,AI却不知道。”黄仁勋表示,“生成式AI和仿真模拟平台结合,就是要让AI的未来能够在物理上扎根。”

黄仁勋进一步解释,让AI在虚拟世界中学习如何感知环境,并通过强化学习来理解物理行为的影响和后果,让AI实现特定目标。

这就需要用生成式 AI,预测物理世界中的千万种、甚至上亿种可能性,形成有价值的合成数据。

比如机械臂需要通过3D视觉的“眼睛”才能精准抓取,但如何排除环境变化的干扰,认出待抓取的物体(比如工厂里的零部件)?

通过仿真模拟平台掌握了“光线对场景目标的反射、折射影响”等物理规律,生成式 AI就能预测模拟出一个瓶子,在不同场景光照下,周身不同的反光程度;同一光照下,金属、塑料、木制品等不同材质物体表面呈现的状态;一堆钉子,所有可能出现的散落状态……

再次,需要将所有数据,都在仿真模拟平台中用AI都跑一遍。

这一步,就是在训练3D视觉大模型。区别于大语言模型,3D视觉大模型对于理解和推理视觉场景的组成特性至关重要,需要处理对象之间的复杂关系、位置、以及现实环境中的变化等。

最后,再连接上机械臂等具身智能的硬件,才能让其学会智能化操作。

可以看到,生成式AI与物理世界结合的整个技术链条,不仅涉及物理学、图形学、计算机视觉、机器人多学科交叉,还包括数字孪生、几何深度学习、运动学解算、混合智能、智能硬件等多维前沿技术。

相应的,整个产业的链条也比较复杂,需要从数据到模型,再从模型到部署。

在这些环节中,有一个节点和此前AI的路径非常不同,那就是“合成数据生成”。

用基于物理规律的生成式AI合成的数据,去训练大模型,将给实体产业带来跨越式的革命。

02 不用一张真实图片,训练3D视觉大模型

为什么不直接用真实数据训练大模型?

目前,行业内多数基于3D视觉的机械臂,其控制系统的算法训练所使用的就是真实数据。因为商业隐私等问题,这些真实数据很难在通用数据中获取,基本都是企业自行采集。

然而,自采真实数据,首先在“效率和成本”这两个运营的关键指标上,性价比就非常低。

这是因为,终端应用场景碎片化,数据根本不能通用。采集真实数据,企业就需要一个一个行业,一个一个工厂,一个一个场景的“地毯式”采集。而且,采集回来的数据也不能直接用,还需要进行一系列处理。

这个过程中,甚至产生了“人工智能悖论”。

“采集真实数据,AI技术的成本构成中,半数以上都是数据成本,而对数据的采集、清洗、标注、增强等处理过程,往往是大量人力堆积的结果。”有分析人士就曾指出,人工智能的本质是代替人工的智能。“讽刺的是,这样的AI具备显著的劳动密集型产业特征。”

如果用合成数据呢?

“用五六年、上千个案例积累的真实数据,通过合成数据,几天几周就能完成。”贾奎告诉光锥智能,相比于人工采集与标注数据,合成数据的成本能够实现几个数量级的降低。

最关键的还是,在训练效果上,合成数据能够更优于真实数据。

由于本身就是基于物理规律合成,合成数据天生自带绝对精确的标注,这就意味着,AI学习起来效率非常高。

另外,合成数据的“全面性”是真实数据难以比拟的。“生成式AI 2.0可以创造无数个世界,而且可以让这个世界快速演进。”贾奎表示。

而落地到3D视觉行业,机械臂就犹如有了“上帝之手”,可以掌控一切过去未来。

“当然,这不能是物理世界的规律之外的。”贾奎强调。

“目前,我们不使用一张真实图片,就可以完成机械臂复杂场景作业的3D视觉模型训练。”贾奎告诉光锥智能,完全使用合成数据训练的模型引导机械臂的柔性操作,可以实现现场99.9%以上的稳定抓取。

也正是因为此,合成数据,被称为大模型的“数据永动机”。

当前,除了3D视觉领域,许多领域也都因通用数据缺乏和噪点多等问题,开始尝试使用合成数据。但也有对合成数据抱有强烈质疑的观点,称如果没有经过精心调试,在训练时大量使用,会引发模型崩溃,造成不可逆的缺陷。

从技术演进的角度,合成数据不会是大模型的唯一解。

但贾奎指出,“没有找到更好的办法之前,合成数据就是目前能够解决实际问题的最好办法。如果还采用人力堆砌的真实数据,在包括3D视觉在内的很多领域,AGI(通用人工智能)永远不可能实现。”

03 打破AI的商业化“魔咒”

在机器视觉领域,对合成数据的需求更加旺盛,生成式AI 2.0能够释放的价值也就会更大。

作为机器视觉非常重要的感知手段,3D视觉对于合成数据的需求就十分迫切。

“在一堆相似的零件里‘找不同’,物体换一个材质、颜色,都需要去调整参数。”一位3D视觉从业人士表示,不同领域的需求不同,使得落地场景过于碎片化,只能做完一个项目再重新定制另一个项目。

这就意味着,企业很难通过着力解决一个或几个项目需求,就能形成标准化产品。也就无法进而通过快速复制,打入并拓展市场,追求利润规模。

边际成本难以降低,会将一家技术公司,变成项目公司,最终拖垮。

“魔鬼”藏在细节中。

传统3D视觉感知有多脆弱?贾奎向光锥智能描述,“机械臂在抓取过程中,如果有人路过产生光线变化,任务就可能失败。”

这是由硬件3D相机的成像原理造成的,3D相机成像容易受环境、物体形状、材质、颜色、散射介质等影响,而且这一问题短时间内难以解决。

“解决一个问题可能是一百步,但最后一步付出的努力可能跟前面99步加起来是一样的。”商汤科技联合创始人杨帆曾表示,企业大部分的精力都需要用来应对小部分长尾问题。

但现在,“通用性能力很强的生成式AI 2.0,能够解决长尾问题,对于产品标准化至关重要。”贾奎表示。

相较于行业传统定制化开发的模式,企业基于生成式AI 2.0,就可以利用通用大模型,实现产品模块化开发,做到开箱即用地部署,进而实现同行业直接拓展,不同行业也能有效复用。3D视觉行业的商业化难题也就迎刃而解。

与此同时,数据、开发、部署、硬件、行业拓展,每一个环节的成本也都实现骤降。

而在生成式AI 2.0的催化下,3D视觉一旦爆发,也就意味着,在机械臂、机器人、无人驾驶、元宇宙等等高度依赖3D视觉技术的垂直场景,都将加速吃到AI的红利。

不少数据已经印证了这一点,像数据标注、合成数据、工业机器人、机器视觉等领域,全球市场规模都在高速增长,尤其是合成数据的年复合增长率甚至都超过了30%。

这背后,实际上是生成式AI 2.0的战略价值,已经受到了科技和众多制造业巨头的高度重视。

从西门子、福特等老牌制造企业,到英伟达、特斯拉、谷歌等一众科技巨头,再到Waabi等明星初创公司,都开始纷纷在工业、机器人、无人驾驶、医疗、零售等诸多领域,探索生成式AI 2.0更大的可能。

与此同时,资本的热情也被极大地调动起来。据不完全统计,近年来,国外合成数据的相关融资,累计已接近8亿美元。

在国内,合成数据相关企业也同样引起了资本的注意。2022年6月,跨维智能宣布完成Pre-A轮融资,融资金额数千万元,成立不到一年时间累计融资近亿元;今年7月,光轮智能也宣布完成天使+轮融资,融资金额累计数千万元。

可以说,从会作诗到学物理,生成式AI 2.0正在开启一个产业数字化的宏大未来。

欢迎关注光锥智能,获取更多科技前沿知识!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/910649.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小型便携式气象站的功能特点

小型便携式气象站是一种,集多种传感器和自动化功能于一体的气象观测设备,具有便携性和自动化的特点。能够自动测量和记录各项气象参数,为人们提供实时气象数据。 小型便携式气象站的功能特点如下: 1.小型便携式气象站轻便便携&a…

秒懂算法│博弈论

博弈论是二人或多人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜目标的理论。博弈论是研究互动决策的理论。博弈可以分析自己与对手的利弊关系,从而确立自己在博弈中的优势,因此有不少博弈理论,可以帮助对弈者分析局势,从而采取相应策略,最终达到取胜的目的。…

StreamingWarehouse的一些思考和未来趋势

300万字!全网最全大数据学习面试社区等你来! 一篇笔记。 以Hudi、Iceberg、Paimon这几个框架为例,它们支持高效的数据流/批读写、数据回溯以及数据更新。具备一些传统的实时和离线数仓不具备的特性,主要有几个方面: 这…

【30天熟悉Go语言】10 Go异常处理机制

作者:秃秃爱健身,多平台博客专家,某大厂后端开发,个人IP起于源码分析文章 😋。 源码系列专栏:Spring MVC源码系列、Spring Boot源码系列、SpringCloud源码系列(含:Ribbon、Feign&…

2023国赛数学建模A题B题C题D题资料思路汇总 高教社杯

本次比赛我们将会全程更新思路模型及代码,大家查看文末名片获取 之前国赛相关的资料和助攻可以查看 2022数学建模国赛C题思路分析_2022年数学建模c题思路_UST数模社_的博客-CSDN博客 2022国赛数学建模A题B题C题D题资料思路汇总 高教社杯_2022国赛a题题目_UST数模…

三维模型OSGB格式轻量化的数据压缩与性能平衡分析

三维模型OSGB格式轻量化的数据压缩与性能平衡分析 在三维模型应用中,OSGB格式轻量化处理是一种常见的技术手段,它可以通过数据压缩、简化、滤波等操作,降低三维模型数据的存储空间和传输带宽需求,提高应用程序的性能和用户体验。但…

python35种绘图函数总结,3D、统计、流场,实用性拉满

文章目录 基础图误差线三维图等高线图场图统计图非结构坐标图 基础图 下面这8种图像一般只有两组坐标,直观容易理解。 函数坐标参数图形类别plotx,y曲线图stackplotx,y散点图stemx,y茎叶图scatterx,y散点图polarx,y极坐标图stepx,y步阶图barx,y条形图barhx,y横向条…

中国社科院大学-美国杜兰大学能源管理硕士招生信息详情

中国社科院大学-美国杜兰大学能源管理硕士招生信息详情 金融硕士 中国社科院大学-美国杜兰大学能源管理硕士招生信息详情 能源与气候是21世纪人类所面临的最严峻挑战,当今世界能源格局面临深度调整,全球应对气候变化行动加速,国家间科技竞争…

三维模型OSGB格式轻量化的纹理压缩和质量保持分析

三维模型OSGB格式轻量化的纹理压缩和质量保持分析 在三维模型应用中,纹理数据是一个重要的部分,可以为模型增加更多的真实感和细节。但是,由于纹理数据通常会占用大量的存储空间和传输带宽,因此,在OSGB格式轻量化处理中…

LeetCode.141,142——环形链表,环形链表Ⅱ

LeetCode.141——环形链表: 题目如下: 通过题目中对于环形链表的大体描述,可以知道,环形链表最后一个结点保存了一个地址,用于返回链表中某个结点。并且。这个返回的结点并不是返回图中保存数据的结点。而是返回链表…

0603-指针和函数

函数形参改变实参的值 值传递,形参不影响实参的值 地址传递,形参可以改变实参的值 数组名做函数参数 数组名做函数参数,函数的形参会退化为指针。这里的数组名不仅仅指一维数组的数组名,也包括多维数组的数组名,它们…

数据结构算法--4堆排序

堆排序过程: >建立堆(大根堆) >得到堆顶元素,为最大元素 >去掉堆顶,将堆最后一个元素放到堆顶,此时可通过一次调整使堆重新有序 >堆顶元素为第二大元素 >重复步骤3,直到堆变空 此时是建立堆后的大根堆模型 将…

ssl卸载原理

SSL卸载,也称为SSL解密,是一种将SSL加密数据流卸成非加密的明文数据流的过程。SSL卸载通常在负载均衡器、代理服务器、WAF等设备中实现,可以提高传输效率和安全性。 SSL卸载的原理是将SSL数据流拦截下来,通过设备内置的证书进行解…

行为型(二) - 模板模式

一、概念 模板模式(Template Pattern):模板方法模式在一个方法中定义一个算法骨架,并将某些步骤推迟到子类中实现。模板方法模式可以让子类在不改变算法整体结构的情况下,重新定义算法中的某些步骤。 二、实现 这里…

Fastadmin框架 聚合数字生活抵扣卡系统v2.8.6

【2.8.6更新公告】 1.【优化】优化已知问题。 2.【新增 】新增区县影院。

Nest(2):Nest 应用目录结构和脚手架命令介绍

Nest 应用目录结构和脚手架命令介绍 在正式使用 NestJS 进行开发之前,先来了解下 Nest 应用的目录结构,和一些常用的脚本命令。 工程目录 下面是使用 nest/cli 创建的 Nest 项目的目录结构。 上篇文章中介绍了 src 目录以及目录下各个文件的作用。下面…

胜者打仗,就像高山上决开积水,势不可挡

胜者打仗,就像高山上决开积水,势不可挡 【安志强趣讲《孙子兵法》16讲】 【原文】 是故胜兵先胜而后求战,败兵先战而后求胜。善用兵者,修道而保法,故能为胜败之政。 【注释】 修道:指从各方面修治“先立于不…

罗勇军 →《算法竞赛·快冲300题》每日一题:“超级骑士” ← DFS

【题目来源】http://oj.ecustacm.cn/problem.php?id1810http://oj.ecustacm.cn/viewnews.php?id1023https://www.acwing.com/problem/content/3887/【题目描述】 现在在一个无限大的平面上,给你一个超级骑士。 超级骑士有N种走法,请问这个超级骑士能否…

「我的编程笔记」——记录学习中的代码、函数、概念等

文章目录 每日一句正能量前言常用的代码登录存储 特定函数MD5加密 复杂概念1. 多线程2. 集合类3. 异常处理4 泛型5 反射 特定功能1. 文件操作2. 网络通信3. 图形绘制4. 数据库操作5. 多媒体处理 后记 每日一句正能量 不管昨天、今天、明天,能豁然开朗就是最美好的一…

Hugging News #0821: 新的里程碑:一百万个代码仓库!

每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息&#xff0…