这是生成大模型时代 —— 它们能生成文本、图像、音频、视频、3D 对象…… 而如果将所有这些组合到一起,我们可能会得到一个世界!
现在,不管是 LeCun 正在探索的世界模型,还是李飞飞想要攻克的空间智能,又或是其他研究团队提出的其它类似概念,我们都毫无疑问地在离这个世界越来越近。
2024年12月24日,Genesis横空出世。
据项目贡献者 CMU 机器人研究所博士生 Zhou Xian 和领导者 Chuang Gan 教授在 X 上分享的内容看,该项目耗费了 2 年多时间,海内外近 20 家机构参与了内部测试,最终这个联合团队得到的 Genesis 生成式物理引擎可以生成 4D 动态世界,而其基础是一个用于通用机器人和物理 AI 应用的物理模拟平台。
Genesis,意为「创世纪」,从名字也能看出,这或许真是一个新世界的起点。
Genesis是什么?
Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。
Genesis能用简单的语言描述,快速生成精确的物理模拟,包括物体运动、人物动作和机器人策略等。引擎的特点在于高度的物理准确性、快速的模拟速度(比现实世界快约43万倍),及用户友好的Python化设计。
Genesis能模拟各种材料和物理现象,提供一个轻量级、超快速的机器人仿真平台,及一个强大而快速的照片级写实渲染系统。
Genesis能将用户的自然语言描述转换为数据模式,用在生成式数据引擎。
Genesis为通用机器人、具身AI和物理AI应用而设计,预示着物理模拟和机器人技术领域的重大进步。
Genesis主要功能
- 物理模拟:模拟各种材料和物理现象,包括物体的运动、碰撞、流体动力学等。
- 机器人仿真:提供轻量级、超快速的机器人仿真平台,支持多种机器人类型,如机械臂、腿式机器人、无人机、软体机器人等。
- 照片级渲染:拥有强大而快速的照片级写实渲染系统,能生成高质量的视觉输出。
- 生成式数据引擎:将用户的自然语言描述转换为数据模式,用在生成模拟场景。
- 交互式3D场景:支持完全交互式的3D场景生成,包括家居室内场景、游戏环境等。
- 开放世界物体生成:能生成开放世界中的铰接式物体,提供高质量的mesh资产软体。
- 机器人模拟:针对软性机器人实现逼真的模拟,如虫、柔软的抓手等。
- 面部动画和语音同步:生成面部动作和表情,与语音同步,实现逼真的面部动画。
Genesis的技术原理
- 通用物理引擎:从头开始构建,集成各种物理求解器,如刚体、MPM(物质点方法)、SPH(光滑粒子流体动力学)、FEM(有限元方法)、PBD(位置基动力学)等,实现精确的物理拟。
- 生成Agent框架:在核心物理引擎之上运行,用在自动化数据生成,包括视频、摄像机运动、角色动作、机器人策略等。
- 可微分仿真:支持可微分仿真,让仿真过程与机器学习算法结合,用在训练和优化。
- 多模态集成:将物理模拟与视觉渲染、动作捕捉、语音合成等多模态技术集成,实现全面的模拟体验。
- 跨平台兼容性:设计为可在不同操作系统和计算后端(如CPU、Nvidia GPU、AMD GPU、Apple Metal)上运行。
Genesis应用场景
- 机器人仿真训练:模拟复杂环境,训练机器人在现实世界中执行任务。
- 游戏物理引擎:在游戏开发中,创建逼真的物理效果和角色动作。
- 电影特效制作:模拟逼真的物理破坏和动态效果,用在电影后期制作。
- 科学研究模拟:在物理学和工程学研究中,模拟实验和测试理论。
- 虚拟教学平台:在教育领域,创建虚拟实验室,辅助物理和科学教学。
当然,也能用于生成训练用的自动驾驶场景数据。
接下来,我们看看具体的示例展示。
生成4D动态物理世界
Genesis 物理引擎由基于 VLM 的生成式智能体提供支持,该智能体使用模拟基础设施提供的 API 作为工具来创建 4D 动态世界,然后将其用作提取各种模式数据的基础数据源。
结合生成相机和物体运动模块,Genesis 能够生成物理上精确且视图一致的视频和其他形式的数据。并且,Genesis 还支持模拟各种不同的材料,包括刚体、铰接体、布料、液体、烟雾、可变形体、薄壳材料、弹性 / 塑性体、机器人肌肉等。
模拟一层巧克力酱,自然不在话下。
绞碎泡沫的质感看起来也非常真实。
星球与太空船的质感也非常高,看起来就像是来自一部大制作的科幻电影。
子弹击破水球的物理过程就好像真的是来自设备精良的高速摄影。
一壶字母糖,看起来很 Q 弹。
对充气人偶的模拟也恰到好处,同样也非常幽默地模拟现实状况。
角色动作生成
有了如此高质量的物理引擎,对于游戏制作业来说也是好消息,许多复杂的动作和效果都可以通过提示词来快速生成了:
提示:手持棍棒的迷你版悟空在桌面上飞奔 3 秒,然后跳到空中,落地时右臂向下摆动。镜头从他的脸部特写开始,然后稳定地跟随角色,同时逐渐缩小。当悟空跳到空中时,在跳跃的最高点,动作暂停几秒钟。镜头围绕角色 360 度旋转,然后缓慢上升,然后继续动作。
设计动作的时间成本一下子就被打下来了。
机器人策略生成
Genesis 可以利用生成式机器人智能体和物理引擎自动生成不同场景下各种技能的机器人策略和演示数据。这意味着研究人员可以在仿真环境中快速获得符合物理规律的机器人动作方案,并将其可靠地迁移到实体机器人上。
下面展示了一些不同形态的机器人执行不同任务的示例。
提示:一个移动的 Franka 机械臂使用碗和微波炉做爆米花
提示:宇树 Go2 四足机器人在雨中奔跑 (Sim)
比如,从提示词到在仿真环境中的动作策略,再迁移到实体机器人上,可以如此丝滑:
提示:宇树 H1-2 人形机器人向前行走 (Sim2Real)
做倒立需要精确平衡控制和全身协调,这么高难度的动作,现在也可以通过 Genesis 来实现 Sim2Real:
提示:四足机器人用前两条腿做倒立 (Sim2Real)
倒立不够,在 Genesis 的助力下,机器狗还能更快地学会「体操技巧」,稳稳地做两个直体后空翻:
四足机器人连着后空翻两次 (Sim2Real)
像拉椅子这样要和真实世界里的物体交互的动作,也没问题:
大型欠驱动机器人的运动操作 (Sim2Real)
3D完全交互式场景生成
Genesis 的生成框架支持生成 3D 和完全交互的场景,这些场景可用于训练机器人技能。
家庭室内场景,有客厅(包括用餐区)、卫生间、书房和卧室。
餐厅内部
开放世界铰接物体生成
Genesis 也能生成具有铰接结构的物体及其交互过程,例如汽车开关门、打开合上笔记本电脑、折叠金属刀片。
软体机器人
Genesis 还是首个为软肌肉和软机器人及其与刚性机器人的交互提供全面支持的平台。Genesis 还附带类似 URDF 的软机器人配置系统。官方还提供了一个相关教程:https://genesis-world.readthedocs.io/en/latest/user_guide/getting_started/soft_robots.html
Genesis 也能模拟带有软皮肤和刚性骨骼的混合机器人。
语音音频,面部表情和情绪生成
音频以及面部表情也是 Genesis 想要整合的模态,下面展示了两个示例:
人物情绪从中性转变为愤怒,然后再转变为快乐。
Genesis 将情绪的转变泛化到不同的面部
结语
最后,Zhou Xian 展示了一个用 Genesis 打造的俄罗斯方块游戏,其中的方块是果冻材质的,并且能以符合现实的物理规律运动。
我们以前可能也刷到过类似的视频,但那些是视频特效师们精心制作的结果,而现在 Genesis 已经可以一键导出,并进一步转化为真实可实现的技术突破。
淦创教授在 X 上分享了自己参与这个项目的经历:自 2018 年以来,我决定将自己的研究重点从视觉转向具身 AI,因为我着迷于创建能够与物理世界和其他具有类似人类灵活性的智能存在交互的通用智能体——我们将这个领域称为具身 AGI(embodied AGI)。
他还写到:「说实话,有时候我觉得这个模拟器可能太先进了,不能发布,但我们相信让它完全开源并围绕我们的使命建立一个强大的社区是至关重要的!请加入 Genesis 社区!我们希望让机器人学研究社区相信『Generative Physics Simulator is all You Need』
Genesis项目地址
项目官网:Genesishttps://genesis-embodied-ai.github.io/?utm_source=ai-bot.cn
GitHub仓库:GitHub - Genesis-Embodied-AI/Genesis: A generative world for general-purpose robotics & embodied AI learning.A generative world for general-purpose robotics & embodied AI learning. - Genesis-Embodied-AI/Genesishttps://github.com/Genesis-Embodied-AI/Genesis