导读
今年是具身智能值得纪念的一年,从谷歌发布具身多模态大模型,展示了智能体与环境智能交互的能力;再到特斯拉的人形机器人引发人们对具身智能和未来通用机器人的想象。那么,具身智能究竟“走”到哪里了?
在2023北京智源大会“具身智能与强化学习”论坛中,我们邀请了领域内顶尖学者,包括 北京大学助理教授王鹤、美国UCSD的助理教授苏昊、北京大学的助理教授卢宗青、清华大学的副教授眭亚楠和中科院计算所的研究员蒋树强,共同探讨具身智能的前沿进展,以及从当今大模型到未来的通用人工智能的过程中,具身智能与强化学习将扮演怎样的角色。
本论坛由王鹤主持,下文是精彩回顾。
苏昊:Modeling the 3D Physical World for Embodied AI
UCSD助理教授苏昊带来题为“Modeling the 3D Physical World for Embodied AI”的演讲,介绍具身智能在三维物理世界中的建模思路。他提到,具身智能是人工智能中不可或缺的一环,核心问题是概念涌现和表征学习,基础框架是耦合感知、认知和行动。具身智能的最终目标是构建像人一样聪明、能够自主学习的智能机器人。
具身智能是遥远的目标,涵盖了人工智能的大部分领域,继承了控制论、信息论、博弈论、认知科学等多个领域的研究成果,代表着人工智能的下一个里程碑式目标。苏昊表示,目前具身智能的实现方法主要基于技能训练(skill training),这些基本技能是短时任务解决方案,时间尺度为2-3秒,最多4-5秒。通过将这些基本技能串联起来,可以完成复杂任务。然而,这些基本技能却是瓶颈,挑战涉及到视觉、摩擦力、转动惯量变化、物体的硬度和形状变化等问题。
苏昊认为,物体操作技能学习是具身智能的基石任务,地位类似于计算机视觉中的物体识别。如果这个任务能够完成,其他许多问题都不会那么困难。他提到,如果将大模型与具身智能相结合,需要大量数据。数据来源可以是真实世界或生成的合成数据,如模拟器。模拟器在数据收集方面具有一些真实世界数据无法比拟的优势,例如具有可扩展性、可复现性以及快速原型(prototyping)。
受到自然语言处理领域中基于 Transformer结构模型的启发,苏昊正在尝试用类似的方法处理控制信号,最近的工作是基于思维链的预测控制,将终端控制器的速度控制信号视为像语言一样的 Token 进行建模。与之前的序列建模方法相比,在一些具有挑战性的精细控制任务上,基于思维链的预测控制取得了较大的提升。
最后,苏昊强调了 3D 的 AIGC 和具身智能之间的密切关,前者可以为后者生成大量的几何数据。另外,他认为将图形学和机器学习统一起来将是具身智能未来发展的重要方向。
卢宗青:从视频、文本到智能体策略学习
针对强化学习样本效率低、学习简单游戏需要大量步骤等难题,北京大学助理教授,智源学者卢宗青在报告《从视频、文本到智能体策略学习》中介绍了利用视频和文本数据帮助强化学习算法学习策略。他提到,传统的离线强化学习方法需要「状态-动作-下一个状态-奖励数据」,但视频中最多只有状态序列。因此,需要赋予机器人仅通过观看视频,就能大致了解如何执行任务,并能通过尝试学习策略的能力。
卢宗青提到,这种视觉观察学习的本质问题是要学习一个策略,使得该策略在状态和下一个状态的联合概率分布与专家的概率分布一致。此外,他们还尝试利用任务提示,通过将文本与图像关联起来,帮助智能体更好地学习。这可以通过 微调CLIP实现,让它关联文本与图像,并为智能体提供奖励函数。
卢宗青讨论了如何改进奖励函数以适应强化学习任务,并尝试解决 《我的世界》游戏中的分割问题、复杂任务处理问题。例如,面向复杂任务,可以通过定义技能和分解策略来简化任务。为了完成复杂数字任务,需要一套高层次的结构。他探索了大语言模型(如 ChatGPT)在高层次上进行规划的能力。同时强调,底层技能需要精心学习或从数据和视频中获得。对于稀疏奖励的长期任务,他强调了需要分层结构,建议使用具有强推理能力的语言模型进行规划。关于泛化性,他认为策略泛化需要依赖视觉和语言的泛化能力,视觉和语言具有统一的表示,因此可以实现策略层面的泛化。
眭亚楠:交互式建模与学习:重建人类运动功能
在报告《交互式建模与学习:重建人类运动功能》中,清华大学副教授眭亚楠介绍了AI在重建人类运动功能时,从无模型学习(model-free learning)到基于模型学习(model-based learning)的转变,以及在现实世界中如何确保安全性和提高采样效率。他提到,早期的技术路线从无模型学习出发,针对物理世界的控制问题进行无模型的在线强化学习,技术上主要关注安全性(safety)、偏好(preference)、以及采样效率(sample efficiency)。
在线强化学习非常有潜力,但需要面对未知的安全风险:在线安全强化学习,可以归约为一个约束优化问题。需要在每一步采样时满足约束条件,需要确保在整个优化过程中,安全约束都不被破坏。未知的安全约束可能会破坏评估过程,进而影响整个强化学习的循环。为了解决安全约束问题,需要引入安全探索的概念。在安全边界内进行探索和利用,并尽量扩大已知的安全边界。
在实际应用中,利用人类偏好反馈是一个重要问题。通过引入两两比较和贝叶斯偏好模型等方法,可以在在线强化学习中更好地处理这些问题。两两比较可以让用户在给定两个选项时选择哪个更好;通过贝叶斯偏好模型,可以构建空间的连续性和输入空间或动作空间之间的关联性。
眭亚楠在报告中进一步讨论了在线优化过程的应用,以及如何在实际场景中解决神经控制和运动功能问题。他提到,通过对神经系统的调控,可以帮助截瘫患者站起来,以及恢复高位截瘫患者的手部抓握能力。
具身智能从构建世界模型(world model)延伸到构建人类自身模型(self model),通过神经-肌肉-骨骼系统建模,可以更准确地描述、理解和控制人的运动功能,为人类运动功能的重建带来更多可能性。
蒋树强:具身智能中的视觉导航
中科院计算技术研究所研究员蒋树强在报告《具身智能中的视觉导航》中,讨论了具身智能中的视觉导航技术前沿进展,强调了具身智能的重要性和挑战。他表示,具身智能与互联网AI(Internet AI)并驾齐驱,具有更大的未来空间和挑战。具身智能才刚刚开始发展,许多任务刚刚被设定或处于初步阶段。要让智能满足人类需求,还有很多工作需要完成。同时提到,具身智能需要智能体支撑,如人形机器人、机械臂等。这些支撑技术已得到越来越多的关注,为具身智能的发展提供了基础。真正的智能不是一个点上的智能,而是各种能力相结合的智能,包括感知、认知和行为等方面。
蒋树强谈到了视觉导航在机器人领域的应用和挑战。传统的导航方法,如SLAM,需要构建地图,而视觉导航则更注重位置和环境。视觉导航主要通过视觉信息、机器学习和强化学习来实现自动导航能力。其基本架构包括视觉编码、动作输出和奖惩机制(reward)。为了实现视觉导航,需要考虑诸多因素,如充足的数据、强大的视觉表示能力、预训练模型和多任务训练方式等。他还提到了他们在视觉导航领域的一些研究成果,如基于场景图的导航、多目标导航、实例级导航和零样本导航等。这些研究突破了一些黑箱操作的问题,但仍然面临着如何构建先验知识、自动更新和学习物体关系等挑战。
此外,蒋树强讲述了场景图的建立和更新,以及如何利用场景图进行自适应的导航。他表示,导航任务的难度和挑战仍然很大,尽管目前可能还处于研究阶段,但未来的发展值得期待。大模型在这方面也是一个重要工具,但如何将其应用于具身智能仍有很多需要考虑的地方。
圆桌论坛
从左到右依次为:北京大学助理教授,智源学者王鹤、UCSD助理教授苏昊、北京大学助理教授,智源学者卢宗青、清华大学副教授眭亚楠、中科院计算技术研究所研究员蒋树强。
王鹤:与之前的离身智能、互联网智能相比,具身智能引入了哪些新的研究问题和挑战?
苏昊:最大挑战是如何将感知、认知和行动耦合起来。耦合的核心问题在于如何对世界进行最有效的建模,尤其是在涉及新概念涌现的情况下。
虽然可以使用传统的梯度下降方法,但问题在于这种分布式表示在多大程度上能够支持推理实现良好的组合泛化?换句话说,这些涌现的概念在多大程度上需要变成符号化?
卢宗青:基础模型(Foundation Model)比较热门,尤其是大型语言模型,这类模型可以将数据转化为知识。但是,由于它们是基于语言的抽象表示,泛化能力强,但对具体事物的描述可能不够细致。
因此挑战在于:如何将大型语言模型融入具身智能,并让模型适应环境,在环境中积累关于环境的具体表象和具身知识。
另一个挑战是:如何从抽象的物理世界转化为具体的物理世界。具体而言,具身智能中,如何学习一个输入式视觉模型,并将其与文本或符号表示结合起来,以便具体到每一个像素,也是一个需要解决的问题。
王鹤:提到具身智能与机器人学习,世界模型变得非常重要。请问它为具身智能带来了哪些研究问题?
卢宗青:世界模型(World Model)是一个广泛的概念,在强化学习中对应基于模型的强化学习(Model-based RL)。在之前的互联网AI时代,例如计算机视觉任务,研究重点并没有涉及决策部分。然而,在具身智能领域,需要考虑每一步的动作决策。这时,可以借助基于世界模型的方法或者基于模型的强化学习来进行规划。
苏昊:在互联网 AI 时代,研究者主要关注前向预测,预测结果的正确与否很难判断。而在具身智能领域,基于世界模型的方法面临一个重要挑战:误差积累。
当模型进行多步预测时,误差可能逐渐累积。因此,世界模型必须是一个具有长视野、具备不确定性的生成模型,并且其分布应该是正确的。在具身智能之前,这几乎是无法验证的。但在具身智能领域,这是可行的,因为模型的好坏最终会决定任务的成功率。这些特点使得世界模型在具身智能研究中具有重要意义。
王鹤:人类学习的本质是一个感知-行动循环(Perception-Action Loop)。在这个循环中,个体根据感知进行有效的行动,进一步改变世界状态,并重新进行感知。在具身智能中,如果能对世界进行建模,就可以预先知道采取某种行动的可能结果,从而在复杂的场景中做出正确的交互决策。
换个问题,请谈谈具身智能与安全性之间的关系,它引入了哪些新安全问题?
眭亚楠:具身智能在很多时候需要与环境或人类进行交互。在与人类交互的过程中,安全性问题尤为重要。如果具身智能只在无人环境中运行,例如自动码头或工厂,那么安全性问题相对较小,更多的是经济成本问题。但在与人交互的环境中,其中的算法问题和伦理问题会变得更加严重。在一些实际应用中,人们对智能系统的信任程度远低于对其他人和专业专家的信任程度。因此,在具身智能系统能力逐渐提高的同时,需要特别关注与人交互过程中的问题。
王鹤:在学术研究角度,除了导航之外,还有哪些值得研究的问题?
蒋树强:有很多问题值得探讨,例如,在具身场景下,传统人工智能研究任务会发生什么变化?具身智能如何与计算机视觉、自然语言处理和运动控制等领域结合?
此外,大家逐渐开始关注大模型。然而,在具身智能场景下,由于存在动态环境和上下文,大模型可能并不适用。这也给具身智能研究带来了新的挑战。
王鹤:在具身智能领域,除了导航和移动能力之外,操纵技能、场景交互和物理交互等方面的研究也非常重要。
大型模型(如 GPT-4)之所以成功,是因为依赖了大量的互联网上的图文对和文字材料。然而,对于具身智能来说,如何获得这样的具身大数据仍然是一个问题。可能的途径包括从人类操作中采集示范数据、通过模拟器中进行强化学习等。
王鹤:请问如何获取更多数据?
苏昊:具身大数据是具身学习领域的一个重要瓶颈。在缺乏具身大数据的情况下,很难谈论所谓的具身基础模型。具身大数据的获取面临两个问题:人力摇操作采集和模拟器。对于人力摇操作,一些复杂的操作可能难度非常大。对于模拟器,虽然有一些优势,但也面临着如何构建丰富的3D内容、如何设置合适的奖励等问题。
虽然有难题,但进展仍在发生。不少公司和团队在研究如何构建底层和上层模拟器。
卢宗青:以利用大量的视频数据,尤其是第一人称视角的视频。从学术角度来看,如何从视频中学习一个世界模型是具有挑战性的任务,但值得研究者们去尝试。
王鹤:总结一下,有四类数据可用:视频数据、遥操作数据、模拟器数据、强化学习数据。
其中,在发展通用具身机器人方面,强化学习可能发挥重要作用。我们可以在模拟器中进行强化学习,也可以在真实世界中进行强化学习,尽管后者可能存在风险。
眭亚楠:像《我的世界》此类游戏可能会在算力提高后具有更强的真实性和物理交互性。现在的大规模3C游戏已经在交互性和模拟方面做得非常好。这些数据来源于对动物和人体的实际样本,例如肌肉的弹性系数、皮肤组织、骨强度以及神经系统参数。
此外,从模拟到真实世界仍然是一个困难的过程。在真实世界中,我们需要结合基于模型的学习进行在线调整和适应。早期的研究工作,如神经调控和外骨骼或机器人交互,可能需要从零开始进行无模型的在线强化学习。然而,随着我们逐步构建现实世界中人和机器人的模型,将模型从模拟转移到现实世界,可能是强化学习在现实通用机器人中发挥作用的主要途径。
王鹤:从模拟到真实的差距有多大?强化学习等相关方法是否存在局限性?
蒋树强:差距很大,局限也有。在模拟器中使用强化学习训练模型可能效果不错,但一旦环境改变,强化学习模型在真实环境中可能不太好用。
强化学习需要足够多的数据,或者其泛化能力要足够强。为了提高泛化能力,可能需要更多真实环境的反馈。在具身智能中,强化学习是一个非常重要的工具,但它需要与其他方法相辅相成。这包括数据和结合其他领域的知识,例如知识学习。目前有一个观点是数据驱动和知识引导的学习,但具身智能的发展不能仅仅依赖于数据驱动,还需要有知识引导,可能包括人的反馈。
苏昊:强化学习可能在三个层面有用:
1.底层层面:强化学习最初来源于控制领域。通过强化学习,可以在底层控制和操作技能方面学习到一个可靠的控制器。
2.上层层面:将强化学习视为一种在反馈中学习的方法,而非仅限于控制工具。将其作为一种探索工具,用于在错误中调整上层的规划策略。
3.模拟到真实:在操作技能方面,强化学习的空间可能更大。因为在导航问题中,不使用强化学习,通过直接建模也可以解决问题,强化学习的必要性可能并不大。然而,在操纵任务中,尤其是在经典机器人、软体机器人、摩擦较复杂或嵌入式驱动系统等场景下,传统方法可能无法得出可靠的控制器。在这种情况下,强化学习的必要性会更大。
王鹤:在技能学习中,操纵任务非常复杂,试错是一种重要的学习方法。同时,如Google的摇操作系统所示,模仿学习也是一种重要方法。在未来,具身机器人的技能学习可能会成为通用机器人的一个瓶颈。机器人需要通过泛化的、低成本的方式学习各种技能,才能在真实世界中具有更多应用。
请谈谈技能学习。
卢宗青:基于大型语言模型(如GPT-4)和视觉信息输入的模型,可以与技能库(skill library)进行结合以完成一些简单任务,如游戏《我的世界》中的任务。
同时,在环境中持续学习技能也非常重要;基于视觉的世界模型是必不可少的。如何将视觉世界模型与更抽象的语言模型(具有更强推理能力)结合起来也是一个需要考虑的问题。
王鹤:关于具身大模型发展方向,有两种可能的发展道路:
1. 类似于现有的GPT-4,具身大模型接收图像和语言命令,然后直接输出机器人底层的控制信号,例如如何移动腿或手。
2.具身大模型输出的是机器人的技能,而不是底层的控制信号。
各位如何看待具身大模型的发展?
卢宗青:具身大模型的发展中,技能层面的学习是非常重要的。人在成长过程中需要学习很多技能,例如学走路等,所以具身智能需要构建一个技能库(skill library)来进行技能层面的规划(planning)。
强化学习在技能学习中的重要性不容忽视。例如,在练习打网球、乒乓球等技能时,无论采用无模型(model-free)还是基于模型(model-based)的方法,都需要不断尝试和实践才能掌握技能。
蒋树强:实现通用的大模型仍有很长的路要走。大模型的训练数据决定了它的性能,而现实世界中的具身智能场景和任务非常广泛,因此想要实现一个真正通用的大模型是非常困难的。即使是针对特定任务的大模型,数据采集也是一个复杂的过程。
大模型可能会从特定任务的成功开始发展,逐步扩展到更多领域。在某些特定任务下,大模型可能表现优秀,但是否能满足实际需求和任务仍需时间来证明。
学术界可能无法承担大规模数据采集的成本。尽管企业有可能出资进行数据采集,但他们开发的大模型是否能满足实际应用需求仍然存在疑问。
苏昊:具身大模型不是一个单一的模型,而是多个模型的集合,包括感知模型、世界模型和决策模型等。际的发展路径可能需要对这些模型进行解耦,这样每个模型所需的数据量就相对较少。引入规模的概念后,就不需要那么多的低层次序列和控制序列。
具身大模型遇到的挑战是如何将其分解为若干个较小的大模型,并组织起来。以人类学习新事物为例,当我们第一次尝试新事物时,需要花费大量时间去思考和学习基础知识,但随着经验的积累,这些知识和技能逐渐变得自然而然。这说明既需要规模,也需要在反复实践后融合规模。
王鹤:如何实现人与智能机器人的共融共生?
眭亚楠:我们已经与机器系统实现了共融共生,例如手机已经成为我们生活中不可或缺的部分。但人机交互依然分为物理层面的硬交互和虚拟交互。虚拟交互的设备已经非常普及,而物理世界中的硬交互,特别是与人产生直接物理接触的机器人,仍然面临很大挑战。
人形机器人在现实应用中需要解决的一个问题是平衡。虽然瘫痪的人可以借助力量站起来,但保持平衡仍然是一个难题。这个问题同样存在于机器人身上,特别是双足机器人系统的传感器和控制器与健康人相比仍有很大差距。与我们实现共融共生的机器人不一定是双足的。例如许多轮式机器人已经在酒店等场所与人实现了较好的交互。
卢宗青:在谈论人与机器人共融共生之前,机器人需要具备智能。有些问题听起来有些可怕,但我们还没有达到那个阶段。
目前来看,只要机器人能够为人类提供服务,帮助人类更好地生活,不管是什么形状的机器人都是可以接受的。
观众A:传统多模态和现在的大模型下多模态之间有什么区别?
蒋树强:在之前的研究中,多模态主要涉及图像、文本和视频等不同类型的数据,将它们联合学习,以实现多模态信息的融合。现在的多模态大模型主要采用 Transformer 架构,试图建立视觉和语言之间的对齐关系。
实现这种对齐仍然非常具有挑战性。尽管在语言层面上实现词与词之间的对齐可能相对容易,但要在图像或视频中实现对齐则更为困难。
王鹤:具身多模态大模型与一般多模态大模型之间有本质区别。具身多模态大模型植根于具体的机器人形态,因此会受到形态特点的影响。例如,机器人可以执行什么任务?它有几条胳膊、几条腿?以及它如何进行运动和与环境交互。
观众B:让一个大型语言模型学习金融数据并进行操作,与使用具身代理的方法有何区别?
卢宗青:大型语言模型可能并没有操作记录的数据,如果数据中包含操作记录(如交易记录),那么可能是可行的。否则,这种方法可能不太行,具体情况取决于数据本身。
金融领域的任务有时涉及交易,有时涉及投资组合管理。对于宏观任务,大型语言模型可以作为规划器;而对于涉及高频交易的微观任务,可能使用强化学习会更好。
王鹤:在金融领域谈论具身代理可能不太合适,因为金融操作属于抽象操作。强化学习和具身思想可以帮助金融交易,因为它们都涉及到决策。可以尝试建立一个交易模拟器,先在模拟器中学习交易策略,再将策略应用到真实市场,并进行实际适应。