阅读了两篇有关具身智能的文章,有好多话语,挺有趣,做一些摘录。
一篇是:腾讯研究院的《具身智能的10个真问题|3万字圆桌实录》(链接:https://mp.weixin.qq.com/s/peIi0YOJGKFV3fpLURDyyQ)
另一篇是:《具身智能构型之争:人形、灵巧手、双足,谁是最终 C 位?》(https://mp.weixin.qq.com/s/OwyywG0fm-c4rt4wKoLm9Q)
具身智能的几个部分
具身智能的几个关键要素,底层是本体(就是对应的身体)和数据,上面的能力层对应与人类的大脑和小脑。
现在的具身智能和以前的具身智能之间最大的区别是大脑和身体的强绑定。
具身智能分为不同的系统吗?还是说都是混为一体的?有所谓的大脑小脑吗?对于这个问题,人类和动物的有些行为是不需要语言的,但仍需要一个有智力的东西去操控身体。这一部分可以认为是算作小脑的。而且小脑有一个很大的特点,它会和物理世界强关联,比如人的肌肉记忆,人在看到网球飞过来的时候,可能会突然躲它或者打它一下,我根本不需要用文字分析,不用告诉ChatGPT网球飞到哪儿了,让它帮我计算速度,而是靠本能反应,肌肉直接就反应过来了,从看到信息到肌肉执行,一个循环可能零点几秒就能完全完成,这就是小脑的功能,执行很快,和物理世界连接紧密,它不需要抽象的语言文字功能。在大模型出来之前,这个能力已经有一些具备了。比如说咱们的仿真机器狗,您可以看波士顿动力,他们的机器狗不是会走路吗?它走路的那一套其实并没有大模型的加持,甚至连强化学习都没有用,应该是用一个叫MPC的算法,所谓的MPC就是model predictive control,model实际上指的是一个写死的程序。但是更上层的和我们看起来更像是所谓智慧的东西,靠它们就不行了,它们类似于一个动物,如果想让它变得像人一样强大还需要大脑的加持。
人形机器人领域可划分为三大类别:轮式机器人,以轮式驱动为核心,配备协作机器人手臂和灵巧手,突出触觉传感与手部操作能力,同时具备高效移动性;足式机器人,专注于腿部运动性能,手臂主要承担平衡功能;全能型机器人,集成双足、双臂、双手及多种感知系统,搭载 AI 技术,旨在开放式环境中执行多样化任务,展现了高度的适应性和功能性。
全能型机器人的探索难度高、落地速度慢,大部分具身智能企业的创业路径其实可以基于轮式和足式做出区分。
人形机器人这一构型可被具体拆解为核心是操作能力(manipulation)的「上半身」与重点在移动能力(locomotion)的「下半身」。
国内在机器人腿部和足部的研究曾经是一个焦点,部分是因为受到了波士顿动力等公司的影响。他们的机器人虽然在展示度上很高,但实际应用中,仅仅能跑能走是不够的。相比之下,上肢的操作技能更为关键,尤其是在学习和执行操作任务的时候。
大模型涌现的智能让大家看到了通用机器人诞生与落地的曙光,其中最明显的表现主要聚焦于对操作能力的重视。以工业场景为例,目前较大的症结点在于,让智能化水平适配生产力的要求。
当上肢逐渐成为具身智能的焦点,再细分一下,决定上半身操作能力的,其实是对末端执行器的选择。
是否应该钻研五指灵巧手,成为了摆在轮式玩家面前的第二个分岔路。
之所以会开展五指灵巧手的研发,是因为五指灵巧手具有更高的灵活性与功能性,能够满足在更加复杂场景中的使用需求,是未来末端执行器的技术发展趋势。有趣的是,并非所有上半身玩家都赞同对五指灵巧手的投入。一位专注双臂服务机器人的业者认为,学术过分关注灵巧手的研究是机器人领域的一个误区,二指夹爪已能完成大多数任务。
在当前技术条件下,双足机器人在实用性、稳定性和商业价值方面不如轮式底盘,且开发成本高、周期长。双足玩家们则选择了另一个路径,将移动能力视为人形机器人的基础。
在具身智能时代,至少在商业落地层面,双足人形机器人并非那个最高效的选择。毕竟,能完成实际任务,已成为了现在对通用机器人的首要期待。
关于实现路径
一个是训练问题,可以简单地认为一个是监督,一个是无监督。
无监督的那种类似于强化学习,就是把机器人的脑子和它身体的仿真模型扔到一个假的空间里,在虚拟空间里让它摔倒千万次,它总能找到一个策略,那个策略会使它正常地站起来,走起来甚至跑起来。一旦达到这个条件,我们再把那一段和它脑子里生成控制策略的那一段代码,直接下载到一个真正的狗里头,它就跑起来了。这个目前看来,对用小脑执行的任务非常有效。一般来说,在模拟器里去尝试的叫强化学习,强化学习就像巴普洛夫养狗一样,一按铃给它吃的,以后一按铃它就过来了,它是通过这样的方式。这个的好处是你不需要具体教它怎么做这件事,只要告诉它孰好孰坏,它就会不停地尝试,找到能让你满意的那个做法,这是好处。但坏处是什么?它的效率其实是比较低的,因为它要自己通过试错找到什么是正确的,肯定比别人直接告诉它正确道路要慢得多,所以它数据效率低,那怎么办?大家说那一定只能放在模拟器里,至少在目前这个阶段,放在模拟器里是可以的,因为模拟器反正是要计算,计算一万遍一千万遍都没关系,只要你电脑足够多,GPU足够多。所以一般来说,从身体的肢体技术来讲,挑战一些上限的东西,比如我要打网球,投篮,我要搞得特别好,特别精准,包括AlphaGo其实是一种非具身的技术,它要突破人类上限,要试一千万遍,是非常必要的。
另一方面,让它去做用大脑执行的任务还差蛮多,所以用大脑执行的任务更多是用遥操作的方式。我们给它生成很多的标注数据,在这些标注数据的基础上解决问题会简单一点。发散一下讲,为什么会造成这两种区别?因为用小脑控制的机器狗在到处跑的时候面对的是一个很干净的物理世界。物理世界大家都知道,比如说整个现实世界的规律也许就是一个薛定谔方程,就那几条,在虚拟环境里也是一样,就是几个力学方程,它复杂的地方是它自由度多,构型比较变幻莫测。在这个基础上,它只面对这些很简单的公式演绎出来的世界,最好是用这种让它无监督地自己学习,无师自通,就跟小孩学走路一样,你也不用去手把手教它,先左脚,再右脚,它连话都听不懂,你就说小朋友过来,让它多试几次,它就试出来了,就是这样一个道理。但他进入学校后面对的都是很复杂的带语义的各种各样的知识,他需要大量的符号,需要符号之间的各种转换,各种Mapping,各种变换。这一部分就是因为它的数据量实在太大了,您如果说有一台超强的计算机,从宇宙大爆炸开始用基本规律算,确实能把这些都算出来,但是有这么强的计算机吗?根本不存在。所以最后我们需要对这个体系进行一个截断,截断的结果就是在它的截断边界上形成了一大堆的数据,这一堆数据都要人帮忙或者说是它的一个Teacher去帮忙把这些数据归集出来,再教给它,这就是我们所谓的遥操作的那些措施,现在有一个提法叫Data-Efficiency,就是说以前要学一万遍才能学会的东西,现在逐渐只需要几十遍、一百遍,甚至有厉害的叫Few shots Learning,可能教几遍就会了。所以这种技术确实可能是使这一波具身智能持续发扬光大,变得更智能的一个重要因素,因为在物理世界里不像在虚拟世界里一样,你跑一万遍,也就是电脑多开几个核,Run一下,要实实在在地在实验场里头要建这么多跑道,让它跑一万遍还是相当贵的,所以从数据中学习的效率是很重要的,但它确实需要人类去教它,去标注。 很多带语音理解的,身体上没有那么难的事情,往往可能采用真实数据对它进行一个示教,给它十个、一百个、一千个,大概这个量级的示教,它就能学到很多事情,而且也能有一些泛化的效果。这是两条路的一个技术上的区别。
至于未来走哪条路,其实一定是混合的,具身智能一定是所有的数据混合的,我们要从互联网数据去学大模型,要从仿真数据里去学精巧的技术动作,要从示教数据里学具体的任务怎么做,要根据它跟世界的继续的反馈,用那部分跟真实世界的互动进一步提升它的智能,这几层的数据都是要混合在一起的。
从普及上来讲的话,即便是到未来,肯定也是身体比大脑先来。因为即便大脑现在进化得这么快,但事实上它离我们的物理世界还是有一定距离的,GPT像一个缸中之脑一样,不停地接受各种中文字符,它输出的也是中文字符。但是事实上,你看人的大脑,它可不是这个样子,他一生下来,就闻各种味道,摸各种东西,看各种各样的东西,身体的各种感觉也先来,所以实际上具身智能的Body是大脑到来的一个先决条件。实际上,我们的小脑发展相对较快。一旦小脑的问题得到解决,在一定的泛化能力要求范围内,比如专注于洗碗或晾衣服等任务,如果我们能突破这些小的难点,那么我们就能利用相对简单的人工智能来完成许多工作。如果这种应用在商业上是可行的,并且我们进入这个领域后继续利用数据驱动的方式积累大量数据,直到所有可用的数据都被充分利用,那么拥有更高级别大脑的人工智能或许就会随之出现。
这一波的具身智能可能和之前非常不一样,因为这一波实际上有了AI的强加持。而且从以往的经验来看,很早的时候,机器人的执行器其实已经有很强的能力了。比如说前段时间斯坦福他们做的Aloha小机器人,它的执行器其实就是两个小小的夹爪,但你会发现它在家里面帮人撸猫、叠衣服或者是晾衣服,各种事情全都能干,它那一套装备,也就是它的执行器,可能十年前、二十年前甚至三十年前,人类已经有能力把它制造出来了。但三十年前的一台Aloha和现在的一台之间最大的区别其实是人工智能。所以有时候我们在说具身智能,在说怎样造出一个机器人的躯体,我觉得更大程度上可能是在说,我们给AI造一个它可以体验和现实世界交互的瓶体,像神仙下凡一样,直接让它进入这样一个身体。它有了这个东西以后,会用这个身体去体验更多的信息,获得更多的智能。所以这一波,实际上是两方面相辅相成,AI有多强可能具身智能就会长到多厉害,它的应用范围也就会扩展到多宽。所以如果AI是个实体的,那这一波的具身智能应该会跟它相辅相成,后面会大量纠缠在一起,应该不会再分开太多。
每一个具身智能的Body都可以以自己的身份去过完一生,采到有用的数据,这些数据也许有一天会在云端聚合起来,然后产生,到那个时候就真的有可能有AGI了。如果未来有进化史的话,我们说的绑定身体的和不绑定身体的肯定完全是两种路线,因为本来对人来讲,也是身体的结构塑造了我们的大脑和思想。
这波具身智能的核心还是在智能这块,Figure 01,One X这些公司为什么仍然能出得来,而且造成了比较大的轰动,是因为他们有了一个好的本体后,还有很强的智能的能力。这样的智能能力,就是泛化,它可以通用地解决一系列的问题,传统企业很难有这样的AI的能力。所以这两个应该是处于一种互补的状态,真正落地的时候,我们有一个好的本体之后,智能部分应该是一脑多型的,就是说我们有一个通用的大脑,它应该在各个机器人上面都可以去做这样的事情。
关于商业落地的内容
很多新事物出来,它的驱动力是不一样的,有些是技术驱动的,技术驱动的结果往往对资本方、投资人不太友好,因为咱们看不到链条后面。一般的链条是science 、engineering加上business,最后是法律法规要适配。如果是技术驱动的话,它后面可能还没想那么远,它想的是我要做出一个非常伟大的东西,改变这个世界,投资人问这东西多少钱?最后能干吗?有没有护城河?就把一堆科学家全问倒了。
比如说前一阵比较火的ChatGPT,大家觉得它是一个非常成熟的应用,可以用它来生成内容,做内容营销,写文案,制作图片。但其实真正发生的事情是什么?是你让现在最好的大模型去做一个社交媒体封面,你必须人工加智能,如果纯靠智能做出来,只能做到内容扶贫。这个我自己也做过,写小红书比较高难度的文案,盲测打分只有七八十分,所以最后很多企业家一算下来,这个应用场景好像一下子被限缩了,所以很多人问我,这个会不会替代我?我说眼下还不用太担心,因为人工智能比你贵多了。
通常认为To B比To C场景更容易实现,因为只要是涉及人员在场、人机互动的情况,它里面就有很多干扰项,不是说我成本到位了,ROI一算就可以做的,还要考虑保护这个人的感受。万一形成伤害怎么做,里面有很多非科技的因素牵扯进来,我也非常认同它最后可能会在一些具有成本效应的To B端中率先完成一些应用,而且这些To B端其实不需要特别广义的一些智能。当然,它要有视觉多模态的输入,但是它可能在很多其他的制约条件方面没有这些东西,这个其实对推动整体的具身智能是有好处的。
具身智能它这一波和之前几波的本质区别在于两个字,泛化。关注点在于做一件事情能不能通用地泛化到类似的场景和物体。所以大家很喜欢在To C的地方炫技,炫技就是说我这个泛化性好,因为咖啡壶可能不一样,厨房场景也不一样,但是落地还是落在To B,但我觉得放大镜要往前再走一步,如果在To B场景中我们看到的是传统的拧螺丝,或者是做一些重复性的东西,它就不需要具身智能,因为它不需要泛化,它就是同样的东西做一千遍一万遍。那在To B的地方到底做什么?其实我们看到了一些东西,比如说有一些地方是货到人,这些不需要,但有些仍然是人到货,比如说总装的地方,厂子里,这儿有一个平板,那儿有一个铁块,这儿有一个圈,这些东西要把它都放在一个篓子里。比如这件事目前还没有办法流水线化,只能用传统机械臂去做。它有种半开放保姆的感觉,比较简单,但是靠传统那套控制算法又做不了,或者像园区内外卖的最后一公里,其实这个园区里没有那么复杂的路况,但你要没有点智能还真做不到,很容易就卡在那了,所以我觉得可能会先落在To B但需要一定的智能程度的地方。
一般来讲是三种驱动,技术驱动,技术驱动对资本不太友好,尤其是长线的。第二种是场景驱动,场景驱动对竞争不太友好,比如说有几家具有垄断地位,别人就很难进来,他有丰富的数据。第三种是资源驱动,对地球不太友好,因为可能是线性的,大家看到成果了就往上怼。
说说场景驱动这些人,场景驱动的人不会想亿年、万年的事,可能都不会想一年的事,想的是这个季度的事,因为下个季度财报要发了。所以第一点,他比较短视。第二点,他对目前的成本是非常清楚的,而且他对成本的下降趋势也非常清楚。所以如何让这些人看到一个可预期的未来也比较重要。第三点,这些在实操中摸爬滚打的企业家特别清楚执行一个事有多难,这个是咱们实验室里的教授、学者无法体会的。你跟他说技术成熟了,他说放到家里面去需要很多有关部门批准才行,就从这点来说,他就不会去做,他会让别人先趟一摊浑水。我一直觉得很多颠覆性的,最后能够产生实际的对每个人有影响力的科技,最后阻碍它的往往不是科技本身。好比说,我觉得近几年真正意义上影响每个人的科技是精准推送赋能下的短视频,因为它完全改变了每个人信息摄入的方式。回到咱们具身智能,提到穿戴,这直接影响到他的使用习惯,咱们需要他戴,他戴上了,我们才有高频的数据汇入,但他说,我干吗要戴,又热又重,还要我花钱,你送我,我都不要。把这些数据和资金的成本全加起来看一看,科技描绘的收益非常非常高,所以现在很多投资人觉得现在听到的科技描绘的故事还没到一百分,实际落地的时候可能就剩十分了,现在的泡泡吹得还不够大,还不够吸引这些人进入。说实话,更多的是我们媒体或者科研的一些人在憧憬未来,虽然很激动人心,但真让这些人参与进来,改变自己的生产线,他们往往会置身事外。企业家只有在一个赛道挖得特别深才可能活下来,一旦挖深了,他就会想着柴米油盐。所以腾讯研究院做这个事情其实特别好,这是必须有人做的事,唤醒大家的参与感,让大家贡献数据也好,把这个东西带起来也好,这其实需要有人来做。
我们说到商业,这也是一位企业家问我的问题,他说你看这么多年科技的迭代最终指向的往往就是三个更,一个是更快,比如说汽车替代马车,一个是更便宜,就是数控机床组装,生产成本下降。第三个是更爽,比如说精准推送的短视频比看传统电视爽。这三个其实都是指向更懒,用更低的成本获得更个性化的反馈。在可预见的未来里,包括您公司做的带触觉的具身智能,它更多的是指向更爽还是更便宜呢?因为更便宜这个东西对于很多企业家投资人来说,吸引力远远低于更爽,因为更爽有一个差异化的空间,更便宜最后只能决出一个最便宜的人,他是第一,其他人规模效应差距越来越大,所以如果具身智能指向的是成本上的更便宜,最后愿意入局的往往是目前有很大成本优势的人,他会觉得这是进一步巩固优势的机会。但是如果具身智能指向是更个性化、更爽的维度,那可能可以激励更多的人进入这个赛道,那现在是更便宜还是更爽呢?
最后要实现商业的话,除了灵巧眼本身之外,它还要有一个非常好的故事,让大家去接受这个东西,就好像大家能接受钻石这块破石头代表爱情。有一句话一直在流传,大家觉得就非得要一块破石头才能结婚。只是现在大家会觉得一个橡胶脸怎么可能做到,但是Z时代的人比如香港小学生,他们对虚拟人非常能接受,他说这有什么问题吗?没什么问题,就好像我们看动画片觉得葫芦娃没问题,对他来讲,会动的葫芦娃非常正常,所以我们在谈论这个话题的时候,其实我觉得更应该倾听未来使用者的想法,他们的舒适区跟咱们很不一样。
数据的问题
为什么具身智能连给我端茶倒水这种事都没有解决。就是因为没有数据。因为机器人本身是人造的一个东西,它天然的没有数据,不像语言,我从微博上的引战帖、知乎上的回答帖,都能获得很多。但具身智能怎么办?离具身智能最近的一个解决方案可能是自动驾驶。比如特斯拉,它把这个车卖给我们,我们帮它开,我们开的过程中,它偷偷OTA,把它的数据拿回来,它有很多数据,但机器人目前还没到这个阶段,这个涉及一个数据飞轮,要有更多人用它,它采到更多数据,它的用处更大了,才能形成一个数据飞轮。
在真实世界里,我们能不能想办法采到足够多的数据呢?实际上可以,我生产一万台机器人,一万台机器人一起采没有问题。谷歌这么干过,谷歌不但是自己投入的资金大,而且它一呼百应,它喊大家一起来收集数据,全世界几十个学校、上百家单位可能就一起配合收集这么多数据。第一轮数据其实已经有一个比较好的雏形了,是一个叫X-Embodiment的数据库,它里面可能是上TB的机器人各种操作的一些数据,但目前看来,拿到这些数据似乎离我们真正要让它在泛化场景里用起来还是有一定差距的,像GPT它是学了互联网级别的一个文本数据才达到这样的效果。我在想,如果我们在不修改任何算法上的一些突破思路的情况下,不说互联网级别或者说是一个国家级别这么多的数据,哪怕较少的数据也需要加到一起才有可能去执行这个事情,正因如此,现在国内的政府机构已经开展了各种各样的这种计划。如果中国要在具身智能这个领域持续跟进甚至进入世界前列的话,数据是一个非常关键的东西,现在很多市或者国家都开始召集这样的项目,让大家在关注度高的领域采集大量的数据,所以其实不光是我们意识到了这个问题,它几乎快成为一个共识,大家在一起想办法,从各个层面去解决它。我们有丰富的应用场景,我们有众多的人口和世界上最强大的供应链,这些可能都能成为我们在竞争格局中一个关键生产要素的来源。所以如果从一个更高的维度去想,也许我们国家或者我们的某些优势产业有一个很好的发力身位,因为它有数据。这个数据如何流通、定价、交易都要统筹地去看,把它放到具身智能这么一个宏大的发展叙事空间去想这个数据怎么流转。
其他有趣的不好归类
Hinton讲的科学计算说人类软硬件不可分离,这种计算能力它的优点是,一碗米饭可以搞一天,这个算力虽然没那么强,单线程的,但它的能耗很低,缺点是没有群体智能,有寿命,爱因斯坦的脑子留下来没有任何意义,它是这种类型的。
研究智能的先驱Richard Sutton前一阵写了一篇文章叫《The Bitter Lesson》(苦痛的一刻)。他在里面说什么呢?所有我们尝试把人类智慧、符号主义这种小规模的、很聪明的精巧东西放进去的系统全都崩溃掉了,比如说我们的专家系统,比如说我们的符号主义被连接主义击败,再到现在的神经网络。什么东西推动人工智能发展呢?数据驱动,计算力上升,可规模化,这是找到的一条路。具身智能我觉得是这条路上的一个集大成者,我们之前走数据驱动这条路,其实经历了很多次打击,早年大家都不信,直到有了计算机视觉发展、NLP,发展到后面有了大模型、具身智能,大家才看到这条规模化的数据驱动道路是对的,而具身智能正是这样一个系统,把我们之前做的眼睛的部分、嘴的部分全都集成在这里。为什么现在大家还在讨论具身智能到底靠不靠谱,或者它会不会昙花一现?原因是它太难了。
具身智能里有个东西叫“莫拉维克悖论”,这东西是说,我们以为简单的事情其实是困难的,而我们以为困难的事情其实是简单的。举个例子,我刚才正好盯着地面,看到一个蚂蚁搬着食物沿着轨迹在走,其实这件事情如果放在机器人身上是非常困难的,它要寻路,要举着一个很重的东西,而且还要跟其他蚂蚁协作,但这个东西对被普遍认为智能较低的蚂蚁来说却可以做得这么好。对人也一样,我们用手去摘果子,我们的老祖先不停地在锻炼具身智能的能力,所以我们以为这东西太简单了,生下来我没练多久就会了。但是对具身智能的机器人来说很难,因为它没有几千万年的进化,它没有为了生存做这件事。所以为什么我觉得现在具身智能肯定在对的路上,但大家还在讨论它靠不靠谱呢?因为它也足够难。
我们人接收多模态的信息学习执行,实际上学习效率是非常高的,因为我们有非常强的举一反三的泛化的能力,所以像阿尔法狗,它把棋谱全学完了以后,俩阿尔法狗互相下,下出很多人类前所未有的棋谱,再去学习。但是把这套放在ChatGPT里就不管用了,因为他们发现,你让ChatGPT写出很多唐诗,再拿这些唐诗、小作文去训练它,它的泛化提高效率是非常非常低的。所以有一种说法认为,我们卡在类似于ChatGPT的智能的发展瓶颈了,也就是说人类的高质量数据不够了,或者说低成本且高质量的数据不够了。那么在具身智能领域,这块优质数据的存在或者它的数量以及学习效率目前的水平会不会成为以后触达天花板的一个瓶颈?
我们做过一个研究,人类从马车时代切换到汽车时代,路大概花了五十到一百年才跟上的,路实际上不是那样规划的,它很慢的。