采访 | 德新
编辑 | Dude
在智能汽车的赛道里,特斯拉是独树一帜的旗手,几乎引领了大部分技术变革的风潮。最近一次,是特斯拉掀起的「端到端」热潮。抛弃规则,拥抱数据,在这一年内迅速成为业界共识。
只是在技术落地的过程中,光有共识是不够的,人们需要一条足够清晰、安全、可解释的路径。
在这场落地竞赛中,不同的玩家都给出自己的解法。在这场新的技术竞赛里,蔚小理们是最积极的一波,各个车企都处在于摸着石头过河的探索状态。但可以肯定的是,端到端是大家都认可的方向,但是落地确实是一场事关算力、数据的综合角力。
在端到端牌桌上的,并非只有车企阵营,以商汤绝影、Momenta为代表的供应商,正在成为一股新的技术力量,推动着中国自动驾驶走向ChatGPT时刻。
在今年的WAIC上,商汤绝影拿出了可解释、可交互的自动驾驶大模型DriveAGI,HiEV在前不久采访了商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚。
在人工智能1.0时代一骑绝尘,开辟了AI人脸应用时代的巨头,在2.0时代会交出什么答卷?该如何为端到端的智驾新范式,炼就高增长性的模型?
以下是HiEV 对话商汤科技联合创始人、首席科学家、商汤绝影智能汽车事业群总裁王晓刚的内容,HiEV做了不改变原意的编辑:
一、通用泛化性,检验端到端智驾的黄金标准
HiEV:绝影的端到端智驾做到什么阶段,如何评价现阶段的表现?
王晓刚:目前,我们在上海的部分区域,例如临港、新洲周围的区域整体表现还是比较稳定,规则能够处理的问题,端到端也能够应对,我们已经打通了技术路线。
另外,在完全不依赖地图的复杂场景下,端到端能够突破原来规则设计里面做不到事情。比如在没有清晰车道线的小路、或者是比较多的遮挡的情况下,恰当地进行应急的避让。当出现异形车,突如其来的行人、机动车、电动车,端到端能够恰当地进行和其他车辆进行交互和避让。
HiEV:在只用端到端一个模型的情况下,只要这个区域的数据足够多,就能逐步解决该区域遇到的问题吗?
王晓刚:对,但我们的模型具备泛化的能力。涉及更大规模的数据泛化,更多的还是需要跟车厂进行配合。所以,现阶段我们首先要把方案做得足够好,跟车厂配合在更多的城市去推广。
在这个过程当中,实际上追求的还是模型本身的通用能力,而并非是某个区域或者是选定区域泛化性。
HiEV:现在系统的迭代速度、迭代能力怎么样?
王晓刚:在迭代的过程中,还要进行模型的不同Pipeline(研发流水线),以及各方面的尝试。在最开始的阶段,模型并不是非常成熟的状态,但是只需要到大量跑数据阶段,模型会迭代变得比较快。
今天我们能做的还是抠细节,比如数据清理、数据标注,通过各种方式能够让模型达到一个比较好、比较稳定的状态。
HiEV:这个阶段的工作,是比较偏重于数据这一端,还是偏重模型设计这一端?
王晓刚:这两个部分都会涉及到,比如今天的网络结构,跟一年前比,已经发生了非常大的变化。
在最开始的阶段,我们是用最简单的端到端的方式——由若干个模块组成,每个模块就有一个网络去拟合它,然后将这些网络串起来,这就是最开始的端到端,但这不是一个大模型的端到端。
这种模型还是一系列的小模型串联起来,今天很多人把预测、决策和规划用网络来进行替代,这个网络的规模会比感知网络还要小很多。
今天ChatGPT做出来的模型,根本不是按照意图、具体任务来预测任务,它是通过预测下一个token方式来训练出来模型,同时,它要通过理解很复杂的任务,才能够把下一个token预测好。
今天做自动驾驶也是一样的,通过输入的大量的视频,预测的是未来规划的轨迹,这本身就是一件很难的事情。但这种方式,能够让模型具有更好的、通用化的能力。
所以大家走的道路其实本质上差别很大,如果沿用以前数据标注、通过打标签的方式辅助,模型是比较容易训练的,但是它的通用能力就会差很多。
HiEV:现在商汤跑的端到端的模型已经比原来模块化方式设计的模型大很多,但是肯定离最终的ChatGPT时刻还是会有比较大的差距,我们应该要怎么理解这个差距?
王晓刚:在大模型里面,有尺度定律Scaling Law。
针对小规模的模型,包括数据,结构、Pipeline,大模型进行预测。等这个模型的体量要再大一个数量级、两个数量级的时候,表现会完全不同。所以今天我们做很多的尝试,在一个相对小一点的规模上,把整个模型的scale再提上去,这时候能够看到更大量的更通用的能力。
有了这些能力以后,再把这个模型变小,模型才能够有一个比较好的表现。
这里面不光涉及到模型的体量的问题,很重要的就是对它训练的方式。
我们在2022年,就做过32亿参数的感知模型,虽然这种模型的网络规模很大的,但是它的训练方式还是以标注的方式来做,就很容易达到模型的上限。因为大量的数据都是经过标注的数据,但最终起到的效果是比较小的。
HiEV:因为它包含的信息是比较少、比较简单的?
王晓刚:它的任务就是识别,虽然增加了很多数据,模型量也很大,但是如果出现很难的东西、未见过的东西,模型还是识别不了。
HiEV:所以我们需要丰富它数据的维度?
王晓刚:跟训练的方式有关系。像ChatGPT这种模型,它之所以能够涌现出新的通用化的能力,因为它的训练的方式是预测下一个token。
这就是为什么今天大家觉得训练的时候就把原来这几个网络串一串,或者说加大原来的感知网络的规模就是大模型。但其实不是,因为这种训练的方式是不对的。
之前这些路线我们也都尝试过,比如我们在2022年做的感知大模型,可以做自动标注,还可以预标注。但这种模型跟今天能理解很多复杂场景的模型,能力根本不在一个层次上。
HiEV : 那这个模型设计目的是什么呢?
王晓刚:比如说很多时候,不好定义的场景。
例如前面你看到了一个小电瓶车,正常操作是把电瓶车框出来进行避让,但这个车的后面拉了一个竹竿,这就跟之前定义的不在一个类别里面。遇到这种情况,会绕的更远一些。它是一个异形的车辆。
HiEV: 所以现在怎么验证、评估它未来的泛化性?
王晓刚:我们在各个地方的不同区域进行试验,这中间当大模型遇到新的场景,所表现出来的行为是否合理。
另外,我们基于现有模型再去延伸出来的多模态,后面还可以通过SFT(Supervised Fine-Tuning有监督微调)这种方式点亮新的能力,识别出各种场景,做各种复杂的分析。
这个时候就显现出来,之前专门用来让它去做自动驾驶单一目标任务,所不具备的能力。
二、大模型时代,车企 - Tier 1酝酿新合作模式
HiEV:WAIC大会上商汤也公布了一些座舱上的进程。智驾大模型的落地时间是怎样的?
王晓刚:今年是一个非常重要的时间点。一系列支持大模型的芯片,Thor 、MTK会面世,到明年会有各种量产的车型上来。我们整个节奏还都是比较紧张的。
智驾的端到端大模型逐渐成熟量产,需要一个过程。一开始,很难做到完全只依赖模型本身,不依赖任何的规则,因为量产交付面对需要对各种特定的任务和场景。但是大模型随着数据量的增长和积累,规则部分会变得越来越少,模型会处于一个爆发的状态。
座舱方面,现在我们有好几个模型已经进入量产状态。
像小米SU7的对话能力,就是应用了我们的大模型、多模态的能力;还有在智己、吉利旗下品牌翼真上,也应用了文生图的能力;在极氪上,则是应用了商汤全套的大模型能力,但这些都是云端的大模型。
明年,我们会把现有的模型变成终端的大模型,另外基于现有的大模型开发更好的、更具有用户价值体验的应用。今年有几个客户,都跟我们在这方面形成战略合作。
商汤绝影具备云侧、端侧和端云结合等各种大模型部署的能力。明年,一批采用端云结合技术的车舱大模型将正式上车。
HiEV:很多主流观点认为座舱跟智驾基本上是没有关联,现在商汤所做的座舱大模型对智驾会有帮助吗?
王晓刚:现在多模态模型就已经实现了关联性了。因为驾驶一旦有了多模态,其实就已经具备了交互的属性。
今天我们有几个方面都体现了这种关联性,一方面是人机交互,另一方面在呈现和显示我们在座舱里面,对智驾的场景里3D城市的内容的显示,包括我们对城市的探索在这方面,智能座舱和智能驾驶会有一个更深入的结合。
HiEV:从智能座舱的功能来讲,由现有的转向更加丰富或者多模态的功能,是非常顺理成章。那智能驾驶这一块,你们接下来规划是什么?
王晓刚:对于商汤来说,目前比较重要的是要跟车厂形成一个新的合作模式。所以是根据技术发展的趋势,来改变合作模式和商业模式。
因为现在端到端,更多依赖的是后台的算力、能力、数据的平台。前端可能相对简单,这时候如何跟车厂进行合作,很多时候就不是交付输出标品了。
最终,能够展现出智驾的产品本身特色,差异化的地方,更多是在于如何获取数据、如何生产、筛选数据。因此,最重要的就是要让车厂能够参与到这里面来。
让车企更了解商汤端到端平台的流程,展现更多的C端的数据,更能够真正理解这里面跟以前的模式不一样的地方。特斯拉就拥有非常强大的基础AI能力,同时它又会拿到 C端的独特的有价值的数据,能够把大模型的新的能力释放出来,形成新的产品形态。
HiEV:那车企能够参照特斯拉的形式来做一套端到端方案吗?
王晓刚:首先,今天绝大多数车厂,很难具备像特斯拉的AI能力。
特斯拉有10万块GPU,今天绝大多数的车厂最多就是几百块,在算力基础上就有一定的差距。
另一个原有的合作模式是,车厂将他认为有价值且重要的问题进行反馈,因此能够获取的数据也不是第一手的数据。供应商可以去修复这些问题,但是很难超越现有的体验,形成一个提升。
我觉得无论驾驶还是座舱,都存在这些问题。如要解决这个问题,必须是两边都有更加深入的合作,我们也能够更多的接触到终端消费者的数据所产生的价值。
HiEV:有一种情况,比如说现在车企其实已经有很多的量产项目,然后从现有的量产项目就会产生很多的数据,有没有可能通过那样的方式来进行?
王晓刚:但这个取决于对模型的理解,对数据的理解。因为今天我们拿到的数据,是从车企反馈回来的数据,那是他认为需要解决的问题,但实际上是被过滤了一层。
比如有时候,路上遇到了某一个障碍物,造成了体验上的问题,所以我们会修复一些bug,这些都是可以从车企的量产项目里面完成的,但是要再去挖掘模型新的能力,这些就不是在现有的流程体系里面。
HiEV:现在车企跟供应商共享的数据也是定义好的。
王晓刚:对,车企会过滤,并不会全部数据都给我们,车企把最重要的case、最重要的问题列出来,在这个基础上才会进行数据共享。
HiEV:从能力增长的曲线来看,你们觉得现在在一个什么状态?主机厂肯定需要看到端到端的能力或者增长性潜力,才会有所行动,你们看增长曲线会在什么时间点?
王晓刚:我觉得今天我们看到的端到端,应该还是在ChatGPT的前夕。
但这个方向跟路线是清晰的,如果自动驾驶要到达ChatGPT时刻,得走一条正确的路。如果还是走原来的路,永远也到不了ChatGPT时刻。
依靠原有的感知模型,我再怎么标它,它还是原来那个样子。所以我觉得我们实际上也是修正了原来对技术路线的认知,正在接近自动驾驶的ChatGPT时刻。
大家能够看到,这个模型不仅解决了原来的自动驾驶里出现的一些问题,而且还能够展现出很多原来没有想到的能力。
HiEV:这样的合作方式,对车厂的心态也是蛮挑战的。
王晓刚:这是我们必须要走的一条路。OpenAI用的数据都是互联网上的数据,公开的数据去做训练。
在垂直行业里,我们走得更深。OpenAI不会去做自动驾驶,不会在这里走得很深。我们拿到了有价值的自动驾驶数据,对它进行足够深入的分析。
在这套 AI的研发框架下,结合我们对数据的理解,那才能够实现超越。否则,看不到任何超越 OpenAI的希望。
必须在垂直行业里走入的足够深,能够拿到足够丰富的数据跟应用的场景,有更加足够深入的结合。
AGI时代合作模式,不光是过去主机厂采购、供应商供货,绝影愿意白盒交付,帮车企理解和掌握大模型技术。只有这样,大家才能更加积极地共同开发,加速迭代,打造真正的、以用户为中心的AI大模型。
另一方面,作为战略合作伙伴,绝影和主机厂之间也要实现数据共享。主机厂把不涉及隐私的数据给到绝影,训练出车载原生的大模型,这是共赢的。
HiEV:在这种状态下,因为大模型对整个数据的要求非常高,主机厂会不会更愿意去自研?
王晓刚:这很难。对于车企来说,是一个性价比的问题。
首先,需要基础设施,能够把1万块GPU连在一起进行模型训练。这件事,商汤从2018、2019年开始到现在都做了五六年了,我们有上百亿的投入,做了很多这种尝试,就几十亿这种规模的参数模型就做了几百次,它其实都是时间、钱堆出来的。
车厂做这件事情,一个是时间需要很长,另外投入很大。
我们做大模型不是为某一个车厂做,甚至不只是为汽车行业做的。我们是基于商汤的平台体系,跨行业的模型可以进行跨行业应用。我们的能耗、数据的生产都是跨行业的。因此,研发成本是由很多的行业、无数的企业来分摊的。
在这个点上来说,让某一个车厂去做这件事情,性价比差很多。
另外,时间窗口也不允许了。