点击关注

文 | 姚悦

今年最早发布的那批大模型，现在怎么样了？

近期，商汤科技宣布“商汤日日新SenseNova”大模型体系完成了第一次重大迭代。这距离其发布过去3个月时间。

“每天不断接到用户调用，收到建议反馈后，每隔几天都会进行快速更新。同时，也会有长远规划，每隔一个月或几个月，大模型要有质变，上一个台阶。”商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示，大模型体系确实在“日日新”。

“商汤日日新SenseNova”各大模型都已经完成不同程度升级。商量SenseChat升级到2.0版本，上下文长度从2k（2048个字）提升到了32k（32768个字），意味着能够更加充分理解上下文。在知识信息准确性、逻辑判断能力、创作性等方面都有了更多提升。

而目标“赋能各行各业”，商汤科技大模型的多模态能力也不断在金融、医疗，以及智能汽车领域等领域场景已经实现或正在探索落地。

特别是在近期的CVPR（国际计算机视觉与模式识别会议）2023中，商汤科技及联合实验室提出业内首个感知决策一体化的自动驾驶通用大模型——UniAD，多项关键技术指标上超越了SOTA（当前最先进技术）。“大模型一定会对下一代自动驾驶产生深刻影响。”王晓刚表示。

不过，商汤科技大模型体系迭代的同时，外界环境亦在剧变。

经历半年多的“大炼模”，国内大模型从“硬桥硬马”的参数竞赛，已经进入到“真刀真枪”解决问题的下半场阶段，竞争愈加白热化。甚至有资本市场人士认为，这轮“百模大战”，国内AI大模型最终胜出的不超过2%，意味着，剩下98%的国内大模型都会消失在竞争中。

激烈的竞争中，如何才能跻身“关键少数”？近期，光锥智能对话商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚，了解商汤科技当前阶段关于大模型的经验、思考和规划。

核心观点：

1、以前每个领域都有自己的模型，每个行业每个方向有自己的研发团队，大家协同性不需要那么高，但今天必须是高度协同的状态，一定需要对研发体系进行重塑。

2、大模型一定会对下一代自动驾驶产生深刻影响。

3、如何让视觉信息和语言信息有同样的特征表达，进行更好的融合，同时把图像里面丰富的语义内涵去挖掘出来，是发展多模态的一大挑战。

4、保证大模型的优势需要做到三点：一是软硬件基础设施，二是深入到各个行业高速运转大模型研发体系，三是不断创新目标和方式。

（商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚）

以下为对话实录：

“今天必须高度协同，就需要重塑研发体系”

Q：商汤科技最新推出的“商量2.0”新增了知识库融合接口，有什么具体作用？

A：一些客户有专属领域知识需求，如果没有外挂知识库融合，就需要把客户的数据拿来，再去训练模型，一方面成本比较高，涉及到整个模型的迭代；另一方面，安全性不能得到保障。

通过知识库的融合，不需要进入到模型本身，就可以比较简单、方便地把领域知识总结在一起，解决大模型的“幻觉”问题。

Q：商汤科技的AI大装置SenseCore如何同步升级？

A：在过去几个月，大装置也都处于非常紧张的迭代状态，要保证有更大规模的卡连接，也要保证卡间、机间通讯支持稳定运行。

同时，大装置也需要针对不同类型的应用，不同类型模型进行优化。比如做秒画，要涉及到生成非常高清的高质量图像，就涉及到大量数据传输，对带宽要求就非常高，这和自然语言模型就很不一样。所以随着模型演进，大装置本身系统能力也在提升。此外，在部署端也在做一些工作。

Q：关于商汤AI大装置SenseCore，是不是可以理解为是一个提供基础设施的基站，团队在整个商汤内部是类似于中台的形式？

A：可以把大装置理解成一个基础设施，同样，各个大模型的团队，也是把这个模型去提供给各个行业的行业线，从某种意义上，也是中台。

所以将来，商汤一定需要对研发体系进行重塑，能够去充分利用好这些公共资源，把各个行业的信息汇聚导入到大模型还有中台，建立起基础设施。

这就和以前人工智能的发展很不一样，以前每个领域都有自己的模型，每个行业每个方向有自己的研发团队，大家协同性就不需要那么高，但今天必须是高度协同的状态。

Q：商汤科技的“日日新”现在是以什么样的速度更新的？

A：每天都不断接到用户调用，很多重点客户很有积极性，会比较全方位地测试和评估，也会给出方向性的建议。所以收到这些反馈以后，（大模型）每隔几天都会进行快速更新。

同时，也有长期规划，每隔一个月或几个月，模型在有些地方要有质变。比如，“商量”模型，4月10号发布的模型，上下文的长度是2k，现在商量2.0能做到32k，就能有非常强的能力去理解上下文。

Q：客户反馈跟研发迭代之间的流程具体是什么样的，效果如何？

A：客户很多，大模型团队人数有限，不可能让大模型团队直接去面对这么多客户。所以要动员整个公司的产品和研发力量，把大模型开放给其他各个研发团队。

这些研发团队跟客户对接过程中，能够去探索怎么样调整模型，更好满足各个行业的需求。一旦根据需求找到对应调试方式，就会对基座模型团队反馈，基座模型团队再进行模型更新。

不过，各个研发团队并不是立刻把客户的需求反馈，而是开发一段时间，对用户的需求进行消化、整理，然后做二次创新，得到一些比较确定的结论，再给到基座模型团队。

这样做，最大程度地节省了基座模型团队的时间和资源，同时能够动员整个公司的研发和产品的资源去对接客户。

“大模型一定会对下一代自动驾驶产生深刻影响”

Q：有观点认为“大模型永远是现实世界的子集”，商汤如何看待这个说法。基于这个说法，智能驾驶辅助是否真的可以通过大模型训练来实现无人驾驶的终极目标？

A：人的认知本身也是现实世界的一个子集，而且是在不断演进的过程当中。如果说“大模型是现实世界的子集”也没错。但最核心的，还是要看到大模型现在无论对科技进步，还有行业发展都带来了深刻变化。而且人工智能发展也是永无止境的，也不是单一维度，可能在未来结合其他维度有突破，不断有新的成果产生。

大模型一定会对下一代自动驾驶产生比较深刻影响，大模型的特点是不断去解锁人类之前不能完成的新功能和新任务。

现在自动驾驶不够智能，有几方面原因，首先，车上各种传感器种类非常多，不同类型的传感器融合具有挑战性；其次，自动驾驶系统和人工智能系统，最核心的是做决策和判断的模块，但目前这些模块还是基于规则。

在未来，大模型会给自动驾驶带来三个重要变化：

第一个，核心决策模块，可以用语言模型去替代以往比较简单的规则；

第二，决策模块变得非常强大，可以更好地融合从感知模块输出的各种信息，提升整体安全性和驾驶体验。

例如，车上感知、决策，规划、控制众多模块，原来都是割裂来看，分别去开发，然后通过手动的方式进行链接。但商汤最近发布的首个端到端的自动驾驶通用大模型——UniAD，就是以最终的驾驶体验为目标，让这些模块实现端到端优化，可以极大提升开发效率。

第三，自动驾驶还有一大挑战，就是AI模型可执行、可解释性不高。但现在大模型，尤其是语言模型，不单是输出结果，还可以输出中间的逻辑推理过程来解释这原因。所以，未来的自动驾驶系统，会有更好的可解释性，出现问题的时候，可以更好地去诊断，更好地辅助提升各方面的能力。

Q：UniAD有没有应用到实际的量产，或者走向一个应用阶段，有没有可以立刻分享的？

A：面向量产还有一定的周期，但现在已经开始，基于我们以往在自动驾驶领域的量产经验，继续过去的一些方法——BEV、Transfomer，以及其它智驾系统，会发现一些非常难解决的例子，针对这些例子现在用UniAD的框架去进行测试，就会看到有比较显著的提升。

Q：在智能驾驶方面，会不会在大模型上有更多的探索？

A：大模型的投入一定是持续的。大模型能够让商汤找到核心价值所在，未来也会给客车企业开放接口，在上面做二次开发创新。

“往通用视觉方向努力”

Q：商汤已经推出多种类别的大模型，在战略部署上未来是不是会有一些侧重点，是会偏向视觉语言，还是多模态的发展？

A：是偏向多模态，AI系统一定能够更好把握各种多模态的信息，现实生活中遇到很多应用场景，自动驾驶还有机器人等等，都会运用到多模态。

Q：“书生”系列的统一通用视觉任务框架，是不是可以理解为就是商汤在追求“视觉版的ChatGPT”或者是“视觉版的AGI”？

A：是往通用视觉这个方向努力，3月份发布的“书生2.5”，现在也正式做了比较大的升级，推出“书生多模态”的模型。这里面统一了自然语言指令，可以定义各种开放式任务，像之前视觉任务都是预定义任务，现在做延申以后，有非常开放的350万语义标签，能够更好地覆盖开放世界里面各种类别和概念。

举个例子，出国的话，如果国外菜单看不懂，就可以拍一张照片，大模型能介绍菜单有什么，还会给一些建议，你可以提要求，想吃荤的还是素的，预算多少，它就会给你一些组合建议等等。

所以，多模态能够帮助我们与现实世界有更好的交互，这也是商汤致力于这一方向的原因，希望在不断探索与推进的过程中，给人类带来新的价值。

Q：研究语言大模型方面的思路和路径和传统NLP会有哪些差异，大模型的思路对于商汤研究视觉或者通用视觉智能会有什么启发？

A：现在研究自然语言，和以前研究思路很不一样。过去几十年是基于语法的规则来产生语义、语法的分析书等等，现在都是基于大模型，基于Transformer网络架构。

商汤从2019年开始从事大模型方面的研究，当时视觉就走的（大模型）这条路线。在Transformer领域里，商汤本身也有比较深的研究，在自动驾驶里面提出的BEV也是行业里面影响比较大的“老架构”。

当商汤从2021年开始从事自然语言研究的时候，这方面是有比较明显的优势，再往多模态方向发展的时候，语言视觉开始有更加深度融合，就体现出比较强的这方面的积累和能力。

Q：商汤是从视觉大模型做起，现在做到多模态大模型有什么挑战？

A：在开发大模型过程中，怎么能够让视觉信息和语言信息有同样的特征表达，有很好的融合，例如，一张图能够迎合1000多个词，怎么能够把图像里面非常丰富的语义的内涵去挖掘出来，是开发（多模态）大模型过程中面临的挑战。

此外，要想做好多模态，视觉还有语言，这些模型都需要比较强。要能够更好地运用多模态，还需要深入了解各行业。因为有一些多模态的数据，例如自动驾驶、机器人等领域的视觉任务数据，现阶段在互联网上是没有的。

如何在“百模大战”中保持优势？

Q：当前“百模大战”态势中，商汤“日日新”大模型体系如何在这种激烈的竞争中保持优势？

A：首先，商汤“日日新”大模型有一个比较长的历史积累，从2019年开始，我们就从事大模型方面的研究，也比较早建立大装置软硬件的基础设施。第二，需要针对大模型给行业带来的变化，重塑研发体系。第三，不要一直去追随国外的成果，而是要基于大模型在应用上的落地，有自己的创新性。

Q：商汤在创新方面具体有哪些成果？

A：今年6月，商汤的智能决策在《我的世界》游戏上面取得了重要突破。在过去几年，包括OpenAI、DeepMind都花了大量的精力在这个方向上，基于强化学习，完成开放世界里面的任务。它们过去几年一共解决了78个任务，而商汤融合语言模型去做，能够解决全部的262个任务。

决策这个方向的市场很广，基于大模型，未来可以用到机器人、自动驾驶等各领域。

此外，“书生”多模态大模型也是一大创新。以往无论是图像视频、视觉任务，有检测分割分类等等，这些都是过去几十年定义好的，但是有了新任务时候都不太可以用语言描述新的任务。像Meta能够去做任意物体的分割，今天商汤做的这些事情要远远超过他们的能力，可以通过自然语言去定义新的视觉任务，可以及时去给出新的任务结果输出。

欢迎关注“光锥智能”，获取更多前沿科技知识！