对话商汤王晓刚:“百模大战”下半场,如何才能突出重围?

news2024/11/18 19:44:06

点击关注

文 | 姚悦

今年最早发布的那批大模型,现在怎么样了?

近期,商汤科技宣布“商汤日日新SenseNova”大模型体系完成了第一次重大迭代。这距离其发布过去3个月时间。

“每天不断接到用户调用,收到建议反馈后,每隔几天都会进行快速更新。同时,也会有长远规划,每隔一个月或几个月,大模型要有质变,上一个台阶。”商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示,大模型体系确实在“日日新”。

“商汤日日新SenseNova”各大模型都已经完成不同程度升级。商量SenseChat升级到2.0版本,上下文长度从2k(2048个字)提升到了32k(32768个字),意味着能够更加充分理解上下文。在知识信息准确性、逻辑判断能力、创作性等方面都有了更多提升。

而目标“赋能各行各业”,商汤科技大模型的多模态能力也不断在金融、医疗,以及智能汽车领域等领域场景已经实现或正在探索落地。

特别是在近期的CVPR(国际计算机视觉与模式识别会议)2023中,商汤科技及联合实验室提出业内首个感知决策一体化的自动驾驶通用大模型——UniAD,多项关键技术指标上超越了SOTA(当前最先进技术)。“大模型一定会对下一代自动驾驶产生深刻影响。”王晓刚表示。

不过,商汤科技大模型体系迭代的同时,外界环境亦在剧变。

经历半年多的“大炼模”,国内大模型从“硬桥硬马”的参数竞赛,已经进入到“真刀真枪”解决问题的下半场阶段,竞争愈加白热化。甚至有资本市场人士认为,这轮“百模大战”,国内AI大模型最终胜出的不超过2%,意味着,剩下98%的国内大模型都会消失在竞争中。

激烈的竞争中,如何才能跻身“关键少数”?近期,光锥智能对话商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚,了解商汤科技当前阶段关于大模型的经验、思考和规划。

核心观点:

1、以前每个领域都有自己的模型,每个行业每个方向有自己的研发团队,大家协同性不需要那么高,但今天必须是高度协同的状态,一定需要对研发体系进行重塑。

2、大模型一定会对下一代自动驾驶产生深刻影响。

3、如何让视觉信息和语言信息有同样的特征表达,进行更好的融合,同时把图像里面丰富的语义内涵去挖掘出来,是发展多模态的一大挑战。

4、保证大模型的优势需要做到三点:一是软硬件基础设施,二是深入到各个行业高速运转大模型研发体系,三是不断创新目标和方式

(商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁 王晓刚)

以下为对话实录:


“今天必须高度协同,就需要重塑研发体系”

Q:商汤科技最新推出的“商量2.0”新增了知识库融合接口,有什么具体作用?

A:一些客户有专属领域知识需求,如果没有外挂知识库融合,就需要把客户的数据拿来,再去训练模型,一方面成本比较高,涉及到整个模型的迭代;另一方面,安全性不能得到保障。

通过知识库的融合,不需要进入到模型本身,就可以比较简单、方便地把领域知识总结在一起,解决大模型的“幻觉”问题。

Q:商汤科技的AI大装置SenseCore如何同步升级?

A:在过去几个月,大装置也都处于非常紧张的迭代状态,要保证有更大规模的卡连接,也要保证卡间、机间通讯支持稳定运行。

同时,大装置也需要针对不同类型的应用,不同类型模型进行优化。比如做秒画,要涉及到生成非常高清的高质量图像,就涉及到大量数据传输,对带宽要求就非常高,这和自然语言模型就很不一样。所以随着模型演进,大装置本身系统能力也在提升。此外,在部署端也在做一些工作。

Q:关于商汤AI大装置SenseCore,是不是可以理解为是一个提供基础设施的基站,团队在整个商汤内部是类似于中台的形式?

A:可以把大装置理解成一个基础设施,同样,各个大模型的团队,也是把这个模型去提供给各个行业的行业线,从某种意义上,也是中台。

所以将来,商汤一定需要对研发体系进行重塑,能够去充分利用好这些公共资源,把各个行业的信息汇聚导入到大模型还有中台,建立起基础设施。

这就和以前人工智能的发展很不一样,以前每个领域都有自己的模型,每个行业每个方向有自己的研发团队,大家协同性就不需要那么高,但今天必须是高度协同的状态。

Q:商汤科技的“日日新”现在是以什么样的速度更新的?

A:每天都不断接到用户调用,很多重点客户很有积极性,会比较全方位地测试和评估,也会给出方向性的建议。所以收到这些反馈以后,(大模型)每隔几天都会进行快速更新。

同时,也有长期规划,每隔一个月或几个月,模型在有些地方要有质变。比如,“商量”模型,4月10号发布的模型,上下文的长度是2k,现在商量2.0能做到32k,就能有非常强的能力去理解上下文。

Q:客户反馈跟研发迭代之间的流程具体是什么样的,效果如何?

A:客户很多,大模型团队人数有限,不可能让大模型团队直接去面对这么多客户。所以要动员整个公司的产品和研发力量,把大模型开放给其他各个研发团队。

这些研发团队跟客户对接过程中,能够去探索怎么样调整模型,更好满足各个行业的需求。一旦根据需求找到对应调试方式,就会对基座模型团队反馈,基座模型团队再进行模型更新。

不过,各个研发团队并不是立刻把客户的需求反馈,而是开发一段时间,对用户的需求进行消化、整理,然后做二次创新,得到一些比较确定的结论,再给到基座模型团队。

这样做,最大程度地节省了基座模型团队的时间和资源,同时能够动员整个公司的研发和产品的资源去对接客户。

“大模型一定会对下一代自动驾驶产生深刻影响”

Q:有观点认为“大模型永远是现实世界的子集”,商汤如何看待这个说法。基于这个说法,智能驾驶辅助是否真的可以通过大模型训练来实现无人驾驶的终极目标?

A:人的认知本身也是现实世界的一个子集,而且是在不断演进的过程当中。如果说“大模型是现实世界的子集”也没错。但最核心的,还是要看到大模型现在无论对科技进步,还有行业发展都带来了深刻变化。而且人工智能发展也是永无止境的,也不是单一维度,可能在未来结合其他维度有突破,不断有新的成果产生。

大模型一定会对下一代自动驾驶产生比较深刻影响,大模型的特点是不断去解锁人类之前不能完成的新功能和新任务。

现在自动驾驶不够智能,有几方面原因,首先,车上各种传感器种类非常多,不同类型的传感器融合具有挑战性;其次,自动驾驶系统和人工智能系统,最核心的是做决策和判断的模块,但目前这些模块还是基于规则。

在未来,大模型会给自动驾驶带来三个重要变化:

第一个,核心决策模块,可以用语言模型去替代以往比较简单的规则;

第二,决策模块变得非常强大,可以更好地融合从感知模块输出的各种信息,提升整体安全性和驾驶体验。

例如,车上感知、决策,规划、控制众多模块,原来都是割裂来看,分别去开发,然后通过手动的方式进行链接。但商汤最近发布的首个端到端的自动驾驶通用大模型——UniAD,就是以最终的驾驶体验为目标,让这些模块实现端到端优化,可以极大提升开发效率。

第三,自动驾驶还有一大挑战,就是AI模型可执行、可解释性不高。但现在大模型,尤其是语言模型,不单是输出结果,还可以输出中间的逻辑推理过程来解释这原因。所以,未来的自动驾驶系统,会有更好的可解释性,出现问题的时候,可以更好地去诊断,更好地辅助提升各方面的能力。

Q:UniAD有没有应用到实际的量产,或者走向一个应用阶段,有没有可以立刻分享的?

A:面向量产还有一定的周期,但现在已经开始,基于我们以往在自动驾驶领域的量产经验,继续过去的一些方法——BEV、Transfomer,以及其它智驾系统,会发现一些非常难解决的例子,针对这些例子现在用UniAD的框架去进行测试,就会看到有比较显著的提升。

Q:在智能驾驶方面,会不会在大模型上有更多的探索?

A:大模型的投入一定是持续的。大模型能够让商汤找到核心价值所在,未来也会给客车企业开放接口,在上面做二次开发创新。

“往通用视觉方向努力”

Q:商汤已经推出多种类别的大模型,在战略部署上未来是不是会有一些侧重点,是会偏向视觉语言,还是多模态的发展?

A:是偏向多模态,AI系统一定能够更好把握各种多模态的信息,现实生活中遇到很多应用场景,自动驾驶还有机器人等等,都会运用到多模态。

Q“书生”系列的统一通用视觉任务框架,是不是可以理解为就是商汤在追求“视觉版的ChatGPT”或者是“视觉版的AGI”?

A是往通用视觉这个方向努力,3月份发布的“书生2.5”,现在也正式做了比较大的升级,推出“书生多模态”的模型。这里面统一了自然语言指令,可以定义各种开放式任务,像之前视觉任务都是预定义任务,现在做延申以后,有非常开放的350万语义标签,能够更好地覆盖开放世界里面各种类别和概念。

举个例子,出国的话,如果国外菜单看不懂,就可以拍一张照片,大模型能介绍菜单有什么,还会给一些建议,你可以提要求,想吃荤的还是素的,预算多少,它就会给你一些组合建议等等。

所以,多模态能够帮助我们与现实世界有更好的交互,这也是商汤致力于这一方向的原因,希望在不断探索与推进的过程中,给人类带来新的价值。

Q:研究语言大模型方面的思路和路径和传统NLP会有哪些差异,大模型的思路对于商汤研究视觉或者通用视觉智能会有什么启发?

A现在研究自然语言,和以前研究思路很不一样。过去几十年是基于语法的规则来产生语义、语法的分析书等等,现在都是基于大模型,基于Transformer网络架构。

商汤从2019年开始从事大模型方面的研究,当时视觉就走的(大模型)这条路线。在Transformer领域里,商汤本身也有比较深的研究,在自动驾驶里面提出的BEV也是行业里面影响比较大的“老架构”。

当商汤从2021年开始从事自然语言研究的时候,这方面是有比较明显的优势,再往多模态方向发展的时候,语言视觉开始有更加深度融合,就体现出比较强的这方面的积累和能力。

Q:商汤是从视觉大模型做起,现在做到多模态大模型有什么挑战?

A:在开发大模型过程中,怎么能够让视觉信息和语言信息有同样的特征表达,有很好的融合,例如,一张图能够迎合1000多个词,怎么能够把图像里面非常丰富的语义的内涵去挖掘出来,是开发(多模态)大模型过程中面临的挑战。

此外,要想做好多模态,视觉还有语言,这些模型都需要比较强。要能够更好地运用多模态,还需要深入了解各行业。因为有一些多模态的数据,例如自动驾驶、机器人等领域的视觉任务数据,现阶段在互联网上是没有的。

如何在“百模大战”中保持优势?

 Q:当前“百模大战”态势中,商汤“日日新”大模型体系如何在这种激烈的竞争中保持优势?

A:首先,商汤“日日新”大模型有一个比较长的历史积累,从2019年开始,我们就从事大模型方面的研究,也比较早建立大装置软硬件的基础设施。第二,需要针对大模型给行业带来的变化,重塑研发体系。第三,不要一直去追随国外的成果,而是要基于大模型在应用上的落地,有自己的创新性。

Q:商汤在创新方面具体有哪些成果?

A:今年6月,商汤的智能决策在《我的世界》游戏上面取得了重要突破。在过去几年,包括OpenAI、DeepMind都花了大量的精力在这个方向上,基于强化学习,完成开放世界里面的任务。它们过去几年一共解决了78个任务,而商汤融合语言模型去做,能够解决全部的262个任务。

决策这个方向的市场很广,基于大模型,未来可以用到机器人、自动驾驶等各领域。

此外,“书生”多模态大模型也是一大创新。以往无论是图像视频、视觉任务,有检测分割分类等等,这些都是过去几十年定义好的,但是有了新任务时候都不太可以用语言描述新的任务。像Meta能够去做任意物体的分割,今天商汤做的这些事情要远远超过他们的能力,可以通过自然语言去定义新的视觉任务,可以及时去给出新的任务结果输出。

欢迎关注“光锥智能”,获取更多前沿科技知识!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/791457.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java开发基础系列(十二):集合对象(List接口)

😊 作者: 一恍过去 💖 主页: https://blog.csdn.net/zhuocailing3390 🎊 社区: Java技术栈交流 🎉 主题: Java开发基础系列(十二):集合对象(List接口) ⏱️ 创作时间…

【技术】国标GB视频平台设备接入EasyCVR后,如何获取RTMP与RTSP视频流

安防视频监控平台EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安防视频监控的能力,比…

esp32_arduino的开发库安装笔记

1.1 Arduino软件下载与安装 Arduino官网下载地址:https://www.arduino.cc/en/software。 1.2在线安装 选择文件 - 首选项。 在附加开发板管理器网址中添加以下链接中的一个。 (1)Stable release link: https://raw.githubusercontent.com/espressif/arduino-es…

2023第二届中国绿色钢铁国际大会 演讲嘉宾更新

2023第二届中国绿色钢铁国际峰会将于9月21日-22日在上海举办,本次会议线上线下同步举行。 峰会将从钢铁行业上中下游全产业链视角出发,聚焦能源及原料结构创新,传统高炉技术路线低碳化创新,氢能冶金、二氧化碳捕集、利用或储存技…

借降本增效之名,探索开闭原则架构设计

引语 在我们的研发生产活动中,经常会遇到如下类似的疑惑: 业务和技术在公司组织活动中,究竟应该各扮演什么样的角色? 技术的目的是什么? 研发生产活动中,如何提高生产事故发生的下限? 如何充…

el-table表格自动滚动

实现效果如下: 功能点: 1. 当表格内容超出时,自动滚动,滚动到最后一条之后在从头滚动。 2. 表格中的数据会定时刷新,刷新后数据更新。 3. 鼠标移入表格中,停止滚动;移出后,继续滚…

微信小程序数字键盘(仿微信转账键盘)

微信小程序input自带数字输入键盘,不过是直接调用的系统键盘,无法个性化。 代码中使用使用了Vant WeappVant UI小程序版,这里就不介绍相关安装说明了,大家自行安装Vant Weapp。 json 用到的组件 {"usingComponents": …

第三章:Seed,Expand and Constrain:——种子、扩展和约束:弱监督图像分割的三个原则

0.摘要 我们引入了一种新的损失函数,用于基于三个指导原则进行弱监督训练的语义图像分割模型:使用弱定位线索进行种子标记,根据图像中可能出现的类别信息扩展对象,将分割结果约束在物体边界上。我们通过实验证明,使用所…

【C++模板进阶】

目录 一、模板使用时的一个小注意点二、非类型模板参数三、类模板的特化3.1函数模板的特化3.2类模板的特化3.2.1全特化3.2.2偏特化 四、模板的分离编译4.1模板不支持分离编译4.2模板分离编译报错的分析4.2解决方案 五、模板的总结 一、模板使用时的一个小注意点 在使用模板时&…

创建Electron项目

一、使用vite 构建 electron项目 npm init vitelatest Need to install the following packages:create-vitelatest Ok to proceed? (y) y √ Project name: ... CertificateDownload √ Package name: ... certificatedownload √ Select a framework: Vue √ Select a var…

java正则表达式「.*?」匹配什么

先说结论:以非贪婪的方式匹配正则表达式".*" 举例子: String s "abdcababc"; String regx1 "ab(.*)c"; String regx2 "ab(.*?)c"; Pattern pattern1 Pattern.compile(regx1); Pattern pattern2 Pattern…

分组排序及首单时间计算

import pandas as pd import numpy as np downpath/Users/kangyongqing/Downloads/ downfile20230725_105033.csvddpd.read_csv(downpathdownfile) dd.rename(columns{student_user_id:学生id},inplaceTrue) result[] for i in range(dd.shape[0]):user,feetimedd.loc[i,[学生…

AES-CTR加密模式介绍 例题

文章目录 CTR(Counter mode,CTR)计数器模式题目一题目描述:题目分析: 浅记一下 CTR(Counter mode,CTR)计数器模式 原理: CTR将块密码变为流密码。它通过递增一个加密计数…

防御第三天

1.总结当堂NAT与双机热备原理&#xff0c;形成思维导图 2.完成课堂NAT与双机热备实验 fw1: <USG6000V1>sy [USG6000V1]int g0/0/0 [USG6000V1-GigabitEthernet0/0/0]ip add 192.168.18.2 24 [USG6000V1-GigabitEthernet0/0/0]service-manage all permit (地址无所谓&…

NVM下安装NPM、CNPM详解与坑不是内部命令

设置npm的全局安装路径&#xff1a;有了可以不设置 npm config set prefix "H:\A-work\nvm\npm"C盘用户文件夹&#xff08;C:\Users[name]&#xff09;下会生成一个.npmrc的文件&#xff0c;用记事本打开后可以看到如下内容&#xff1a; 配置环境变量&#xff08;重…

Sip IP网络对讲广播模块,sip网络寻呼话筒音频模块

Sip IP网络对讲广播模块&#xff0c;sip网络寻呼话筒音频模块 模块介绍 SV-2401VP和SV-2403VPIP网络对讲广播模块是一款通用的独立SIP音频功能模块&#xff0c;可以轻松地嵌入到OEM产品中。该模块对来自网络的SIP协议及RTP音频流进行编解码。 该模块支持多种网络协议和音频编…

AdaBoost的求解流程

对于任意Boosting算法&#xff0c;都需要明确以下几点&#xff1a; ① 损失函数&#x1d43f;(&#x1d465;,&#x1d466;)的表达式是什么&#xff1f;损失函数如何影响模型构建&#xff1f; ② 弱评估器&#x1d453;(&#x1d465;)是什么&#xff0c;当下boosting算法使用…

这是一个小程序求助帖

求助帖 请问各位大佬们&#xff0c;在vscode中运行android模拟器&#xff0c;报错&#xff1a;执行emulator命令失败, 错误信息&#xff1a;Error: spawn C:\WINDOWS\system32\cmd.exe ENOENT 该如何解决。环境变量什么的我都已经配置过了&#xff0c;电脑也重启过了&#xff…

Rman配置参数详解

using target database control file instead of recovery catalog指的是使用目标数据库控制文件代替恢复目录 1、CONFIGURE RETENTION POLICY TO REDUNDANCY 1; # default 设置rman备份过期条件&#xff1a;是用来决定那些备份不再需要了&#xff0c;它一共有三种可选项&…

mybatisPlus之自动填充功能及防全表更新与删除插件

自动填充功能 基本介绍 Mybatis-plus自动填充功能是指在数据库表进行增、删、改、查操作时&#xff0c;自动将某些字段的值进行填充。这些字段的值可以是当前时间、登录用户ID等。 在项目中有一些属性&#xff0c;如果我们不希望每次都填充的话&#xff0c;我们可以设置为自…