AI大模型内卷加剧,商汤凭什么卷进来

news2024/10/3 10:38:04

2023年,国内大模型何其多。

        目前,已宣布推出或即将推出大模型的国内企业多达20余家,基本上能想到的相关企业都已入局。其中,既有资金雄厚的BAT、华为、字节等大厂,也有王慧文、王小川、周伯文等互联网大佬领衔的初创企业,还有垂直领域的AI企业,比如商汤科技、科大讯飞等。

        4月10日,商汤推出“日日新SenseNova”大模型体系,包括一系列生成式AI模型:大语言模型“商量”、文生图AI平台“秒画”、AI数字人视频生成平台“如影”、3D内容生产平台“琼宇”、“格物”,以及大模型数据标注平台“明眸”。

        在大模型的舆论场上,商汤并不高调,而是直接搬出全套大模型产品,并迅速开放面向企业的试用通道。从发布会现场实时演示的效果看,商汤大模型的实力不容小觑。“一个专注CV的公司能在LLM上做出如此高成熟度产品,其开发团队令人起敬。”一名知乎网友的观点代表了一部分外界声音。

        同时,一些质疑的声音也出现了,比如有观点认为专注机器视觉赛道(CV)的独角兽AI企业到底有没有必要凑热闹搞大模型。毕竟大模型需要长期巨量烧钱,目前商业化模式有限,这会让尚未盈利的AI企业面临更大的亏损压力。

        那么,如何看待商汤进军多模态大模型领域的布局?在日益拥挤的“中国版ChatGPT”竞争中,商汤又将走出怎样与众不同的生态位呢?


1 | 从大装置到大模型,始终指向同一目标

        当ChatGPT推动AI行业走过“iPhone时刻”,大模型的通用性已经得到了成功验证。

        更重要的是,今年3月微软发布的一篇论文指出,“GPT-4已经可以被视为通用人工智能的一个早期的版本。”这一观点也得到了相当多专业人士的认可。深度学习之父Geoffrey Hinton为代表的一些顶级科学家认为,通用人工智能(AGI)不再遥不可及,而有可能在数十年内逐步实现。

        接下来,在大模型这一确定性的方向上,中外AI企业如何摸索出适合自己的道路,成为关键命题。

        商汤对这个问题的答案是:坚定地走“大装置+大模型”的道路。

        了解商汤战略的朋友会知道,商汤此时推出大模型并不是跟风,而是自身在持续解决AI规模化落地道路上的又一个关键节点。

        此前,AI落地难的核心原因是一个场景一个模型的开发模式,导致落地成本高,模型复用率低,难以规模化标准化。彼时,2020年问世的千亿参数的GPT3已经为大模型的通用性带来一定突破。商汤的解法同理,向下层基础设施扎根,希望用庞大的参数量×数据量跑出通用性。

        2021年,商汤推出AI大装置SenseCore,并在2022年完成重要扩建。AI大装置可以理解为大算力基础设施+大模型即服务(Model as a Service)。

        目前AI大装置构建了27000块GPU构成的并行计算系统,实现了5.0exaFLOPS的算力输出,是亚洲目前最大的智能计算平台之一。商汤AI大装置上的算力可以同步支持20个千亿规模参数量的超大模型,并且以千卡规模来同时训练。

        同时,AI大装置还对外提供大模型即服务,包括自动化数据标注、大模型并行训练、推理部署等等。目前AI大装置最大的集群由4000块芯片并联组成,可以训练参数量超5000亿的稠密模型,今年的目标是能够训练超过万亿参数的大模型。

投入这么大,AI大装置的应用情况如何呢?

        2022年,商汤将AI大装置的能力向行业客户开放,通过提供高性能计算资源、丰富的预训练模型库、易用的开发工具和专业技术支持,帮助客户高效训练大模型。目前已经有超过10个大模型研发任务得以实现,涵盖了视觉、语言、多模态等领域的用户自定义大模型开发。

        面向企业开放后,AI大装置已经有了规模化的营收。根据商汤2022年年报,2022年AI大装置对外服务产生的收入占比智慧商业(商汤四大业务板块之一)整体收入超20%。按照2022年智慧商业收入14.64亿元计算,AI大装置已经为商汤带来近3亿元营收。

        看到这里你也许有些明白了,商汤并不是从零开始构建大模型的。之所以能在短期内迅速推出多种类型的大模型,离不开AI大装置这个根基。而且实际上,商汤在大模型领域的布局要早于AI大装置。

        在最擅长的CV领域,2019年商汤就发布了10亿参数的视觉大模型。2022年,商汤的视觉大模型已经进化到了320亿参数,也是世界上迄今为止最大的视觉模型。

        自2021年起,商汤科技开始自研NLP大模型和多模态模型。在NLP领域,商汤的大语言模型达到了千亿参数级别。

        在多模态领域, 2022年3月,商汤科技联合上海人工智能实验室、清华大学、香港中文大学、上海交通大学发布了多模态多任务通用大模型“书生(INTERN)”,拥有30亿参数。书生大模型已经在通用视觉开源平台OpenGVLab开源,是目前开源模型社区性能最强的多模态大模型。

        在AIGC领域,商汤推出10亿参数的AIGC模型,能够支持文生图和图生图的各种功能。曾在星际争霸的比赛中超越DeepMind的AlphaStar的商汤决策智能模型,未来也将融入到多模态大模型中。

        “未来商汤的通用人工智能大模型体系会覆盖视觉感知、语言理解、内容生成和推理决策四大方面。”商汤科技联合创始人、首席科学家王晓刚表示。

        目前,商汤的大模型已在在智慧城市、智慧商业、智能汽车和智慧生活四大板块20多个场景实现了落地交付。比如,在自动驾驶领域,商汤在视觉大模型领域研发的BEVFormer++感知算法以绝对优势赢得了2022年Waymo挑战赛主赛道冠军。

        综上,商汤做大模型的目标不是去抢夺面向个人用户的“中国版ChatGPT”的噱头,而是用“大装置+大模型”加速AI商业化落地。


2 | “日日新”的双重驱动力

        “AGI催生了新的研究范式,即基于一个强大的多模态基模型,通过强化学习和人类反馈不断解锁基模型新的能力,从而更高效地解决海量的开放式任务。AGI将实现从‘数据飞轮’到‘智慧飞轮’的演进,最终迈向人机共智。”商汤科技联合创始人、首席科学家王晓刚表示。

        具体到商汤“日日新”大模型,小编认为,其对于商汤而言至少有两大方面的驱动力:

        通过丰富的AIGC大模型向外赋能,包括通过开放API的形式,降低各行各业应用大模型的门槛;目前商汤“日日新”系列大模型仅面向企业用户开放试用。不过,从发布会实时演示来看,“日日新”大模型给人的初步印象是:整体能力全面,相当于没有“挂科”,而且在数字人视频生成、3D内容生成等方面令人惊艳,超出预期。

商汤版ChatGPT大语言模型“商量”,其多轮对话表现流畅,并有两个细分领域的优势:问诊与编程。编程助手可帮助开发者更高效地编写和调试代码;在健康咨询方面,“商量”相当于一个AI版的全科医院分诊台,类似什么症状应该看什么科室,可以为用户提供个性化的医疗建议。此外,“商量”可以直接读取PDF文件提取关键信息的功能也非常实用。

“秒画SenseMirage”文生图创作平台,可支持6K高清图的生成,还支持用户自定义训练生成模型。

“如影SenseAvatar”AI数字人视频生成平台,仅需一段5分钟的真人视频素材,就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身,这将极大降低电商直播、在线教育等高频应用场景的人力成本。

        “琼宇SenseSpace”和“格物SenseThings”3D内容生成平台,可以高效低成本生成大规模三维场景和精细化的物件,能够为元宇宙等虚实结合场景提供高品质低成本的构建技术。

        强化商汤已有的在CV、视觉感知领域的优势,加速AI技术落地。

        在智能驾驶领域,基于视觉大模型,商汤开发了用于自动驾驶的BEV(Bird Eye View)感知算法,在Waymo挑战赛上以绝对优势取得了冠军。基于此算法,商汤开发了业界首个感知决策一体化的端到端自动驾驶解决方案UniAD,可以为自动驾驶多模态模型带来更强的环境、行为、动机解码能力。

        据悉,“日日新SenseNova”为政企客户提供了多种灵活的API接口和服务,包括图片生成,自然语言生成,视觉感知通用任务与标注服务。通过调用API接口,企业用户可以根据基模型进行微调,低门槛、低成本、高效率地实现各类AI应用。


3 | 从单点到平台,转型加速时

        值得注意的是,在坚定投身“大装置+大模型”路线之时,商汤自身也处在业务结构转型的关键时期。

        目前,商汤的业务边界早已不局限于CV领域,而是正在成为一家通用AI基础平台公司。而且在此过程中,“大装置+大模型”没有削弱CV领域原本的优势,反而是增强了。

        从商汤对AI大装置的定位“AGI时代基础设施的领导者”,可以看出,昔日CV四小龙之首的商汤已今非昔比。对于行业边界的突破,此前商汤科技董事长兼CEO 徐立曾经这样对媒体表示,“当我们实现了从物理世界与数字世界的融合,AI就变成了基础设施,人人都可以用,也就不用区分行业了。”

        不过,业务结构的变化是转型更有力的证明。透过2022年年报,商汤的四大核心业务呈现“两升两降”的明显改变。其中,智慧城市、智慧商业两大板块业务收入下滑,智慧生活、智慧汽车两大新兴业务大幅增长,显示出业务结构更加多元健康发展的态势。

        比如,2022年智慧生活业务收入同比增长129.9%,创历史新高,占总收入比重从2021年的8.8%提升至25.1%。智慧生活业务涵盖了AI内容生成(AIGC)、AI传感器、AI ISP芯片、智慧医疗等多个产品线,均实现了商业化突破。2022年智能汽车业务收入同比增长58.9%,占总收入比重从2021年的3.9%上升至7.7%。

        “日日新来自《礼记·大学》,汤之盘铭曰‘苟日新、日日新、又日新’。也就是每天都要新,而且新的要更新。这代表人工智能大模型,在以周为单位的数据输入上,可以日日更新,能力日日增强。”徐立在发布会上这样解释日日新的来历。


4 | 结语

        2023年是国内AI大模型的爆发元年,站在当下的时间节点,我们可能很难预测未来AI大模型领域的市场格局是寡头垄断还是百花齐放。

        因为,这是一场长期的、全方位的比拼,考验着每一位入局者的资金储备、战略意志、技术能力等核心实力。

        也许,每一位玩家无需也不可能做到大而全,集中资源聚焦最有差异化优势的大模型,才是突围之道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/436553.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

外卖小程序01

目录 nginx反向代理和负载均衡反向代理好处nginx反向代理的配置方式 负载均衡**nginx 负载均衡的配置方式:****nginx 负载均衡策略:** 动静分离 用户密码加密需求代码实现 Swagger框架介绍使用步骤常用注解使用案例:员工登录EmployeeController实体类Emp…

科研成果 | 不同调制方式的开源数据集及其数据扩增方式

文章目录 1. 数据源2. 数据扩增2.1 基于opencv的一些基础变换2.2 基于GAN网络的方法2.2.1 SinGAN2.2.2 基于多图的GAN方法1. 数据源 网址: https://www.sigidwiki.com/wiki/VHF 每种数据基本只有一条,所以要用的话只能进行数据扩征 2. 数据扩增 两种方法: 基于opencv的一…

浏览器输入 http 自动转 https 问题解决方法

目录 表象 原因 解决方案 解决方案一 解决方案二 表象 今天在开发的过程中遇到一个问题,我们项目的地址是 “http://xxx.xxx.com/website/” ,结果粘贴到浏览器里自动跳转成了 “https://xxx.xxx.com/website/”。百思不解啊,为啥呢。 …

git上如何通过本地仓库推送自己的代码到远程仓储

从gitHub或者gitee上拉取代码后,我老是想着把别人的代码保存到自己的仓库上,这里教你一招。 gitee的: 首先我们在gitee或者github上创建一个自己的仓库,github的我就不在展示了,基本上和gitee操作一样 输入相关信息…

【redis】bitmap、hyperloglog、GEO案例

【redis】bitmap、hyperloglog、GEO案例 文章目录 【redis】bitmap、hyperloglog、GEO案例前言一、面试题二、统计的类型聚合统计排序统计问题:思路 二值统计 0和1基数统计 三、hyperloglog1、名词理解UV 独立访客PV 页面浏览量DAU 日活跃用户MAU 月活跃度 2、看需求…

愚蠢的往事-网络安全专题之数字证书

血泪教训史,我被骗去办理了数字证书。 文章目录 加密算法摘要算法数字签名数字证书血泪开篇数字证书 加密算法 相关知识点:对称加密算法、非对称加密算法、信息完整性验证算法。 对称加密算法:1.加密密钥和解密密钥相同的算法,…

小行助学答题系统编程等级考试scratch三级真题2023年3月(含题库答题软件账号)

青少年编程等级考试scratch真题答题考试系统请点击 电子学会-全国青少年编程等级考试真题Scratch一级(2019年3月)在线答题_程序猿下山的博客-CSDN博客_小航答题助手 1.计算“248……128”,用变量n表示每项,根据变化规律&#xf…

SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式,系统详解springcloud微服务技术栈

http客户端Feign &#xff08;一&#xff09;基于Feign远程调用 1、RestTemplate方式调用存在的问题 2、Feign的介绍 3、定义和使用Feign客户端 这个接口里面将来的封装的就是所有对userservice发起的远程调用 1、orderserivce的pom <!--feign客户端依赖--> <depe…

Dsq: 用于针对JSON、CSV、Excel、Parquet等运行SQL查询的命令行工具

目录 About Install macOS Homebrew macOS、Linux和WSL上的二进制文件 Windows上的二进制文件&#xff08;非WSL&#xff09; 从源代码生成和安装 Usage Pretty print dsq的管道数据 多个文件和连接 无需查询即可将数据转换为JSON 嵌套在对象中的对象数组 嵌套对象…

ASRock Z690 Extreme WiFi 6E i7 13700KF电脑 Hackintosh 黑苹果efi引导文件

原文来源于黑果魏叔官网&#xff0c;转载需注明出处。&#xff08;下载请直接百度黑果魏叔&#xff09; 硬件型号驱动情况 主板ASRock Z690 Extreme WiFi 6E 处理器Intel Core i7 13700KF已驱动 内存KINGBANK 2x32GB DDR4-3600CL18已驱动 硬盘Predator SSD GM7000 1TB已驱动…

qt5.15.2配置android

qt安装安卓编译器就直接跳过&#xff0c;我们开始将如何进行配置。 如果专门开发的app&#xff0c;则应该使用android进行开发&#xff0c;qt是熟悉qt语言&#xff0c;或者app需要进行跨平台的话则使用qt for android比较好。 下载 首先安装jdk&#xff0c;最好安装 jdk11&am…

[Java] Socket (UDP , TCP)

目录 什么是Socket ? TCP api 与 UDP api 的特点 : UDP api 使用UDP Socket 实现一个单词翻译 : TCP api 使用TCP协议来实现一个回显服务 什么是Socket ? 应用层和传输层之间的桥梁 . 程序猿写网络代码 (应用层) , 要想发送这个数据 , 就需要去调用下层协议 , 应用层…

uniapp图片转base64及JS各文件类型相互转换

uniapp图片转base64及JS各文件类型相互转换 1、chooseImage request arrayBufferToBase642、chooseImage getFileSystemManager3、chooseImage FileReader4、扩展-JS各文件类型相互转换4.1 File 转成 ArrayBuffer4.2 File 转成 blob4.3 File 转成 base644.4 ArrayBuffer 转…

【数据结构】前序遍历,中序遍历,后序遍历(二叉树)

一&#xff1a;给图求前序&#xff0c;中序&#xff0c;后序 前序遍历&#xff08;先序遍历&#xff09; 核心思想&#xff1a;根左右 前序序列&#xff1a;ABDEFCGH 先访问根结点A&#xff0c;打印A&#xff0c;然后访问左子树&#xff0c;此时左子树B又作为根节点&#xf…

JAVAWeb05-xml、DOM4J

1. xml概述 1.1 官方文档 地址: https://www.w3school.com.cn/xml/index.asp 1.2 为什么需要 XML 需求 1 : 两个程序间进行数据通信&#xff1f;需求 2 : 给一台服务器&#xff0c;做一个配置文件&#xff0c;当服务器程序启动时&#xff0c;去读取它应当监听的端口号、还有…

【数字人】使用Metahuman创建数字人模型(上)

这两年数字人类的概念可谓是风头正盛&#xff0c;市面上也流行起各式各样的数字人技术&#xff0c;效果能力及实现成本各不相同。本系列介绍基于Unreal Engine的Metahuman工具低成本构建一个拥有完整的控制权、免费、可商用、高仿真的数字人。本篇为构建基础人物模型 MetaHuma…

PHP快速入门14-Composer包管理安装与使用,附常见的20个使用例子

文章目录 前言一、关于Composer二、如何安装Composer2.1 Windows安装Composer2.2 Linux安装Composer 三、Composer常见的20个使用例子3.1 查找并安装依赖包3.2 更新依赖包3.3 安装指定版本的依赖包3.4 卸载依赖包3.5 查看当前项目依赖包列表3.6 初始化composer.json文件3.7 安装…

FAT32文件系统学习

FAT32文件系统组成及介绍 FAT32文件系统结构图&#xff1a; 下图演示了FAT32文件系统的DBR&#xff1a; 1.DBR及其保留扇区&#xff1a;含义是DOS引导记录&#xff0c;也称为操作系统引导记录&#xff0c;在DBR之后往往有一些保留扇区 跳转指令&#xff1a;跳转指令本身占用2字…

python程序打包成可执行文件【进阶篇】

python程序打包成可执行文件【进阶篇】 提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论 文章目录 python程序打包成可执行文件【进阶篇】[TOC](文章目录) 前言安装PyInstaller包打包深度学习模型生成spec文件修改spec文件运行spec文件进行打包执行exe可执…

为什么倒谱可以分析回声

一个有趣的现象&#xff1a;倒谱上的第一个峰&#xff0c;恰好对应回声相比原声的延时。回声 y y y 是原始声音 x x x 延迟 t 0 t_0 t0​ 秒后的、带有衰减 α α α 的副本 y α x ( t − t 0 ) y αx (t - t_0) yαx(t−t0​) 方便起见&#xff0c;这里取 α 1 α …