通义听悟诞生背后,AI大模型打响应用第一枪

news2025/1/10 1:35:58

配图来自Canva可画

2023年伊始,ChatGPT的爆火出圈,迅速引发了业界对于生成式AI应用的关注,AI大模型的竞争更是愈演愈烈。

作为参与其中的重要玩家,阿里云先是在4月11日举行的阿里云峰会上,推出了通义千问大模型。紧接着6月1日,阿里云宣布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品,这意味着阿里云大语言模型,又向前端应用迈进了一大步。同时其基于AI大模型应用的发布,也相当于给当前纷争正劲的“大模型混战”,掷下了一枚重磅炸弹。

千模大战一触即发

近几个月,随着微软、谷歌、亚马逊等硅谷大厂,纷纷公布大模型及AIGC进展,通过AI搜索引擎、AI办公软件等一系列应用打响AI竞赛,国内互联网云大厂也陆续全军出击了。不只是大厂就连很多初创企业,VC/PE机构、各行各业巨头,都涌入了AI大模型赛道,试图从中分一杯羹。据不完全统计,目前公布推出AI大模型计划的大企业,不下于50多家,其他参与者更是不计其数。

从格局上来看,以“BATH”等为代表的互联网科技公司,凭借场景、算力、全栈技术能力等综合实力,稳居行业第一梯队;而处于二线的重要行业企业,如商汤科技、中国电信、京东、360等,则借助其在相关领域的影响力,位列行业第二梯队;紧随各行业巨头之后的是,包括美团联合创始人王慧文、前搜狗CEO王小川等在内的各路知名创业者,他们有认知、有机构加持和相关背景,但由于还处于初始阶段,因此在AI大模型混战中暂居第三梯队。

从分类上来看,围绕通用大模型以及专用大模型,各个企业都有自己的定位和分工。根据业内人士介绍,目前国内大模型主要可以分为两类:一类是对标GPT的通用大模型,聚焦基础层的公司,如阿里、百度等公司;另一类是在开源大模型基础之上训练垂类大模型,聚焦垂直行业的企业,如应用于金融、医疗、交通等领域的垂类大模型。由于前者的技术要求高、成本大,因此当前很多行业已经开始基于自身的情况,纷纷采取与通用大模型企业合作的方式,来训练适合自己行业的垂类大模型了。

从产业链上来看,算力厂商、云服务厂商、前端应用厂商都有参与,体系完整、联系紧密且范围宽广。目前包括算力厂商英伟达、云服务厂商阿里云,前端应用厂商如金山办公、用友网络、云从科技等,都在积极参与AI大模型的技术研发和场景落地。总之,当前围绕AI大模型的混战正在陡然升温。

通义听悟打响大模型应用第一枪

而从AI大模型涉及的层面来看,主要可以分为应用层、模型层、框架层和芯片层等四个层次,而目前市面上大部分公司都还在模型层,深一点的涉及到框架层和芯片层的研究,前端应用目前业内还没有。作为业内首个公测的大模型应用产品,通义听悟的示范作用极为明显。

一方面,相比底层技术,靠近应用前端的技术价值将更具想象空间。纵观所有的技术演变历史不难发现,技术的价值核心在于应用普及程度,以及对用户问题解决的程度。正因为如此,承担这一职责和使命的前端应用,往往具备更大的想象空间。

以6月1日阿里云推出的通义听悟为例,它通过接入阿里的通义大模型,其作用已经不仅仅是简单的具备音视频转写的工具了,而是已经成为帮助人们在音视频场景之下的高效AI助手了。它为人们提供自动做笔记、整理访谈、提取PPT等多种办公服务,而且能够实现音视频转化成图文内容、分章节摘要和总结全文观点等能力,具备了“类人”的高效检索分类能力。

此外,在细分场景中,它还具备不少“宝藏”功能,比如可以打开Chrome插件,外语学习者和听障人士,可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的“开会替身”,在静音情况下入会AI可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。总之,在解决具体场景问题的能力上,它已经超出了现有音视频应用的能力范畴,也刷新了以往用户体验的上限,必将在业内掀起不小的风浪。

另一方面,从阿里云自身来说,通义千问大模型刚刚对外推出不久,就能够迅速推出基于AI大模型的技术应用,说明阿里云AI大模型的确已经比较成熟,具备了衍生AI应用的能力。

从模型层到应用层,从AI大模型到大模型应用的诞生,看似简单实则实现起来并不容易。通常来说,垂类应用是依托于通用大模型这个技术底座来实现的,撇开通用大模型的话,这些通常无法实现,而这要求其所依托的通用大模型本身是足够成熟的,否则其很难推出相对好用且超出现有产品能力的应用。拿通义听悟来说,其所呈现的技术实力,在业内并不是所有玩家都有的。

全体系AI基础设施成决胜关键

从AI大模型本身所需要的动轧千亿的参数训练要求来说,其推进的难度和复杂性可能远超外界想象。长远来看,具备全栈AI大模型技术能力和基础设施能力的企业,才能够走得更远。

一来,由于生成式AI的发展速度远超外界预期,任何单一环节的进步对整体的大模型训练促进作用有限。据OpenAI测算,自2012年以来,全球头部的AI模型训练算力需求,3-4个月翻一番,每年增长幅度高达10倍。但根据摩尔定律,芯片计算性能每隔18-24个月才能翻一番,也就说是芯片性能远远跟不上AI大模型的发展要求。具体到相关领域来说,基于CPU的计算体系,难以满足大模型训练之下,高带宽、低时延的网络传输要求,这些问题的解决,依靠单一的“堆砌算力”很难短期内见效,并且可能并不经济,必须借助来自算法、算力、框架等多层次的整体系统支持,才能更好地应对这种变化。

二来,由于发展通用大模型所需要的算力需求大、推理训练成本高、数据量要求高,导致其本身的门槛非常高,不具备全栈大模型研发、场景落地能力、生态开放能力的公司,很难保持较快的更迭速度,很容易被淘汰出局。据业内人士分析,要做成一个成功的可对外商业化输出的通用大模型,需要厂商拥有全栈大模型训练与研发能力,业务场景落地经验、AI安全治理举措,以及生态开放性等核心优势,而一般的企业很难完全具备这些能力。

而阿里云作为亚洲第一、全球第三的云计算服务商,其拥有国内最强的算力支撑体系。比如,阿里云飞天云操作系统,可实现单集群10万台规模、千亿文件数运算能力,其飞天智算平台可实现千卡并行效率达到90%,自研网络架构可对万卡规模的AI集群,提供无拥堵、高性能的集群通讯能力,阿里云自有的深度学习平台PAI,可以将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。另外,阿里云还牵头建立了国内最大规模的AI模型服务社区“魔搭”,降低大模型开发成本、助力AI普惠;算法方面,阿里在语言以及多模态能力、超大模型、通用统一模型等多个技术维度,处于国内第一梯队,这都是阿里通义大模型能够迅速“出圈”的核心原因。

三来,从商业可能性来看,拥有全体系AI基础设施能力的公司,在MaaS(模型即服务)到来之后拥有更大的商业价值,在市场竞争方面会有更大的“回旋余地”。以阿里云为例,其后期既可以通过提供通用大模型服务,获取平台服务费;也可以出租算力和推训平台,赚取租金,变现路径相对更多,在市场竞争中可以根据情况灵活调整产品定价,以应对经营挑战。

产业迎来AI惠普时代

随着AI大模型应用的诞生,以深度AI普惠为特征的全新时代,也在逐渐拉开帷幕,AI深度嵌入产业实体,将成为不可逆转的行业趋势。

一方面,通用大模型的高门槛和广泛的垂类领域差异化需求,决定了基于通用大模型的专属大模型和产业应用,会成为未来主流的应用方向,推动AI加速进入千行百业。正如前文所述,通用大模型的高门槛,决定了国内外能够做成通用大模型的公司只是少数,而且随着AI模型变大,AI产业正从“手工作坊”组成的轻工业走向集约化生产,需要高性能、低成本的体系化基础设施,才能完成工业化生产。

这种能力不仅很多中小企业没有,即便是对于各行业头部企业,从0到1优化大模型训练,本身也并不经济,各行各业都需要成本足够低的AI基础设施。而且对于现有的厂商而言,继续加入这个领域“重复造轮子”并无多大必要。相比之下,垂类大模型本身的训练成本相对较低,而且一些专业领域拥有丰富数据场景的公司,做垂直大模型条件更好、数据质量更优,推出的产品更能够适应垂类行业需求,因此未来各类垂类行业GPT,或将成为主流大模型应用,推进AI迅速渗入产业。

另一方面,发展AI大模型的短期瓶颈是算力,长期来看是数据,因此高质量的前端应用有助于加速企业积累充分的数据资产,增强自身长期竞争力,加速产业应用普惠进程。当前来看,大模型的迅速迭代和进化,迫使所有的参与玩家不断累积算力资源,从芯片、云服务等各方面来优化配置,保证大模型训练所需要的算力支持。不过,从更长远来看,训练AI大模型的算法还在不断优化调整之中,未来随着算法的突破,算力可能不再是瓶颈,而高质量的数据资源将成为一种稀缺的资源,会受到更多关注。

作为业内首个基于AI大模型的应用,通义听悟的面世,有利于阿里加速积累优质数据资源,加速产业普惠进程,为更长期的发展奠定良好基础。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/611154.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】生产者 消费者模型

文章目录 1.关于模型的理解为什么会存在超市?如何维护线程互斥与同步?生产消费模型 角色之间的关系 2. 交易场所的设计具体实现主函数的实现BlockQueue类的实现push ——生产pop——消费 细节问题误唤醒效率高 体现在哪里? 完整代码blockQueu…

Linux之动态库和静态库

文章目录 前言一、动态库和静态库概念二、库三、制作静态库1. 创建Makefile:2.打包库3.使用库总结注意库的安装 四、制作动态库总结 五、动静态库的加载总结 前言 一、动态库和静态库概念 在之前的文章中,介绍过动静态库的概念,因此这次我们…

微信小程序面试题汇总

HTML篇CSS篇JS篇Vue篇TypeScript篇React篇前端面试题汇总大全(含答案超详细,HTML,JS,CSS汇总篇)-- 持续更新前端面试题汇总大全二(含答案超详细,Vue,TypeScript,React,Webpack 汇总篇…

虎牙在全球 DNS 秒级生效上的实践2

博主介绍:✌全网粉丝4W,全栈开发工程师,从事多年软件开发,在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战、定制、远程,博主也曾写过优秀论文,查重率极低,在这方面…

pytest使用手册

1. pytest寻找测试项的具体规则 如果未指定命令行参数,则从pytest命令运行的当前目录开始收集。如果在命令行参数中指定了目录、文件名则按参数来寻找。寻找过程会按照目录层层递归,在这些目录中,搜索 test_*.py 或 *_test.py 文件。从这些文…

GPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了降本减料质疑

梦晨 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型天花板GPT-4,它是不是……变笨了? 先是少数用户提出质疑,随后大量网友表示自己也注意到了,还贴出不少证据。 有人反馈,把GPT-4的3小时25条对话额度一口气用完…

PDF怎么转换成WORD?分享这几个方法给大家!

PDF怎么转换成Word?在我们的工作过程中,经常会使用到PDF文件、Word文件等等。而在很多时候,需要根据工作需求,将各种文件进行格式转换,例如将PDF文件转换成Word格式,从而满足我们对文件进行编辑、更改等需求…

learn C++ NO.8——初识模板(函数模板、类模板)

文章目录 引言1.泛型编程1.1.什么是泛型编程? 2.函数模板2.1.什么是函数模板2.2.为什么需要函数模板2.3.函数模板格式2.4.函数模板实现原理2.5.函数模板的实例化 3.类模板3.1.类模板定义格式3.1.1.类模板语法3.1.2.模板类的定义 3.2.模板类的实例化 引言 现在是北京…

Hadoop之Yarn概述

Hadoop之Yarn概述 Yarn是什么Yarn基础架构Yarn工作机制回顾HDFS、YARN、MapReduce三者关系Yarn调度器和调度算法先进先出调度器(FIFO)容量调度器(Capacity Scheduler)公平调度器(Fair Scheduler) Yarn常用命…

SpringBoot整合SpringSession实现分布式登录详情

目录 Session 共享为什么服务器 A 登录后,请求发到服务器 B,不认识该用户?解决方案SpringBoot整合SpringSession实现分布式登录 Session 共享 比如两个域名: aaa.yupi.combbb.yupi.com如果要共享 cookie,可以种一个…

事件机制原理剖析及实际业务应用说明

什么是事件? 一个特定的场景发生了一个特定的情况就是一个事件。 事件在设计中的作用 为对象之间解耦。 举例 现有用户中心和消息中心。 目前,有一个用户注册的场景,此场景要求用户注册成功后要给用户发送多渠道欢迎通知(微信、…

(11) XGBoost

文章目录 1 简要介绍2 梯度提升树2.1 提升集成算法:重要参数n_estimators2.2 有放回随机抽样:重要参数subsample2.3 迭代决策树:重要参数 η \eta η 3 XGBoost的智慧3.1 选择弱评估器:重要参数booster3.2 目标函数:重…

SpringCloud_微服务基础day2(Eureka注册中心:服务注册与发现

p6:Eureka简介与依赖导入 前面我们了解了如何对单体应用进行拆分,并且也学习了如何进行服务之间的相互调用,但是存在一个问题,就是虽然服务拆分完成,但是没有一个比较合理的管理机制,如果单纯只是这样编写&#xff0c…

HBase:(三)HBase API

HBase:(一)安装部署_只爱大锅饭的博客-CSDN博客hbase部署安装https://blog.csdn.net/qq_35370485/article/details/130988364?spm1001.2014.3001.5501 1.创建maven项目 2.添加依赖 <dependency><groupId>org.apache.hbase</groupId><artifactId>hba…

【鲁棒】对信息不完整的 DSGE 模型进行鲁棒预测(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

使用 TiUP 部署 TiDB 7.1.0 集群

使用 TiUP 部署 TiDB 7.1.0 集群 参考官方文档 1. 下载社区版安装包 TiDB 社区版 TiDB 7.1.0 为长期支持版本 (Long-Term Support Releases, LTS)。 TiDB-community-server 软件包 TiDB-community-toolkit 软件包 wget https://download.pingcap.org/tidb-community-ser…

【论文阅读】Attention-based Deep Multiple Instance Learning

misc{Ilse_Tomczak_Welling_2018, title{Attention-based Deep Multiple Instance Learning}, journal{International Conference on Machine Learning}, author{Ilse, Maximilian and Tomczak, JakubM. and Welling, Max}, year{2018}, month{Jul} }1、摘要与引言 本文…

CodeForces..走路的男孩.[简单].[时间间隔]

题目描述&#xff1a; 题目解读&#xff1a; 数学上的遛狗问题。 大意就是需要遛狗&#xff0c;一天至少两次&#xff0c;每次至少120分钟&#xff0c;题中所给的时间轴是从0-1440分钟&#xff0c;表示一整天。 然后它的主人正在不断接收信息&#xff08;在工作&#xff09;…

作用域 (局部作用域和全局作用域) 详细介绍

作用域 (局部作用域和全局作用域) 详细介绍 作用域是当前的执行上下文&#xff0c;值和表达式在其中“可见”或可被访问。 常见的作用域为&#xff1a; 全局作用域&#xff1a;脚本模式运行所有代码的默认作用域 函数作用域&#xff1a;由函数创建的作用域 局部作用域&#xff…

附录1-小程序常用标签

目录 1 view 2 scroll-view 3 swiper与swiper-item 4 text 5 rich-text 6 button 7 image 1 view 相当于html的div 2 scroll-view scroll-view是一个有滚动条的div scroll-y是允许纵向滚动&#xff0c;scroll-x是允许横向滚动 3 swiper与swiper-item swipe…