AI“百模大战”现状:向垂直、B端谋场景,算力仍是主要制约因素

news2025/1/22 21:55:15

文章目录

  • 每日一句正能量
  • 前言
  • AI(人工智能)大模型正“飞入”百姓家和行业中。
  • 向垂直、B端谋场景
  • 算力仍是主要制约因素
  • 构建“数据-模型-应用”飞轮
  • 后记

在这里插入图片描述

每日一句正能量

我们必须在失败中寻找胜利,在绝望中寻求希望。

前言

在当前快速发展的人工智能领域,AI模型的性能提升和应用场景的扩展成为众多科技公司的关注焦点。为了评估和比较不同AI模型的性能,近年来出现了一种称为“百模大战”的趋势。这种比拼方式通过针对特定任务或数据集,同时运行多个AI模型并比较它们的表现,从而找到最佳的模型。

AI(人工智能)大模型正“飞入”百姓家和行业中。

记者近日获悉,根据国家七部委联合公布的《生成式人工智能服务管理暂行办法》指导要求,包括蚂蚁百灵大模型、昆仑万维天工大模型、知乎知海图AI大模型在内的多个大模型近日完成备案,将向公众开放。

第二批完成备案的大模型中,有三个行业大模型备受关注。多位受访的权威专家表示,随着更多大型人工智能模型的备案和应用落地,可以看到大模型正越来越多地针对特定垂直行业进行优化和应用,正在从主要面向消费者应用(B2C)转向更多地服务于企业客户(B2B)。

不过,仍应看到算力、算法、数据和基础设施等方面还在制约着国内大模型行业的发展,而美国再次收紧对华AI芯片出口的限制,无疑在短期内制约着国产大模型的发展。在这个背景下,国内大模型的竞争已经从拼算力、拼人才的早期阶段,进入到拼应用、拼生态的阶段,如何形成“数据-模型-应用”的飞轮是未来一段时间大模型企业成功的关键。

向垂直、B端谋场景

在第一批大模型通过备案逐步落地应用之后,蚂蚁百灵大模型、月之暗面Kimi大模型、昆仑万维天工大模型、知乎知海图AI大模型、出门问问序列猴子大模型、面壁智能Luca大模型等大模型在近日通过备案,其中包括三个行业大模型,分别是办公行业的金山WPS大模型、教育行业的网易有道子曰大模型和好未来MathGPT大模型。

记者了解到,第一批通过备案的大模型主要是基础通用模型,包括百度文心一言、百川智能、商汤商量SenseChat、抖音“云雀”、智谱AIGLM大模型、中科院“紫东太初”、上海MiniMaxBAB大模型、上海人工智能实验室书生通用大模型、“360智脑”。第二批通过备案的大模型,大部分依然是通用型模型。

其中,蚂蚁百灵语言大模型采用Transfromer架构,基于万亿级Token语料训练而成,支持窗口长度达32K,在主流推理类榜单中排名前列;硬件算力效率(HFU)超过60%,集群有效训练时长占比90%以上,RLHF(人类反馈强化学习)训练在同等模型效果下训练吞吐性能相较于业界方案提升3.59倍,推理性能相较于业界方案提升约2倍,处于业界先进水平。

昆仑万维天工大模型是国内首个对标ChatGPT的双千亿级大语言模型,也是一个AI搜索引擎,一个对话式AI助手。天工大模型拥有强大的自然语言处理和智能交互能力,能够实现个性化AI搜索、智能问答、聊天互动、文本生成、编写代码、语言翻译等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。知乎知海图AI大模型是在CPM-Bee基础上研发的中文大模型,拥有千亿级参数,具备多模态处理能力。

上海交通大学安泰经济与管理学院教授、上海交通大学产业经济研究中心主任史占中在接受记者采访时表示,随着更多大型人工智能模型的备案和应用落地,可以看到大模型正越来越多地针对特定垂直行业进行优化和应用,正在从主要面向消费者应用(B2C)转向更多地服务于企业客户(B2B),当前的大型模型备案和应用的趋势表明这些技术正变得更加成熟、专业化,并且正在深入整合到具体行业和企业的核心运营中。

中国移动通信联合会元宇宙产业委执行主任、香港区块链协会荣誉主席于佳宁对记者分析指出,近日的大模型备案和应用显示出我国AI大模型发展的几个显著趋势。首先,备案的AI大模型正趋向于特定垂直行业的深度集成,这表明AI技术的应用正在从泛用型转向更加专业化和行业定制化的服务。

其次,这一批大模型的落地应用也在向to C端推进,这意味着不仅仅是企业服务市场,普通消费者也将直接受益于AI大模型的智能化服务。这样的转变将促使大模型开发者更加重视用户体验和交互设计,以适应广大消费者的需求。通过备案开放给公众的大模型能够收集到更多的数据,这对于模型的训练和优化至关重要。更多的真实场景数据能够帮助模型更好地理解人类语言和行为模式,进而提供更加准确和个性化的服务。这种数据驱动的模型迭代是推动AI大模型快速进步的核心动力。

算力仍是主要制约因素

国产大模型虽然向行业、产业和专业化进化,但也应该看到国内大模型行业仍面临算力、算法、数据和基础设施等方面的多重挑战。华泰证券科技与电子行业首席分析师黄乐平对记者表示,算力仍然是国产大模型面临的最大挑战,特别是今年10月,美国再次收紧对华AI芯片出口的限制,禁运A/H800等产品。这短期会对国内企业开展大模型业务的成本造成一些负面影响,但同时会倒逼国内算力平台加快成熟。

“美国的GPU(图形处理器)禁运,使国内算力受到制约是肯定的。在这个背景下,国内大模型的竞争已经从拼算力、拼人才的早期阶段,进入到拼应用、拼生态的阶段。没有产品基础的通用大模型公司将面临寻找场景、建立客户基础等更为严峻的挑战。”冰鉴科技研究院行研负责人周扬告诉记者。

史占中表示,国产大模型的发展在过去大半年确实面临诸多挑战,特别是在算力、算法、数据和基础设施等方面。美国对高端GPU芯片出口的限制更是为这些挑战增添了复杂性。高端GPU芯片的出口限制直接影响了国内大模型开发所需的计算资源。国内大模型行业发展还面临成本高企、人才短缺和应用场景的探索与匹配等问题。此外,合理的政策和监管框架对于大模型技术的健康发展至关重要。国内需要进一步明确和完善,特别是在数据隐私和安全、知识产权保护等方面。

在黄乐平看来,应用落地是目前制约AI大模型发展的另一个瓶颈。依据美国的情况,目前AI大模型主要找到四个应用场景,分别是Office等生产力工具、电商客服、游戏的美工和NPC以及编程助理。看国内最近的发展,AI在游戏领域的落地进展非常快,但是在生产力工具和编程助理等2B软件上,怎么让国内用户对软件进行付费是个问题。

此外,黄乐平认为,数据也是国产大模型较大的挑战。海外已经积累了丰富的开源高质量数据集,而国内数据方面,学术领域中文数据集受重视程度低,中文互联网高质量数据往往封闭于各平台内,因此国内大模型训练也往往使用多个海外开源数据集。

于佳宁认为,国对高端GPU芯片出口的限制对国内算力构建造成直接影响。虽然国产替代正在加速,但在短期内达到与国际先进水平相匹配的算力水平仍然具有挑战性。另外,高质量的数据语料获取对于模型的有效训练至关重要,而国内在某些垂直领域的数据采集和处理能力仍需加强。在基础设施层面,尽管云计算等技术的发展为大模型提供了支持,但国内在网络带宽、数据中心等基础设施的完善和升级上还有较大空间。

于佳宁指出,国内大模型行业的发展还面临着成本和应用场景的双重难题。从成本角度来看,大模型的训练和部署成本较高,而这对于初创企业和中小企业来说是一大负担。在应用场景上,虽然大模型的潜在应用范围非常广泛,但如何将大模型与实际业务需求紧密结合,创建具有商业价值的应用场景,仍是一大挑战。此外,产业链的完善和生态构建也是国内大模型行业发展中的一大难题,需要行业内外的协同努力。

构建“数据-模型-应用”飞轮

面对重重挑战,史占中认为,国产大模型的发展需要采取一系列措施应对挑战并寻找适合自身发展的路径。首先,要加强核心技术研发,重点投入资源于核心算法的研发和优化,减少对高端硬件的依赖;其次,要加大对国产计算硬件的研发和生产力度,包括GPU、ASIC(专用集成电路)和其他高性能计算设备;另外,在高校和研究机构中加强人工智能和相关领域的教育和培训,培养更多AI人才,同时制定优惠政策吸引海内外顶尖人才;最后,要与不同行业合作,共同探索大模型的应用场景和商业模式。构建开放的创新生态系统。

黄乐平指出,AI大模型是一个资本密集、人才密集和数据密集的产业,如何形成“数据-模型-应用”的飞轮是大模型企业成功的关键。经过一年发展,未来进入商业落地的阶段,关键是找到适合中国市场情况的应用场景。中国有非常强的消费电子产业和制造基础,怎么把AI大模型和硬件结合,催生新的消费需求是一个重要的发展路径。

周扬表示,无论是互联网大厂,还是创业型的大模型公司,to B都应该成为重点布局的领域,这也是应对挑战的可行出路之一。从另一个角度来看,大模型的垂直应用需要深耕某个行业,了解该行业的专业知识(Know-How),然后才能结合客户需求在具体场景应用中微调训练模型,而且还要能够使大模型与客户原有业务中的模型算法相融合,降低客户采用新技术的成本。

于佳宁表示,国内大模型行业的发展需要在保障技术先进性、降低成本、确保数据安全和质量、加强产业协同等多方面采取综合措施,走出一条符合国内实际情况的发展路径。在产业链完善和生态构建方面,应当建立更为紧密的产学研合作体系,形成产业联盟,共同推动技术标准、应用场景和商业模式的创新。同时,鼓励开源共享,通过生态合作提升整体行业的竞争力。

  • 在算力方面,应该积极促进国产硬件技术的突破,加大投资力度,以实现对外部供应链风险的有效管控和降低成本。同时,通过建立分布式计算资源池,提升算力的使用效率。其次,算法和数据预料的优化也至关重要。国内研究机构和企业应当增加研发投入,促进算法的创新和迭代。同时,应该建立更为严格和标准化的数据采集与处理机制,确保训练数据的质量和多样性。

  • 在基础设施方面,需要通过政策扶持和市场机制,加快数据中心、网络带宽等基础设施的建设和升级,为大模型的部署和运行提供坚实的物理基础。对于成本控制和应用场景的拓展,一方面需要推进商业模式的创新,例如通过云服务模式降低用户的使用门槛;另一方面需要加强与行业用户的沟通与合作,深入了解不同行业的具体需求,定制化开发适应特定场景的大模型应用。

最后,考虑到政策监管的重要性,国产大模型发展还应密切关注政策动向,主动与监管机构沟通,确保合规性,同时积极参与政策的讨论和制定,为行业健康发展提供政策支持。

后记

在过去的几年里,“百模大战”已经成为了评估和比较AI模型性能的一种常见方式。通过同时运行多个AI模型,并对其结果进行比较,我们可以更好地了解不同模型的优劣之处。这种竞争方式推动了AI领域的发展,使得更多的模型得以改进和优化。

与此同时,人工智能的应用场景也在不断扩展。除了通用的场景外,垂直和B端场景成为了“百模大战”的另一个重要方向。这些场景更加专业化和细分,对AI模型的要求更高。为了满足特定领域的需求,研究人员和企业开始针对特定任务开发更加定制化的AI模型。

然而,尽管“百模大战”在推动AI发展方面发挥了重要作用,但算力仍然是一个主要的制约因素。许多高性能的AI模型需要大量的计算资源来进行训练和推理,而这对中小型企业来说可能是一个挑战。因此,解决算力问题仍然是推动AI技术普及的一个关键问题。

总之,“百模大战”为我们提供了一种有效的方式来评估和比较AI模型的性能。随着AI应用场景的拓展和技术的改进,我们有望看到更多垂直领域和B端场景的AI模型的应用。同时,通过解决算力问题,我们可以使AI技术更加普及,并在各个领域实现更广泛的应用。

转载自:https://blog.csdn.net/u014727709/article/details/135123864
欢迎 👍点赞✍评论⭐收藏,欢迎指正

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1330363.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker与容器化安全:漏洞扫描和安全策略

容器化技术,特别是Docker,已经成为现代应用程序开发和部署的关键工具。然而,容器化环境也面临着安全挑战。为了保障容器环境的安全性,本文将介绍如何进行漏洞扫描、制定安全策略以及采取措施来保护Docker容器。我们将提供丰富的示…

pvk2pfx.exe makecert.exe 文件路径

文件路径 C:\Program Files (x86)\Windows Kits\10\bin\XXXXX\x86

CSS新手入门笔记整理:CSS3弹性盒模型

特点 子元素宽度之和小于父元素宽度,所有子元素最终的宽度就是原来定义的宽度。子元素宽度之和大于父元素宽度,子元素会按比例来划分宽度。在使用弹性盒子模型之前,必须为父元素定义“display:flex;”或“display:inline-flex;”。 弹性盒子…

Chart.js:灵活易用的图表库 | 开源日报 No.121

chartjs/Chart.js Stars: 61.3k License: MIT Chart.js 是一个简单而灵活的 JavaScript 图表库,适用于设计师和开发者。 灵活性:Chart.js 提供了丰富多样的图表类型和配置选项,使用户能够根据自己的需求创建各种定制化的图表。易用性&#…

【Python必做100题】之第二十六题(小球反弹问题)

题目:一小球从100米高度自由落体落下,每次落地后反跳回原来高度的一半再落下,求它在第10次落地时,共经过多少米?第10次反弹多高? 思路:初始为100米,落下反弹为原来的一半&#xff1…

Leetcode 剑指 Offer II 058. 我的日程安排表 I

题目难度: 中等 原题链接 今天继续更新 Leetcode 的剑指 Offer(专项突击版)系列, 大家在公众号 算法精选 里回复 剑指offer2 就能看到该系列当前连载的所有文章了, 记得关注哦~ 题目描述 请实现一个 MyCalendar 类来存放你的日程安排。如果要添加的时间内…

基于ip地址通过openssl生成自签名证书

最近在配置geo的时候,客户说自己使用的是自签证书,然后是通过ip地址和端口的方式访问gitlab,比较好奇这块,因此对证书的生成和使用做了一些整理,对此网上关于这部分资料也很多,不过作为记录,也算…

模型推理加速系列 | 08:TensorRT-LLM助力LLM高性能推理

引言 ​ 日暮苍山远,天寒白屋贫。Created by DALLE 3 小伙伴们好,我是《小窗幽记机器学习》的小编:卖汤圆的小女孩,今天是冬至,祝福小伙伴们幸福安康吧。紧接前文: 万字长文细说ChatGPT的前世今生 Llam…

DBeaver中使用外部格式化程序对进行sql格式化

本文介绍了如何在DBeaver中使用pgFormatter、sqlprase、sqlformatter等外部格式化程序对sql进行格式化。 目录 一、pgFormatter 1.准备工作 2.DBeaver中进行配置 二、sqlprase 1.准备工作 2.在DBeaver中配置 三、sql-formatter 1.准备工作 2.在DBeaver中配置 一、pgF…

机场信息集成系统系列介绍(6):机场协同决策支持系统ACDM

目录 一、背景介绍 1、机场协同决策支持系统是什么? 2、发展历程 3、机场协同决策参与方 4、相关定义 二、机场协同决策ACDM的建设目标 (一)机场协同决策支持系统的宏观目标 1、实现运行数据共享和前序航班信息透明化 2、实现地面资源…

基于Java web的住院管理系统论文

目 录 目 录 I 摘 要 III ABSTRACT IV 1 绪论 1 1.1 课题背景 1 1.2 研究现状 1 1.3 研究内容 2 2 系统开发环境 3 2.1 vue技术 3 2.2 JAVA技术 3 2.3 MYSQL数据库 3 2.4 B/S结构 4 2.5 SSM框架技术 4 3 系统分析 5 3.1 可行性分析 5 3.1.1 技术可行性 5 3.1.2 操作可行性 5 3…

otter-harbor同步

一. 部署及依赖 otter Github (一). 服务启动 1. mysql 5.6版本以上,作为 otter-manger 使用的数据库 # mysql docker run --name mysql -p 3306:3306 -e MYSQL_ROOT_PASSWORD123456 -d mysql:5.7 --character-set-serverutf8mb4 --collation-serverutf8mb4_un…

第11章 GUI Page421~422 步骤六 支持文字

运行效果: 关键代码: 新增头文件: //item_text.hpp #ifndef ITEM_TEXT_HPP_INCLUDED #define ITEM_TEXT_HPP_INCLUDED #include "item_i.hpp"class TextItem : public IItem { public:TextItem(): _startPosition(0, 0), _endPos…

论文推荐:大型语言模型能自我解释吗?

这篇论文的研究主要贡献是对LLM生成解释的优缺点进行了调查。详细介绍了两种方法,一种是做出预测,然后解释它,另一种是产生解释,然后用它来做出预测。 最近的研究发现,即使LLM是在特定数据上训练的,也不能认…

SpringMVC系列之技术点定向爆破二

SpringMVC的运行流程 客户端发送请求 tomcat接收对应的请求 SpringMVC的核心调度器DispatcherServlet接收到所有请求 请求地址与RequestMapping注解进行匹配,定位到具体的类和具体的处理方法(封装在Handler中) 核心调度器找到Handler后交…

c语言:计算1+2+3……+n的和|练习题

一、题目 输入一个数n,计算123……n的和 二、代码截图【带注释】 三、源代码【带注释】 #include int main() { int num0; printf("请输入要运算的数:"); scanf("%d",&num); sumResult(num);//相加结果函数 } //计算打印…

关于“Python”的核心知识点整理大全37

目录 13.6.2 响应外星人和飞船碰撞 game_stats.py settings.py alien_invasion.py game_functions.py ship.py 注意 13.6.3 有外星人到达屏幕底端 game_functions.py 13.6.4 游戏结束 game_stats.py game_functions.py 13.7 确定应运行游戏的哪些部分 alien_inva…

3dsmax渲染太慢,用云渲染农场多少钱?

对于许多从事计算机图形设计的创作者来说,渲染速度慢是一个常见问题,尤其是对于那些追求极致出图效果的室内设计师和建筑可视化师,他们通常使用3ds Max这样的工具,而高质量的渲染经常意味着长时间的等待。场景复杂、细节丰富&…

恢复丢失数据,AnyMP4数据恢复软件帮您解忧

在现今数字化的时代,我们经常会面临着数据丢失的困扰。无论是因为误操作、病毒攻击、格式化、系统崩溃还是硬盘损坏等原因,重要数据的丢失都会给我们带来巨大的困扰和损失。为此,AnyMP4数据恢复软件应运而生,它为用户提供了一种高…

ssm基于BS的库存管理软件设计与实现论文

目 录 目 录 I 摘 要 III ABSTRACT IV 1 绪论 1 1.1 课题背景 1 1.2 研究现状 1 1.3 研究内容 2 2 系统开发环境 3 2.1 vue技术 3 2.2 JAVA技术 3 2.3 MYSQL数据库 3 2.4 B/S结构 4 2.5 SSM框架技术 4 3 系统分析 5 3.1 可行性分析 5 3.1.1 技术可行性 5 3.1.2 操作可行性 5 3…