大模型争锋:左手“世界最强” 右手“高性价比”

news2024/11/18 11:40:05

2020年,OpenAI团队发表论文,正式提出了大模型开发的经验法则Scaling Law,目前它并没有统一的中文名称,大致可以理解为“规模法则”,更通俗地说是“大力出奇迹”。2022年年底,ChatGPT的横空出世验证了“规模法则”的“智能涌现”能力——规模越大,效果越优。要提升模型效果,就需要不断扩大参数规模、训练数据量、计算资源三要素的规模。自此,Scaling Law被大模型厂商奉为圭臬,一场重点围绕算力、参数的全球AI竞赛打响,并在大模型的狂飙突进中不断升温,如今仍未休止。

继今年4月微软和OpenAI被曝筹建一个可能耗资超千亿美元的AI超级计算机后,特斯拉CEO埃隆·马斯克旗下的人工智能公司xAI、研发开源大模型Llama的Meta近日里均有新动作,喊出了“世界最先进”“最强大”的口号和目标。《中国经营报》记者注意到,科技巨头仍在遵循Scaling Law各自加大AI大模型的资金资源投入,致使大模型竞争持续白热化,而与此同时,通用大模型也在通过降价、开源、多参数版本等措施向“小模型”下沉拓展。

“规模法则”持续:大资金、大算力、大参数

7月23日,马斯克通过社交媒体宣布,xAI团队、X团队及英伟达等合作公司自当地时间7月22日凌晨开始在美国田纳西州的孟菲斯超级集群上进行训练,该集群号称“世界上最强大的AI训练集群”,使用10万个液冷H100图形处理器,目标是“到今年12月训练出按每项指标衡量都是世界上最强大的人工智能”。这里作为对比,目前业内公开的三个高性能的超级计算机系统包括Frontier、Aurora、微软Eagle,他们使用的处理器分别是37888个AMD GPU、6万个英特尔GPU、1.44万个英伟达H100 GPU等。

公开信息显示,xAI于2023年4月注册成立,同年11月推出了其首个AI大模型产品——Grok。今年3月中旬,xAI宣布开源3140亿参数的大模型Grok-1。5月,xAI完成了新一轮高达60亿美元的融资,估值达到240亿美元。

与马斯克同样喊出“世界上最大、功能最强的开源大模型”的是Meta公司。7月24日,Meta推出了最新的开源大模型Llama3.1 405B——405B指4050亿参数量。Meta方面介绍,这是“当前最大的开源模型”,模型的训练数据涉及15万亿个token(大模型文本处理的最小单位),使用1.6万个英伟达H100 GPU。迄今为止,Llama所有版本的总下载量已超过3亿次。

开源大语言模型在功能和性能方面大多落后于封闭式模型。Meta创始人兼CEO马克·扎克伯格称,开源正在迅速缩小(与封闭模式的)差距。“从明年开始,预计未来的Llama模型将成为业内最先进的。即使在此之前,Llama已在开放性、可修改性和成本效益方面处于领先地位。”需要说明的是,在Meta公开的Llama3.1 405B技术论文中,该模型在通用知识、可操控性、数学、工具使用和多语言翻译等方面能够与OpenAI最新的GPT-4o、Anhthropic公司的Claude 3.5 sonnet等旗舰模型相媲美,甚至在人工评估的比较中,其总体表现比这两个模型更好。

扎克伯格及Meta坚持“开源人工智能的前进路线”,其“炮口”显然瞄准的是以OpenAI为代表的封闭模型公司。自然语言处理(NLP)专家、新浪微博新技术研发负责人张俊林指出,开源和闭源模型随着时间存在能力差距,二者差距是逐步减少的,而Llama3.1 405B的出现让两条线出现了交点,“基本可以终结开源闭源之争”。Meta最新开源大模型的出现,对于开源模型、闭源模型来说都有重大影响。对于前者,如果能力不如LlaMa3,就需要考虑如何做出差异化和不同特色;而对于后者,如果能力赶不上Llama3,就需要向公众解释对用户收费的依据问题(除了覆盖推理成本以外的费用)。目前来看Meta继续将未来更强模型开源的决心是较大的,随着下一代的开源,或将逼迫原先定位为基础模型的创业公司转向特色产品赛道。

事实上,无论开源,还是闭源,科技巨头在大模型领域的争锋,会持续伴随着大算力、大参数的投入,而这背后必然需要的是大资金的注入。据美国媒体The Information援引知情人士及未公开财务文件报道,预计OpenAI今年训练ChatGPT及新模型的成本将高达30亿美元,再加上公司组织及人员运营成本,今年或将产生50亿美元的资金缺口,这意味着OpenAI在未来12个月内需要新的资金支持。对此报道,OpenAI官方并未予置评。

向“小”兼容,投入构建生态

大模型的Scaling Law最终能否通向AGI(通用人工智能),目前学术界仍存有质疑的声音,但产业界科技巨头都在遵循Scaling Law探索大模型的新突破。记者观察到,大模型在做“大”的同时也在向“小”拓展兼容。

扎克伯格表示,Meta正在推动开源AI成为行业标准,在发布前沿级AI模型Llama3.1 405的同时,还升级了Llama3.1 70B、8B两个模型。对于开发人员来说,使用Llama3.1 405B进行推理的成本约为使用OpenAI的GPT-4o等封闭模型的50%,Llama3.1将成为微调和“蒸馏”较小模型的“最佳选择”。

商汤研究院院长田丰向记者解释,不同参数规模的模型适用于不同的终端设备和平台,例如百亿、千亿级的大模型一般部署在云端,而百亿级以下的部署在移动终端侧。

Meta的Llama3.1模型在上线首日即已与包括AWS、英伟达、Databricks、戴尔、微软Azure、谷歌云、Snowflake等25家企业实现合作,共同提供服务。对此,AWS(亚马逊云科技)首席执行官Matt Garman表示,客户普遍希望根据自身的具体用例自定义和优化Llama模型,通过在亚马逊云科技上访问Llama3.1,客户可以简单地开箱即用,负责任地构建AI。

在扎克伯格看来,开源人工智能代表了“世界上利用此项技术为每个人创造最大经济利益和安全的最佳机会”。从国家间的科技竞争来看,最好的策略是建立一个强大的开放生态系统,让领先公司与政府、盟友等密切合作,以确保能够最好地利用技术的进步,并且在长期内实现可持续的先发优势。

就在Llama3.1面市的几日前,7月18日,OpenAI推出了新一代入门级别的AI模型GPT-4o mini,号称其是“功能最强、性价比最高的小参数模型”,旨在服务更广泛的客户群体,对于开发人员来说能够以更低的成本、更轻量级的工具来构建AI应用。相比GPT-4o,mini版在价格上便宜了96%多,比GPT-3.5 Turbo也要便宜60%—70%。OpenAI团队称,之所以开发GPT-4o mini,是因为注意到开发人员越来越渴望使用较小的模型。

无独有偶,谷歌在今年6月底发布了Gemma2开源大模型,这是谷歌继今年1月首次发布开源AI模型Gemma后的最新升级,与其未开源的Gemini大模型采取同款技术架构,主打“卖点”是开源、轻量级、免费可商用、性能佳。据介绍,Gemma2 27B模型可在单张谷歌云TPU、英伟达A100 80GB GPT或英伟达H100 GPU上运行推理。

科技部国家科技专家库专家周迪向记者表示,小模型有应用场景,通过推出更轻便、更经济的模型来吸引更多用户。另外,大模型在做到极致后,也可能会遇到一些瓶颈,比如算力消耗过大、训练成本过高等问题。此时,将大模型进行精简和优化,推出更适合特定场景和需求的小模型,也是一个不错的选择。

总体来看,无论是开源、降价,还是做多尺寸、轻量化的“小模型”,都是大模型平台扩大市场占有率、推动大模型普及的举措。值得一提的是,受制于大模型的高投入壁垒,今年以来小模型快速流行起来,许多模型公司瞄准行业场景、细分领域等寻求商业化突破。由此带来一个疑问:按照Scaling Law法则,大模型的通用性、智能水平要远超过小模型,但如果小模型效果比大模型好,是否驳斥了Scaling Law的合理性?张俊林指出,国产厂商一方面要重视Llama、Gemma等开源大模型的中文化工作,拥有当前最强中文模型的能力并不会弱于获得大量资金支持的专业大模型公司,而且投入小、性价比高;另一方面在做小模型时,要注重用Llama3.1 405B这种最强开源模型来蒸馏小模型的思路,不仅提升效果,而且也是小投入和产出的买卖。

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享]👈

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解
  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
      - L1.4.1 知识大模型
      - L1.4.2 生产大模型
      - L1.4.3 模型工程方法论
      - L1.4.4 模型工程实践
    • L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
      - L2.1.1 OpenAI API接口
      - L2.1.2 Python接口接入
      - L2.1.3 BOT工具类框架
      - L2.1.4 代码示例
    • L2.2 Prompt框架
      - L2.2.1 什么是Prompt
      - L2.2.2 Prompt框架应用现状
      - L2.2.3 基于GPTAS的Prompt框架
      - L2.2.4 Prompt框架与Thought
      - L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
      - L2.3.1 流水线工程的概念
      - L2.3.2 流水线工程的优点
      - L2.3.3 流水线工程的应用
    • L2.4 总结与展望
阶段3:AI大模型应用架构实践
  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
      - L3.1.1 Agent模型框架的设计理念
      - L3.1.2 Agent模型框架的核心组件
      - L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
      - L3.2.1 MetaGPT的基本概念
      - L3.2.2 MetaGPT的工作原理
      - L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
      - L3.3.1 ChatGLM的特点
      - L3.3.2 ChatGLM的开发环境
      - L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
      - L3.4.1 LLAMA的特点
      - L3.4.2 LLAMA的开发环境
      - L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景
学习计划:
  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的所有 ⚡️ 大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

全套 《LLM大模型入门+进阶学习资源包↓↓↓ 获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享👈

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1955623.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++——类和对象(中)

目录 一、类的默认成员函数 二、构造函数 三、析构函数 四、拷贝构造函数 五、运算符重载 1.基本知识 2.赋值运算符重载 3.取地址运算符重载 a.const成员函数 b.取地址运算符重载 一、类的默认成员函数 默认成员函数就是用户没有显式实现,编译器会自动生成…

[ECharts] There is a chart instance already initialized on the dom. 已存在图表,渲染重复

报错:已存在图表,渲染重复 解决: 在合适的时机执行 dispose 方法即可 // echarts 全局存入 实例 let myChart: any;// 在你的 initChart 初始化 Echarts 方法中 先执行清理方法 const initChart () > {// 执行清理方法然后初始化if(myChart){cons…

Linux中进程之间的通信

IPC的概念 即进程间的通信 常用方式: 1,管道通信:有名管道,无名管道 2,信号- 系统开销小 3,消息队列-内核的链表 4,信号量-计数器 5,共享内存 6,内存映射 7&…

轻松合并PDF文档:2024年精选工具指南

不知道你有没有做PDF文件的经历,特别是多部门协同的那种。这时候如果有个可以支持pdf合并的工具那简直不要太开心了。独乐乐不如众乐乐,我把我用过的一些PDF合并工具这里介绍一下吧。 1.PDF编辑器福晰在线 直达链接:https://edit.foxitclou…

Java并发编程(下)

volatile的应用 - volatile修饰类属性(类变量和实例变量),synchronized修饰类方法、代码块,同时volatile在并发中是**不安全**的 - 作用: - 使共享变量在多线程间可见,如果一个字段被声明成volatile&…

【Linux网络】应用层协议:HTTP 与 HTTPS

本篇博客整理了 TCP/IP 分层模型中应用层的 HTTP 协议和 HTTPS协议,旨在让读者更加深入理解网络协议栈的设计和网络编程。 目录 一、协议是什么 1)结构化数据的传输 2)序列化和反序列化 补)网络版计算器 .1- 协议定制 .2- …

在window将Redis注册为服务

将redis注册为系统服务,开启自启动 安装服务 默认注册完之后会自动启动,在window中的服务看一下,如果启动类型为自动,状态是自动运行则启动完成。如果是手动,需要右键属性调整为自动,在点击启动&#xff0c…

LangChain4j-RAG高级-检索增强器

Retrieval Augmentor 检索增强器 RetrievalAugmentor 是 RAG 管道的入口点。它负责使用从各种来源检索的相关 Content 来扩充 ChatMessage 。 可以在创建 AiService 期间指定 RetrievalAugmentor 的实例: Assistant assistant AiServices.builder(Assistant.cla…

Mysql-覆盖索引和前缀索引

一.SQL提示 SQL提示,是优化数据库的一个重要手段,简单来说,就是在SQL语句加入一些人为的提示来达到 二.覆盖索引 尽量使用覆盖索引(查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到),减少select* 知识小贴士: using index condition :查找…

chk是什么文件格式 chk文件怎么恢复正常 chkdsk文件损坏怎么修复

在使用电脑和移动存储设备时,有时我们会发现磁盘中出现了大量的chk文件。这些chk文件无法打开,也无法得知其原本内容。那么,这些chk文件是什么呢?又该如何将chk文件恢复正常呢? chk文件是什么? 在我们查看…

环境搭建-Docker搭建ClickHouse

Docker搭建ClickHouse 一、前言二、ClickHouse安装2.1 拉取镜像运行ClickHouse服务 三、测试安装3.1 进入clickhouse容器3.2 命令补充说明 四、测试连接五、设置CK的用户名密码 一、前言 本文使用的Docker使用Windows搭建,Linux版本的搭建方式一样。 Windows系统搭…

【HarmonyOS】HarmonyOS NEXT学习日记:七、页面与组件的生命周期

【HarmonyOS】HarmonyOS NEXT学习日记:七、页面与组件的生命周期 页面和组件 组件:用Component装饰的代码称为自定义组件页面:Entry装饰的组件即页面的根节点 组件生命周期 aboutToAppear:在创建自定义组件的新实例后&#xf…

GPS定位系统(VUE框架)

源码下载:小宅博客网 博主之前写的《GPS定位系统(MVC框架)》版本,并没有做到前后端分离,不太适合多人协作开发,这边博主分享一个基于asp.net web api vue3的GPS定位系统框架,本框架继承了MVC框…

【Hot100】LeetCode—416. 分割等和子集

目录 题目1- 思路2- 实现⭐152. 乘积最大子数组——题解思路 3- ACM 实现 题目 原题连接:416. 分割等和子集 1- 思路 理解为背包问题 思路: 能否将均分的子集理解为一个背包,比如对于 [1,5,11,5],判断能否凑齐背包为 11 的容量…

【shell】shell循环的几种方式

Shell循环的方式 for循环 for 变量名 in 值列表 do命令1命令2... done值列表情形: 值铺开变量数组 值铺开 变量 数组 while循环 while 条件判断 do命令1命令2... done条件判断情形 计算比较读取文本 计算比较 读取文本 until循环 until 条件 do命令1命令2... …

Imagination 面向大学推出 RISC-V 课程

Imagination Technologies发布了针对本科教学的 RISC-V 计算机架构完整课程,帮助学生了解处理器架构的关键元素,包括知识产权 (IP) 内核、修改 RISC-V 内核及其微架构。 该课程名为“RVfpga:理解计算机架构”,包含教学材料和实践…

【C++指南】类和对象(下)

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《数据结构与算法》 期待您的关注

论文阅读_字节的语音生成模型_Seed-TTS

英文名称: Seed-TTS: A Family of High-Quality Versatile Speech Generation Models 中文名称: Seed-TTS:高质量多功能语音生成模型系列 链接: http://arxiv.org/abs/2406.02430v1 代码: https://github.com/BytedanceSpeech/seed-tts-eval (评测工具) 演示网站&am…

shell-awk命令详解

目录 一.概述 二.工作原理 三.工作流程 1.运行模式 2.运行流程 四.基本语法 1.命令格式 2.常用变量  五.变量类型 1.内建变量 2.内置变量 3.BEGIN END运算  4.awk高级用法 5.awk if语句 6.BEGIN END循环 一.概述 AWK是一种处理文本文件的语言,是一…

深入分析 Android ContentProvider (六)

文章目录 深入分析 Android ContentProvider (六)ContentProvider 的性能优化和实践案例(续)1. 性能优化技巧(续)1.6. 使用批量插入优化性能示例:批量插入实现 1.7. 使用 Projections 优化查询示例:使用 Pr…