小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退...

news2024/11/19 1:34:59

过去一周,可谓是小模型战场最疯狂的一周,商业巨头改变赛道,向大模型say byebye~。

OpenAI、Apple、Mistral等“百花齐放”,纷纷带着自家性能优越的轻量化小模型入场。

小模型(SLM),是相对于大语言模型(LLM)而言的,它们一般来说具有较少的参数和较低的计算资源需求。

前OpenAI和特斯拉AI研究员Andrej Karpathy更是直言LLM大小竞争会出现逆转的趋势,预测模型将向着更小更智能的方向发展。

图片

为了快速理解,中文翻译如下:

大语言模型的尺寸竞争正在倒退...

我打赌我们会看到非常非常小的模型“思考”得非常好且可靠。很可能存在一个GPT-2参数的设置,大多数人会认为GPT-2是“聪明的”。当前模型如此大的原因是因为我们在训练期间仍然非常浪费——我们要求它们记住互联网,令人惊讶的是,它们确实做到了,并且可以例如背诵常见数字的SHA哈希值,或回忆非常深奥的事实。(实际上,大语言模型在记忆方面非常出色,质量上远胜于人类,有时只需要一次更新就能记住大量细节,并且长时间记住)。但想象一下,如果你要在闭卷考试中背诵互联网的任意段落,给出前几个词。这是当今模型的标准(预)训练目标。更难的是,因为思考的演示在训练数据中是与知识“纠缠”的。

因此,模型必须先变大,然后才能变小,因为我们需要它们(自动化)的帮助将训练数据重构和模塑成理想的、合成的格式。

这是一个改进的阶梯——一个模型帮助生成下一个模型的训练数据,直到我们获得“完美的训练集”。当你在这个训练集上训练GPT-2时,它将是一个非常强大且聪明的模型,以今天的标准来看。也许MMLU会低一些,因为它不会完美记住所有的化学知识。也许它需要偶尔查找一些东西以确保准确。

GPT-5迟迟没有到来,GPT-4o mini的发布仿佛给大模型的狂飙速度踩了一脚刹车。过去一周,小模型的诞生发布可谓疯狂。

  • 7月18日,OpenAI 发布了 GPT-4o mini:在MMLU(文本智能和推理基准测试)中得分为82.0%

  • 7月18日,Apple发布了 DCLM 7B :真正的开源,性能碾压 Mistral 7B

  • 7月18日,Mistral & Nvidia 发布了 NeMo 12B:性能优于 Llama 3 8B, Gemma 2 9B

  • 7月16日,HuggingFace 发布了SmolLM - 135M、360M 和 1.7B:仅使用 650B 个 token 进行训练,击败Qwen 1.5B、Phi 1.5B

  • 7月17日,Groq 发布了 Llama 3 8B 和 70B 工具使用和函数调用模型:在 Berkely 函数调用排行榜 (BFCL) 上实现了 90.76% 的准确率

  • 7月19日,Salesforce 发布了 xLAM 1.35B 和 7B 大型动作模型:7B 模型在 BFCL 上的得分为 88.24%, 2B为78.94%

让我们一起看看这些小模型各自都有什么特点?性能如何?

OpenAI 发布 GPT-4o mini,主打实惠

当地时间 7 月 18 号,OpenAI 正式发布了 GPT-4o Mini。OpenAI称,GPT-4o mini是OpenAI最智能和最实惠的小模型。

图片

GPT-4o Mini主打的就是一个经济实惠,甚至比曾被认为OpenAI最轻量级且高性价比的GPT-3.5 Turbo还要便宜60%以上。

不仅便宜,GPT-4o Mini性能也十分优越。

在MMLU(文本和推理能力)测试中,GPT-4o mini能拿到82%的得分。

在LMSYS(指聊天机器人对战)排行榜上还超过GPT-4。

不仅如此,GPT-4o mini在数学和编码任务、多模态推理任务方面,也都超过了GPT-3.5 Turbo和其他小型模型。

Apple发布DCLM,数据、模型权重、训练代码全开源!

苹果公司的人工智能团队和华盛顿大学等多家机构合作,推出一款名叫 DCLM的开源语言模型。

图片

DCLM包含两种参数规模--70亿和14亿。其中70亿参数基础模型,在开放数据集上使用2.5T tokens进行训练,拥有2048tokens上下文窗口。

众所周知,优质的数据集在模型训练过程必不可少,而数据集的获取却并不容易,需要过滤到无关和有害的数据,并且去除重复信息。

针对数据集获取的挑战,苹果研究团队提出了DataComp for Language Models(简称 DCLM),用于语言模型的数据集优化。

其使用一个标准化的框架来进行实验,包括固定的模型架构、训练代码、超参数和评估,最终找出哪种数据整理策略最适合训练出高性能的模型。

基于上述思路,团队构建了一个高质量数据集DCLM-BASELINE,并用它从头训练了一个7B参数模型——DCLM-7B。

该模型性能已经超越了 Mistral-7B,并且正在逼近其他领先的开源模型,包括 Llama 3 和 Gemma。

苹果ML小组研究科学家Vaishaal Shankar表示:这是迄今为止表现最好的真正开源大模型,做到了数据、模型权重、训练代码全开源

图片

同时Vaishaal Shankar还补充道:苹果后续还会发布模型的中间检查点和优化器状态。

图片

谁听了不道一声赞,堪称开源界的模范标杆。

图片

模型:
https://huggingface.co/apple/DCLM-7B
数据集:
https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
仓库:
https://github.com/mlfoundations/dclm

Mistral&Nvidia 发布NeMo 12B,企业级人工智能!

英伟达和法国初创公司 Mistral AI联手发布Mistral-NeMo AI大语言模型,其拥有 120 亿个参数,上下文窗口(AI 模型一次能够处理的最大 Token 数量)为 12.8 万个 token。

图片

Mistral-NeMo AI 大模型主要面向企业环境,旨在让企业不需要使用大量云资源的情况下,实施人工智能解决方案

Mistral NeMo,根据Apache 2.0许可证发布,允许商业使用,任何人皆可下载使用。开发人员可以轻松定制和部署支持聊天机器人、多语言任务、编码和摘要的企业应用程序。

与同等参数规模模型相比,它的推理、世界知识和编码准确性都处于领先地位

在与Gemma 2 9B和Llama 3 8B的多项对比中,Mistral NeMo在多项基准测试中表现优异。

图片

链接:
https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407 https://huggingface.co/mistralai/Mistral-Nemo-Base-2407

HuggingFace 发布SmolLM - 135M、360M 和 1.7B,可在手机运行!

SmolLM系列专为移动设备上运行设计,意味着一部手机就可以运行!且不会影响到设备端性能与用户隐私。其具有三种规模,分别是1.35亿、3.6亿和17亿个参数,目的是为了适应各种计算资源。

图片

Hugging Face在训练这些模型时,精心构造了一个叫做SmolLM-Corpus的优质数据集,这个数据集包含了丰富的教育和合成数据,确保模型能够学习到各种知识。

尽管占用空间小,但这些模型在测试常识推理和世界知识的基准测试中表现出了优异的成绩。

最小的模型SmolLM-135M在训练的标记数量更少的情况下,性能超过了Meta的MobileLM-125M。SmolLM-360M超越了所有5亿参数以下的模型,包括Meta和Qwen的产品。SmolLM-1.7B在多项基准测试中击败了微软的Phi-1.5、Meta的MobileLM-1.5B和Qwen2-1.5B。

图片

Hugging Face将整个开发过程开源,从数据管理到训练步骤。这种透明度符合该公司对开源价值观和可重复研究的承诺。

产品入口:
https://top.aibase.com/tool/smollm
模型:
https://huggingface.co/blog/smollm

Groq发布Llama3函数调用专用模型,BFCL排名第一

Grop发布了一款专为工具使用设计的新开源模型--Llama3函数调用专用模型,其具有两种规模,分别是8B和70B,均是基于Llama 3开发。

图片

模型是Groq与 Glaive 合作开发的,代表了开源 AI 在工具使用/函数调用能力方面的重要进步。

大家可以通过Groq API以1050 tok/s的超快速度获取 8B 模型和330 tok/s的70B模型,也可以从Hugging Face下载开源权重,进行自定义训练。

Llama-3-Groq-70B-Tool-Use模型在伯克利函数调用排行榜(BFCL)上排名第一,总体准确率为 90.76%,优于所有其他开源和专有模型,击败了包括 Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o 和 Gemini 1.5 Pro 在内的所有模型。

图片

模型:
https://huggingface.co/Groq/Llama-3-Groq-70B-Tool-Use

https://huggingface.co/Groq/Llama-3-Groq-8B-Tool-Use

Salesforce 发布xLAM,自主计划并执行任务以实现特定目标!

大型动作模型 (LAMs) 是先进的大型语言模型,旨在增强决策能力并将用户意图转化为可执行的操作,与现实世界进行交互。

Salesforce提供了一系列不同规模的 xLAMs,以满足各种应用需求,包括那些优化用于函数调用和通用代理应用的模型:fc 系列模型针对函数调用能力进行了优化,能够根据输入查询和可用的 API 提供快速、准确和结构化的响应。

图片

本次发布的xLAM fc系列包含两种参数规模--13.5亿和70亿。

在 BFCL(函数调用排行榜)上与 GPT4 和 Claude 3.5 竞争击败几乎所有开放访问模型(command r plus、Mixtral 8x22B等)。

7B 得分为 88.24%,而2B在 BFCL 上的得分为 78.94%

图片

Salesforce在Hugging Face上开源了模型和 DeepSeek 编码器生成的数据集。

模型:
https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4

数据集:
https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k

AI未来:向多元化方向发展

虽然小模型在效率方面具有其独特的优势,但由于参数量限制,它们在许多的任务上的处理能力可能无法与大语言模型匹敌。

各种规模的模型都有其优势和劣势所在,在未来的AI发展格局中,无论是大模型还是小模型,少了谁都不行。关键在于找到模型规模、性能和具体应用要求之间的平衡,才能发挥其最大价值。

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1955389.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小游戏之三消(二)主要游戏控制方法

设计一个 game class。负责了游戏的核心控制逻辑,包括游戏状态管理、方块和道具的生成与效果处理,以及游戏的重新开始和复活流程。通过这些方法,脚本实现了游戏的基本玩法和用户交互。 主要游戏控制方法 gameStart():开始游戏&am…

如何从网站获取表格数据

1.手动复制粘贴 最简单的方法是直接在网页上手动选择表格内容,然后复制粘贴到Excel或其他表格处理软件中。这种方法适用于表格较小且不经常更新的情况。 2.使用浏览器插件 有许多浏览器插件可以帮助从网页中提取表格数据,例如: -TableCapt…

liteos定时器回调时间过长造成死机问题解决思路

项目需求 原代码是稳定的,现我实现EMQ平台断开连接的时候,把HSL的模拟点位数据采集到网关,然后存入Flash,当EMQ平台连接的时候,把Flash里面的点位数据放在消息队列里面,不影响实时采集。 核心1&#xff1a…

【Linux】多线程4——线程同步/条件变量

1.Linux线程同步 1.1.同步概念与线程饥饿问题 先来理解同步的概念 什么是线程同步 在一般情况下,创建一个线程是不能提高程序的执行效率的,所以要创建多个线程。但是多个线程同时运行的时候可能调用线程函数,在多个线程同时对同一个内存地…

【文件fd】C++文件操作 | 详解系统调用接口文件操作 | 系统调用接口库函数

目录 1.回顾理解&引出问题 2.C文件操作 3.系统调用文件操作 3.0准备工作 3.1版本1☞open 3.2版本2☞文件权限 3.3版本3☞权限掩码 3.4版本3☞标记位传参 3.5版本4☞close 3.6版本5☞write 3.7flags选项 3.7.1 O_WRONLY | O_CREAT 3.7.2 O_WRONLY | O_CREAT …

Servlet详解(超详细)

Servlet详解 文章目录 Servlet详解一、基本概念二、Servlet的使用1、创建Servlet类2、配置Servleta. 使用web.xml配置b. 使用注解配置 3、部署Web应用4、处理HTTP请求和生成响应5、处理表单数据HTML表单Servlet 6、管理会话 三、servlet生命周期1、加载和实例化2、初始化3、 请…

Python爬虫入门02:Fiddler下载使用教程

文章目录 手机抓包全攻略:Fiddler 工具深度解析引言Fiddler 工具简介为什么选择 Fiddler? 安装与配置 Fiddler步骤一:下载与安装步骤二:配置浏览器代理步骤三:安装 HTTPS 证书 配置手机以使用 Fiddler步骤一&#xff1…

鸿蒙应用框架开发【OpenGL三棱椎】 NDK

OpenGL三棱椎 介绍 XComponent控件常用于相机预览流的显示和游戏画面的绘制,在HarmonyOS上,可以配合Native Window创建OpenGL开发环境,并最终将OpenGL绘制的图形显示到XComponent控件。本示例基于"Native C"模板,调用OpenGL(Open…

wpf中团队独立开发模块和左侧2个菜单的框架演示

此篇文章和上一篇文章wpf中开发独立模块功能和左侧1个菜单的框架演示-CSDN博客的结构是一样的,有1点不同的是,左侧有2层菜单,所以,就会更加的复杂。建议,先看明白上一篇的内容,再看这篇文章,否则…

CSS实现表格无限轮播

<div className{styles.tableTh}><div className{styles.thItem} style{{ width: 40% }}>报警名称</div><div className{styles.thItem} style{{ width: 35% }}>开始时间</div><div className{styles.thItem} style{{ width: 25% }}>状态&…

前端三大主流框架对比

在现代前端开发中&#xff0c;React、Vue和Angular是三大流行的框架/库。它们各自有独特的优缺点&#xff0c;适用于不同的开发需求和项目规模。下面是对这三者的详细比较&#xff1a; 一、 React 简介&#xff1a; 由Facebook开发和维护&#xff0c;是一个用于构建用户界面…

亚博科技和幻尔科技的十轴IMU在Ros2 Humble下驱动后数值无限趋于0的解决方案

在做机器人导航以及建模的时候&#xff0c;考虑到多传感器融合可能会带来更好的效果&#xff0c;于是决定使用幻尔科技的十轴IMU&#xff08;其实亚博科技与幻尔科技这块IMU的内部完全一致&#xff0c;驱动代码都完全一致&#xff09;驱动后使用以下命令输出传来的四元数等数据…

自写ApiTools工具,功能参考Postman和ApiPost

近日在使用ApiPost的时候&#xff0c;发现新版本8和7不兼容&#xff0c;也就是说8不支持离线操作&#xff0c;而7可以。 我想说&#xff0c;我就是因为不想登录使用才从Postman换到ApiPost的。 众所周知&#xff0c;postman时国外软件&#xff0c;登录经常性抽风&#xff0c;…

Mike SHE里如何正确设置分区降雨

前言&#xff1a; MIKE SHE分布式水文模型现阶段用于流域洪水的项目比较多&#xff0c;因属于大尺度模型&#xff0c;基本可以模拟水循环全过程&#xff0c;包含降雨—蒸发——产汇流—地表水—地下水等。同时还可以耦合MIKE11水动力水质模型。 今天给大家介绍下MIKESHE是如何…

从零到一使用 Ollama、Dify 和 Docker 构建 Llama 3.1 模型服务

本篇文章聊聊&#xff0c;如何使用 Ollama、Dify 和 Docker 来完成本地 Llama 3.1 模型服务的搭建。 如果你需要将 Ollama 官方不支持的模型运行起来&#xff0c;或者将新版本 llama.cpp 转换的模型运行起来&#xff0c;并且想更轻松的使用 Dify 构建 AI 应用&#xff0c;那么…

进程间的通信(IPC)--管道

1.进程间通信常用的方式 1 &#xff0c;管道通信&#xff1a;有名管道&#xff0c;无名管道 2 &#xff0c;信号 - 系统开销小 3 &#xff0c;消息队列 - 内核的链表 4 &#xff0c;信号量 - 计数器 5 &#xff0c;共享内存 6 &#xff0c;内存映射 7 &#xff0c;套接…

人称“灯爷”的灯光师到底要做些什么,看看他的岗位说明书

灯光师又称“灯爷”,是摄影制作部门负责灯光设备的技术人员,一般归摄影指导调配。被尊称“爷”,可见灯光师的地位不容小觑。那么这个岗位到底要做些什么呢&#xff1f; 岗位职责&#xff1a; 1、负责公司灯光设备的调制、维护和保养&#xff1b; 2、负责各包房灯光设备的调制、…

Mac环境报错 error: symbol(s) not found for architecture x86_64

Mac 环境Qt Creator报错 error: symbol(s) not found for architecture x86_64 错误信息 "symbol(s) not found for architecture x86_64" 通常是在编译或链接过程中出现的问题。这种错误提示通常涉及到符号未找到或者是因为编译器没有找到适当的库文件或函数定义。 …

基于springboot+vue+uniapp的养老院系统小程序

开发语言&#xff1a;Java框架&#xff1a;springbootuniappJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#…