新款 GPT-4o mini、Llama 3.1、Mistral NeMo 12B 和其他 GenAI 趋势指南

news2025/4/28 18:23:42

作者使用 GPT-4o 创建的图像,用于表示不同的模型

欢迎来到雲闪世界。自 2022 年 11 月推出 ChatGPT 以来,几乎每周都会出现新的模型、新颖的提示方法、创新的代理框架或其他令人兴奋的 GenAI 突破。2024 年 7 月也不例外:仅在本月,我们就看到了Mistral Codestral Mamba、Mistral NeMo 12B、GPT-4o mini和Llama 3.1等的发布。这些模型在推理速度、推理能力、编码能力和工具调用性能等领域带来了显着的增强,使其成为商业用途的有力选择。

在本文中,我们将介绍最近发布的模型的亮点,并讨论当今 GenAI 的一些主要趋势,包括增加上下文窗口大小以及提高跨语言和模态的性能。

7 月发布车型概览

米斯特拉尔·科德斯特拉尔·曼巴

  • 概述:Codestral Mamba 7B 旨在使用Mamba 架构(而不是大多数语言模型使用的 Transformer 架构)来增强推理和编码能力。此架构支持对更长的序列进行上下文检索,并且已针对最多 256K 个 token 的序列进行了测试。相比之下,大多数基于 Transformer 的模型允许 8-128K 个 token 上下文窗口。与基于 Transformer 的模型相比,Mamba 架构还能够实现更快的推理速度。
  • 可用性:Codestral Mamba 是 Apache 2.0 许可下的开源模型。
  • 性能:Codestral Mamba 7B 在 HumanEval、MBPP、CruxE、HumanEval C++ 和 Human Eval JavaScript 基准测试中的表现优于 CodeGemma-1.1 7B、CodeLlama 7B 和 DeepSeekv1.5 7B。尽管尺寸较小,但它在这些基准测试中的表现与 Codestral 22B 相似。

图片由作者根据 Mistral AI Codestral Mamba 公告的结果创建

米斯特拉尔 NeMo 12B

  • 概述:Mistral NeMo 12B 由 Mistral 和 Nvidia 生产,旨在提供 12B 参数范围内具有竞争力的语言模型,其上下文窗口比大多数这种尺寸的模型大得多。Nemo 12B 具有128K 标记上下文窗口,而类似大小的模型 Gemma 2 9B 和 Llama 3 8B 仅提供 8K 标记上下文窗口。NeMo专为多语言用例而设计,并提供了一个新的标记器Tekken,它在压缩 85% 语言的文本方面优于 Llama 3 标记器。HuggingFace 模型卡表明NeMo 的使用温度应低于早期的 Mistral 模型,他们建议将温度设置为 0.3。
  • 可用性:NeMo 12B 是 Apache 2.0 许可下的开源模型(提供基础和指令调整检查点)。
  • 性能:Mistral NeMo 12B 在多个零次和五次基准测试中的表现比 Gemma 2 9B 和 Llama 3 8B 好 10%。它在 WildBench 上的表现也比 Mistral 7B 高出近 2 倍,WildBench 旨在衡量模型在需要复杂推理和多轮对话的实际任务中的表现。

图片由作者根据Mistral AI NeMo 公告的结果创建

GPT-4o 迷你

  • 概述:GPT-4o mini 是一个小型、经济高效的模型,支持文本和视觉,并提供具有竞争力的推理和工具调用性能。它有一个128K 令牌上下文窗口,输出令牌长度高达16K 。它是 OpenAI 最具成本效益的模型,每百万输入令牌 15 美分,每百万输出令牌 60 美分。OpenAI 指出,这个价格比他们 2022 年的 text-davinci-003 模型便宜 99%,这表明在相对较短的时间内趋势是更便宜、更小、功能更强大的模型。虽然 GPT-4o mini 不像 GPT-4o 那样支持图像、视频和音频输入,但 OpenAI 报告说这些功能即将推出。与 GPT-4o 一样,GPT-4o mini 也经过了内置安全措施的训练,并且是第一个应用指令层次结构方法的 OpenAI 模型,旨在使模型更能抵抗提示注入和越狱。 GPT-4o mini 利用与 GPT-4o 相同的标记器,从而提高非英语文本的性能
  • 可用性:GPT-4o mini 是一个闭源模型,可通过 OpenAI 的 Assistants API、Chat Completions API 和 Batch API 使用。它也可通过Azure AI使用。
  • 性能:GPT-4o mini 在多个基准测试中均优于同等规模的模型 Gemini Flash 和 Claude Haiku,其中包括用于衡量推理能力的MMLU(大规模多任务语言理解)、衡量数学推理的MGSM(多语言小学数学)、衡量编码能力的HumanEval和衡量多模态推理的MMMU(大规模多学科多模态理解与推理基准)。

作者根据GPT-4o mini 公告的结果绘制的图像

骆驼 3.1

  • 概述:Llama 3.1 引入了128K 令牌上下文窗口,与 4 月份仅发布三个月的 Llama 3 的 8K 令牌上下文窗口相比,这是一个重大飞跃。Llama 3.1 有三种大小:405B、70B 和 8B。它提供了改进的推理、工具调用和多语言性能。Meta 的 Llama 3.1 公告称Llama 3.1 405B 是“第一个前沿级开源 AI 模型”。这表明开源社区向前迈出了一大步,并表明了 Meta 致力于让 AI 触手可及的承诺,马克·扎克伯格在他的文章“开源 AI 是前进的道路”中对此进行了更详细的讨论。Llama 3.1 公告还包括有关启用常见用例的指南,如实时和批量推理、微调、RAG、持续预训练、合成数据生成和提炼。 Meta 还发布了Llama 参考系统,以支持开发人员使用 Llama 3.1 和其他AI 安全工具处理基于代理的用例,包括用于调节多种语言输入和输出的 Llama Guard 3、用于缓解提示注入的 Prompt Guard 和用于降低 GenAI 安全风险的 Cyber​​SecEval 3。
  • 可用性:Llama 3.1 是一个开源模型。Meta 已更改其许可证,允许开发人员使用 Llama 模型的输出来训练和改进其他模型。模型可通过 HuggingFace、llama.meta.com 和其他合作伙伴平台(如 Azure AI)获取。
  • 性能:在推理、编码、数学、工具使用、长上下文和多语言性能等几乎所有常见语言模型基准测试中,Llama 3.1 模型的表现都优于同规模类别的其他模型。

图片由作者根据Meta Llama 3.1 公告的结提供

GenAI 模型的趋势

总体而言,各种规模的模型都越来越强大,具有更长的上下文窗口、更长的 token 输出长度和更低的价格点。对改进推理、工具调用和编码能力的推动反映了对能够代表用户采取复杂行动的代理系统日益增长的需求。要创建有效的代理系统,模型需要了解如何分解问题、如何使用可用的工具以及如何一次协调大量信息。

OpenAI 和 Meta 最近发布的公告反映了围绕 AI 安全的讨论日益增多,两家公司展示了应对同一挑战的不同方法。OpenAI 采取了闭源方法,通过采纳社会心理学和错误信息专家的反馈并实施新的训练方法来提高模型安全性。相比之下,Meta 加倍投入开源计划,并发布了专注于帮助开发人员缓解 AI 安全问题的新工具。

作者使用 GPT-4o 创建的图像描绘了封闭和开源模型相互竞争的舞台。

结论

未来,我认为我们将继续看到通才模型和专才模型的进步,GPT-4o 和 Llama 3.1 等前沿模型在分解问题和跨模态执行各种任务方面越来越好,而 Codestral Mamba 等专才模型将在其领域中表现出色,并更善于处理其专业领域内的更长上下文和细微任务。此外,我预计我们将看到新的基准,重点关注模型在一次转折中同时遵循多个方向的能力,以及大量利用通才模型和专才模型以团队形式执行任务的 AI 系统。

此外,虽然模型性能通常是根据标准基准来衡量的,但最终重要的是人类如何看待性能以及模型如何有效地实现人类目标。Llama 3.1 公告中包含一个有趣的图表,展示了人们如何评价 Llama 3.1 与 GPT-4o、GPT-4 和 Claude 3.5 的响应。结果显示,Llama 3.1 在超过 50% 的例子中与人类打成平手,其余的胜率大致在 Llama 3.1 和它的挑战者之间平分秋色。这很重要,因为它表明开源模型现在可以轻松地在以前由闭源模型主导的联盟中竞争。

感谢关注雲闪世界。(亚马逊aws和谷歌GCP服务协助解决云计算及产业相关解决方案)

 订阅频道(https://t.me/awsgoogvps_Host)
 TG交流群(t.me/awsgoogvpsHost)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1956374.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UDP connect 内核源码分析

1 从诡异开始 最近遇到一个线上问题,client 发了一个 udp 请求,服务器回了一个响应,但诡异的是,client 的 log 却看不到对应的处理日志。抓包发现内核发出了一个指示 udp 目的端口不可达的 icmp 报文,类似这样的&#…

【基于PSINS】UKF/SSUKF对比的MATLAB程序

UKF与SSUKF UKF是:无迹卡尔滤波 SSUKF是:简化超球面无迹卡尔曼滤波 UKF 相较于传统的KF算法,UKF能够更好地处理非线性系统,并且具有更高的估计精度。它适用于多种应用场景,如机器人定位导航、目标跟踪、信号处理等。…

机器学习 | 计算分类算法的ROC和AUC曲线以随机森林为例

受试者工作特征(ROC)曲线和曲线下面积(AUC)是常用的分类算法评价指标,本文将讨论如何计算随机森林分类器的ROC 和 AUC。 ROC 和 AUC是量化二分类区分阳性和阴性类别能力的度量。ROC曲线是针对不同分类阈值的真阳性率&…

Mac电脑 系统监测工具 System Dashboard Pro【简单操作,小白轻松上手】

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行软件,将其从左侧拖入右侧文件夹中,等待安装完毕2、应用程序显示软件图标,表示安装成功 三、运行测试安装完成!!! 效果 一、下载软件 下载软件…

opencascade AIS_PlaneTrihedron 源码学习

AIS_PlaneTrihedron 前言 构建一个可选择的2D轴系在3D绘图中。 这个轴系可以放置在3D系统中的任何位置,提供一个用于在平面中绘制曲线和形状的坐标系。 有三种选择模式: 模式0 选择整个平面“trihedron” 模式1 选择平面“trihedron”的原点 模式2 选择…

Nuxt.js 路由管理:useRouter 方法与路由中间件应用

title: Nuxt.js 路由管理:useRouter 方法与路由中间件应用 date: 2024/7/28 updated: 2024/7/28 author: cmdragon excerpt: 摘要:本文介绍了Nuxt 3中useRouter方法及其在路由管理和中间件应用中的功能。内容包括使用useRouter添加、移除路由&#xf…

Cesium高性能渲染海量矢量建筑

0、数据输入为类似Geojson的压缩文件和纹理图片,基于DrawCommand命令绘制; 1、自定义建筑几何,包括顶点、法线、纹理等; 2、自定义纹理贴图,包括按建筑高度贴图、mipmap多级纹理; 3、自定义批处理表&…

我的新书《Android系统多媒体进阶实战》正式发售了!!!

我的新书要正式发售了,把链接贴在下面,感兴趣的朋友可以支持下。 ❶发售平台:当当,京东,抖音北航社平台,小红书,b站 ❷目前当当和京东已开启预售 ❸当当网 https://u.dangdang.com/KIDHJ ❹…

22 B端产品经理与MySQL基本查询、排序(2)

MySQL基本常识 MySQL:一种关系型数据库管理系统。是按照数据结构来组织、存储和管理数据的仓库。 数据库:是一些关联数据表的集合。 数据表:表是数据的矩阵,看起来像电子表格,如下图:user表和admin表。 …

⌈ 传知代码 ⌋ 红外小目标检测

💛前情提要💛 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间,对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

keil5导入程序到stm32的开发板

如图, 1,安装mdk_514.exe 2,安装Keil.STM32F1xx_DFP.1.0.5.pack 3,注册方法(仅限学生使用):http://www.openedv.com/thread-69384-1-1.html 点击keil程序的上面魔法棒, 在device中…

类中的function无法正确被matlab所识别,该怎么操作呢?

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

【Linux】CentOS更换国内阿里云yum源(超详细)

目录 1. 前言2. 打开终端3. 确保虚拟机已经联网4. 备份现有yum配置文件5. 下载阿里云yum源6. 清理缓存7. 重新生成缓存8. 测试安装gcc 1. 前言 有些同学在安装完CentOS操作系统后,在系统内安装比如:gcc等软件的时候出现这种情况:&#xff08…

SpringBoot3如何整合Redis?

SpringBoot应该不用介绍!它是Spring当前最火的一个框架,整合Spring Boot 3和Redis可以显著提升应用程序的性能,特别是在处理大量数据和需要快速访问的场景下。 在Spring Boot中,从1.x版本到2.x版本的Redis连接方式发生了变化&…

点脂成金携手北京新颜兴医疗美容医院,共启战略合作新篇章

2024年7月24日上午,点脂成金品牌方与北京新颜兴医疗美容医院在京举行了隆重的签约仪式,宣布达成战略合作关系,共同开启医疗美容领域的设备共享新篇章。 签约仪式在北京纯脂医疗美容门诊部有限公司举行,现场氛围热烈而庄重。点脂成…

使用 WebSocket 实现实时聊天

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

基于opencv的人脸识别(实战)

前言 经过这几天的学习,我已经跃跃欲试了,相信大家也是,所以我决定自己做一个人脸识别程序。我会把自己的思路和想法都在这篇博客内讲清楚,大家可以当个参考,🌟仅供学习使用🌟。 &#x1f31f…

黑马程序员2024最新SpringCloud微服务开发与实战 个人学习心得、踩坑、与bug记录Day5 全网最快最全

你好,我是Qiuner. 为帮助别人少走弯路和记录自己编程学习过程而写博客 这是我的 github https://github.com/Qiuner ⭐️ gitee https://gitee.com/Qiuner 🌹 如果本篇文章帮到了你 不妨点个赞吧~ 我会很高兴的 😄 (^ ~ ^) 想看更多 那就点个关注吧 我会…

树莓派_Opencv学习笔记23:模版样本匹配

今日继续学习树莓派4B 4G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: ​ Opencv 版本是4.5.1: ​ Python 版本3.7.3: 今日学习Opencv样本…

香烟商品销售网站

1 香烟商品销售网站概述 1.1 课题简介 1.2 设计目的 1.3 系统开发所采用的技术 1.4 系统功能模块 2 数据库设计 2.1 建立的数据库名称 2.2 所使用的表 3 香烟商品销售网站设计与实现 1. 注册登录: 2. 分页查询: 3. 分页条件(精确、…