2024年5月LLM最新排名:GPT-4o出道即巅峰!国内3个大模型榜上有名!

news2024/9/22 13:32:12

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

大语言模型Large Language Model,简称LLM)是当下生成式AI应用的核心,可以理解为一辆汽车的“引擎”,一个应用程序的“大脑”。LLM模型的通用基础能力是AI工具性能表现的基础。今天是2024年5月25日,我们来聊一聊当前LLM模型的最新排名情况。

全球LLM模型综合排名

本排名的数据来源为LMSYS Chatbot Arena Leaderboard。LMSYS全称为LMSYS Organization,由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立,是一个专注于LLM模型研究和评估的组织。他们开发了Chatbot Arena,这是一个开放的LLM模型测评平台,旨在通过收集用户反馈来评估和比较不同LLMs的性能。Chatbot Arena的核心功能包括模型对战(Arena Battle),实时聊天(Direct Chat),排行榜(Leaderboard)。

LMSYS采用了类似于国际象棋等竞技游戏中广泛使用的Elo评分系统,通过众包方式进行匿名、随机对抗测评。在Chatbot Arena中,系统会随机选择两个不同的大型语言模型进行比较,用户在与这些模型的互动中进行评估,并在匿名的情况下选择哪款模型的表现更佳。这种评测方式旨在提供一个公正、透明的评估环境,帮助研究者和开发者了解和改进他们的模型。

截至目前,LMSYS共有99个大语言模型参与测评,总投票数已超百万。

排名模型综合得分投票数组织知识截止日期
🥇 1GPT-4o-2024-05-13128720156OpenAI2023/10
🥈 2GPT-4-Turbo-2024-04-09125262203OpenAI2023/12
🥉 3GPT-4-1106-preview125082286OpenAI2023/4
4Gemini 1.5 Pro API-0409-Preview124862929Google2023/11
5Claude 3 Opus1246121218Anthropic2023/8
6GPT-4-0125-preview124476435OpenAI2023/12
7Yi-Large-preview12361567101 AI未知
8Llama-3-70b-Instruct1203129016Meta2023/12
9Claude 3 Sonnet119997268Anthropic2023/8
10Bard (Gemini Pro)120812387Google在线
11Reka-Core-20240501119537076Reka AI未知
12GPT-4-0314118855378OpenAI2021/9
13Command R+118862689Cohere2024/3
14Qwen-Max-0428118623568Alibaba未知
15Claude 3 Haiku118186889Anthropic2023/8
16GLM-4-011611756167Zhipu AI未知

GPT-4系列模型

几乎是毫无疑问地,GPT-4系列模型夺得前三甲,尤其是5月13日刚推出的GPT-4o模型,更是在刚发布就直接登顶,可谓是“出道即巅峰”,而排在第二和第三的分别是GPT-4-Turbo-2024-04-09GPT-4-1106-preview。值得一提的是,本次排名的依据是LLM竞技场的综合得分,从上面的得分可以看到,GPT-4o和后面的模型在得分上差距还是非常明显的,领先第二名35分之多。

谷歌Gemini系列模型

在这个最新的排行榜里,谷歌的Gemini 1.5 Pro以微弱的优势打败了Claude 3 Opus,位居第四。在之前我也写了不少的文章来介绍Gemini 1.5 Pro模型,首先是它的上下文长度,达到了惊人的100万(确切的说是104万tokens),而5月份的谷歌I/O开发者大会上,更是宣布Gemini 1.5 Pro的上下文长度已经达到了200万,但这个长度需要提交申请排waitlist才能体验。其次是它的多模态能力。最重磅的是它支持视频输入,直接就能够分析视频内容。

根据谷歌最新的通知邮件,Gemini 1.5 ProAPI将于5月30日开始正式收费,但在Google AI Studio中使用该模型仍然免费。想体验的小伙伴可以看我这篇介绍文章:谷歌Gemini 1.5 Pro向所有人开放,无需waitlist!阿里通义千问升级1000万字长文档处理功能!。

Claude 3系列模型

Claude 3系列模型共有3档:Claude 3 OpusClaude 3 SonnetClaude 3 Haiku。这三挡模型的能力依次降低,响应速度依次提高,价格依次降低。这其实也很好理解,推理能力越强的模型需要更多的时间来理解、推断,所以响应速度也就相对较慢。值得一提的是,Claude 3 Opus曾经超越GPT-4,登顶这个排行榜,后来又被反超。

目前Claude 3 Opus排在第5名,Claude 3 Sonnet第9,而Claude 3 Haiku则位列第15名。

国产模型:Yi-Large-preview

第7名,这是目前国产LLM模型在LMSYS榜单中的最高排名,来自零一万物的Yi-Large-preview。不得不说,这是国内AI领域的荣耀时刻。在此之前,仅有阿里的通义大模型跻身进入过前10名。

零一万物公司由创新工场创始人兼CEO李开复领导,成立于2023年,短短几个月内就发布了首款中英双语大模型Yi系列。Yi-Large模型是Yi系列模型的最新力作,是一款拥有千亿参数的闭源大模型。除了本文提到的LMSYS排行榜,在斯坦福大学最新的AlpacaEval 2.0评估中,Yi-Large在全球大模型的胜率排名第三,仅次于GPT-4oGPT-4-Turbo,在中文SuperCLUE评估中则位于国产大模型的榜首​。

国产模型:Qwen-Max-0428

来自阿里的通义系列模型之一的Qwen-Max-0428,当前排名为第14名。不得不说,最为去年才开始爆发的新兴领域,AI大模型真是卷的厉害。通义千问的这个模型前几天还是排名第10,过了几天就被打到了第14名。当然,卷意味着技术的进步,对我们用户来说是件好事。

注意,这里的Qwen-Max-0428是通义系列模型中的一个闭源的商用模型,而不是开源模型。

国产模型:GLM-4-0116

GLM-4-0116模型来自智谱AI,就是开发智谱清言这款AI工具的主体公司。目前GLM-4-0116排名第16名。智谱AI这家公司源自清华大学计算机系的技术成果转化,致力于打造新一代认知智能通用模型。根据公开资料,GLM-4-0116是智谱AI最新发布的第四代基座大模型,其性能逼近GPT-4,具备强大的多模态能力、长文本处理能力和智能体定制能力。该模型支持128K的上下文窗口长度,可以在一次提示词中处理高达300页的文本。在长文本处理能力测试中,GLM-4在128K文本长度内的精度召回率几乎达到100%。


精选推荐

  1. 使用GPT-4o模型的5种方法,总有一种适合你!

  2. 关于最新模型GPT-4o的14条总结,都在这里!

  3. 免费的GPT4终于要来了!OpenAI直播发布会详细解读!

  4. 春日暖阳,何不来看一场OpenAI的发布会


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1696441.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

orin部署tensorrt、cuda、cudnn、pytorch、onnx

绝大部分参考https://blog.csdn.net/qq_41336087/article/details/129661850 非orin可以参考https://blog.csdn.net/JineD/article/details/131201121 报错显卡驱动安装535没法安装、原始是和l4t-cuda的部分文件冲突 Options marked [*] produce a lot of output - pipe it th…

核函数的介绍

1.核函数的介绍: 1、用线性核等于没有用核。 2、多项式核:随着d越大,则 fai(X) 对应的维度将越高。(可以通过d得到对应的fai(X)函数)。 3、高斯核函数:无限维度。 4、tanh核。 2.如何选择核函数的参数&am…

2024年云南特岗教师报名流程,超详细,明天就开始报名哦!

2024年云南特岗教师报名流程,超详细,明天就开始报名哦!

深入理解 Mysql 分层架构:从存储引擎到查询优化器的内部机制解析

一、基础架构 1.连接器 1.会先连接到这个数据库上,这时候接待你的就是连接器。连接器负责跟客户端建立连接、获取权限、维持和管理连接 2.用户密码连接成功之后,会从权限表中拿出你的权限,后续操作权限都依赖于此时拿出的权限,这就意味着当链…

【学习笔记】计算机组成原理(七)

指令系统 文章目录 指令系统7.1 机器指令7.1.1 指令的一般格式7.1.2 指令字长 7.2 操作数类型和操作类型7.2.1 操作数类型7.2.2 数据在存储器中的存放方式7.2.3 操作类型 7.3 寻址方式7.3.1 指令寻址7.3.1.1 顺序寻址7.3.1.2 跳跃寻址 7.3.2 数据寻址7.3.2.1 立即寻址7.3.2.2 直…

月薪5万是怎样谈的?

知识星球(星球名:芯片制造与封测技术社区,星球号:63559049)里的学员问:目前是晶圆厂的PE,但是想跳槽谈了几次薪水,都没法有大幅度的增长,该怎么办?“学得文武…

three.js能实现啥效果?看过来,这里都是它的菜(09)

Hi,这是第九期了,继续分享three.js在可视化大屏中的应用,本期分享位移动画的实现。 位移动画 Three.js位移动画是指在Three.js中实现物体位置的平移动画。通过改变物体的位置属性,可以实现物体沿着指定路径从一个位置移动到另一…

PostgreSQL基本使用

参考文档:PostgreSQL基本使用与数据备份_postgresql 数据备份-CSDN博客 一、数据库的操作 1. 本机登录 2.创建新用户来访问 PostgreSQL 3 重启数据库服务 4.创建数据库并查看数据库 5.连接数据并删除数据库 6.建表插入数据,查看数据库下所有的表&#…

Python数据可视化(四)

实现图形的动画效果 在 matplotlib 中,不仅可以绘制静态图形,也可以绘制动态图形。对于动态图形来说,我们称 之为动画或许会让读者更容易明白。绘制动画的方法主要有两种:一种是使用模块 animation 绘制动 画;另一种是…

GVM: Golang多版本管理利器

本文介绍了 Go Version Manager 的功能和使用方法,介绍了如何通过 GVM 在系统上安装和管理多个 Go 语言版本。原文: GVM: Go Version Manager, for Golang manage multiple versions Go 版本管理器(GVM,Go Version Manager)是一款…

夏日炎炎,手机如何避免变成热源?这些降温技巧分享给你

夏日炎炎,手机也容易“中暑”。 高温不仅会让手机性能大打折扣,还可能引发安全隐患。因此,如何让手机在高温下“冷静”下来,成为了许多手机用户关心的问题。 本文将为你提供一些实用的降温技巧,帮助你的手机安全度过…

击穿盲点——【网络安全】社会工程学中的网络欺骗

社会工程学起源于上世纪60年代左右,是一种通过人际交流的方式来获得情报的非技术渗透手段。这种手段无需过多技术要求,却非常有效,目前已成为危害企业网络安全的重大威胁之一。著名黑客凯文米特尼克在《反欺骗的艺术》中曾提到,人…

【C++题解】1698. 请输出带有特殊尾数的数

问题&#xff1a;1698. 请输出带有特殊尾数的数 类型&#xff1a; 题目描述&#xff1a; 请输出1∼n 中所有个位为 1、3、5、7中任意一个数的整数&#xff0c;每行 1 个。( n<1000 ) 比如&#xff0c;假设从键盘读入 20&#xff0c;输出结果如下&#xff1a; 1 3 5 7 11 1…

08-Fortran基础--Fortran内置函数分类总结

08-Fortran基础--Fortran内置函数分类总结 0 引言1 Fortran内置函数1.1 常用到数学函数1.2 字符串函数&#xff1a;1.3 数组函数&#xff1a;1.4 数值查询函数1.5 文件操作函数&#xff1a; 2 结语 0 引言 Fortran是一种很古老的编程语言&#xff0c;但它仍然广泛使用于科学计算…

嵌入式全栈开发学习笔记---C语言笔试复习大全24

目录 内存管理 内存分配 堆和栈的区别&#xff1f;&#xff08;面试重点&#xff09; 申请内存的函数 malloc realloc free gcc工具链 编译的过程&#xff08;面试重点&#xff09; 第一步&#xff0c;预处理&#xff1a; 第二步&#xff0c;编译&#xff1a; 第三…

Vue从入门到实战Day07

一、vuex概述 目标&#xff1a;明确vuex是什么&#xff0c;应用场景&#xff0c;优势 1. 是什么&#xff1a; vuex是一个vue的状态管理工具&#xff0c;状态就是数据。 大白话&#xff1a;vuex是一个插件&#xff0c;可以帮助我们管理vue通用的数据&#xff08;多组件共享的…

【数据结构|C语言版】树、二叉树和堆

前言1. 树1.1 树的概念1.2 树的表示1.3 树在实际中的运用1.4 树的实现 2. 二叉树2.1 二叉树的概念和结构2.2 二叉树的性质2.3 二叉树的存储结构2.4 二叉树的代码实现 3. 堆4. 二叉树顺序结构的实现5. 二叉树链式结构的实现结语 #include<GUIQU.h> int main { 上期回顾: 【…

2024 一键批量下载雪球和东方财富文章导出excel和pdf

之前分享过雪球批量下载工具2023 批量下载雪球文章导出pdf&#xff0c;以市场高标解读这个号为例&#xff0c;下载效果&#xff1a; 下载文章后用我开发的htmltopdf.exe批量转换html为pdf&#xff0c;不过要注意不要放在中文目录下&#xff0c;否则提示错误 utf-8 codec cant d…

新建一个STM32工程(精简版)

一、新建一个STM32工程 二、建立三个文件夹 1、Start文件夹里的东西 &#xff08;1&#xff09;启动文件&#xff1a;STM32入门教程资料\固件库\STM32F10x_StdPeriph_Lib_V3.5.0\Libraries\CMSIS\CM3\DeviceSupport\ST\STM32F10x\startup\arm &#xff08;2&#xff09;STM32…

RobotFramework测试框架(13)--内置测试库

Builtln Evaluate方法 Evaluate。它可以做很多事情&#xff0c;主要的作用是可以直接调用Python的方法 一般用Evaluate都是前面放变量接收值&#xff0c;第三列是具体的运算表达式&#xff0c;第四列是要用到的Python的module。这里就是用random来进行一个随机数的生成 Cons…