UC伯克利LLM排行榜(Chatbot Arena Leaderboard)再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一

news2024/11/27 10:54:41

UC伯克利LLM排行榜(Chatbot Arena Leaderboard)再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一

文章目录

    • 1. LMSYS ORG更新「LLM排位赛」
    • 2. 全新评价机制:MT-Bench
      • 2.1 为什么选择 MT-Bench?
      • 2.2 用LLM评判LLM
    • 3. 结果分析
      • 3.1 MT-Bench能有效区分LLM的性能差异
      • 3.2 多轮对话能力

1. LMSYS ORG更新「LLM排位赛」

UC伯克利主导的「LLM排位赛」再次更新!

这次的排行榜,加入了更多模型(目前已达到28个),而且还增加了2个全新的评价标准。

目前,Chatbot Arena Leaderboard 有3个评价机制,分别是:

  • Chatbot Arena Elo:基于Chatbot Arena(聊天机器人竞技场)收集的 42K 个匿名投票,使用Elo评分系统进行评分,获得Elo得分。
  • MT-Bench score:MT-Bench得分,基于一个具有挑战性的多轮基准测试和GPT-4评分,该方法在「Judging-LLM-as-a-judge」论文中提出并验证。
  • MMLU:一个广泛采用的基准测试。

在这里插入图片描述

论文地址:https://arxiv.org/pdf/2306.05685.pdf

另外,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,在一个扩展的用户共享的对话集上训练,且权重已公开。

在这里插入图片描述

项目地址:https://github.com/lm-sys/FastChat/tree/main#vicuna-weights

如下图是最新的LLM排名:
在这里插入图片描述

图注:加强版LLM排名榜单

在新的评价标准下,我们可以看到:

  • GPT-4依然稳居第一,而GPT-3.5回到了第二。
  • Anthropic的两款Claude模型也足够给力,占据第三和第四名。
  • UC伯克利最新发布的330亿参数 Vicuna 拿到第五名,再次占榜开源模型第一名,小幅领先微软华人团队开源的300亿参数 WizardLM 模型。
  • GPT-3.5、Claude-v1 和 Claude-instant-v1 在 MT-bench 得分上相差不大,但在 Elo 和 MMLU 得分上有被后者反超。
  • 「开源」模型和「闭源」模型仍有明显差距,作为开源第一的Vicuna-33B也是如此。
  • 谷歌的 PaLM2 有些大跌眼镜,竟落后于一众开源模型。

2. 全新评价机制:MT-Bench

目前常用的评估大语言模型(LLM)性能的基准测试有MMLU、HellaSwag和HumanEval等。

但团队注意到,这些基准在评估LLM的人类偏好时可能会有不足。

在这里插入图片描述

图注:用户与LLaMA-13B和Vicuna-13B之间的多轮对话,开始是MMLU基准中的问题和后续指令,然后将GPT-4与上下文一起呈现,比较谁的答案更好

传统的基准通常是在具有简明输出的封闭式问题上测试LLM(例如,多项选择题),但这并不是大部分人在实践中使用聊天机器人的典型情况。

为了填补这一空白,在这次排行榜的更新中,除了Chatbot Arena Elo系统之外,团队还增加了一个新的基准测试:MT-Bench。

  • MT-bench 是一个具有挑战性的多轮问题集,旨在评估模型的对话和指令的遵循能力。
  • Chatbot Arena Elo 是一个众包的战斗平台,用户可以向聊天机器人提出任何问题,并为他们喜欢的答案投票。

这两个基准的设计都是以人类的偏好为主要衡量标准。

2.1 为什么选择 MT-Bench?

MT-Bench是一个精心策划的基准,包括80个高质量、多回合的问题。这些问题是为评估模型在多轮对话中的对话流程和指令跟随能力而定制的。它们既包括常见的使用情景,也包括旨在区分聊天机器人的挑战性指令。

准确的说,MT-Bench 是对Chatbot Arena的质量控制补充。

通过在聊天机器人竞技场运行2个月收集的一部分用户数据的分析,团队确定了用户提示的8个主要类别: 写作、角色扮演、提取、推理、数学、编码、知识一(STEM)和知识二(人文社科)。其中,每个类别有10个多轮问题,总共产生了160个问题。

在下图1中展示了一些问题示例。

在这里插入图片描述

图注:MT-Bench中的问题示例

2.2 用LLM评判LLM

最关键的问题来了,如何对聊天机器人的答案进行评分呢?

评估LLM的过程中,收集人类偏好是非常耗时且成本极高的一件事,但人类偏好对于评估又是「黄金标准」。

UC伯克利主导的团队在一开始便探索出了一种基于GPT-4的自动化评估管线。

在这里插入图片描述

团队还在最新的论文「Judging LLM-as-a-judge」中进行了一项系统研究——揭示了LLM评判者的可靠性问题。

结果显示,像GPT-4这样强大的LLM评判者,可以与专家组和众包组的人类裁判的偏好非常好地对齐,一致性均超过了80%。这种一致性水平,已经可以和两个人类评判者之间的一致性相媲美。

而基于GPT-4的单个答案评分,也可以有效地对模型进行排名,并与人类偏好很好地匹配。因此,如果使用得当,LLM评判者完全可以作为人类偏好的可扩展、可解释的近似值。

在这里插入图片描述

不过,首先需要承认LLM作为评判者的潜在局限性:

  • 位置偏差,即LLM评判者可能偏向于在成对比较中选择第一个答案。
  • 冗长偏差,即LLM评判者可能会倾向于较长的答案,而不管其质量如何。
  • 自我增强偏见,即LLM评判者可能倾向于自己的回答。
  • 推理能力有限,即是LLM评判者在评判数学和推理问题时可能存在的缺陷。

在这里插入图片描述

图注:不同LLM评判者的立场偏见

然后为了减轻这些限制,团队探讨了如何利用少样本评判、思维链评判、基于参考的评判和微调评判来进行缓解。

3. 结果分析

3.1 MT-Bench能有效区分LLM的性能差异

UC伯克利这次发布的增强版LLM排行榜,对28个模型进行了全面评估。

结果显示,不同能力的LLM之间有明显的区别,其分数与Chatbot Arena的Elo评级有很高的关联性。特别地,MT-Bench揭示了GPT-4和GPT-3.5/Claude之间,以及开源和专有模型之间明显的性能差距。

为了更深入地研究LLM之间的差距,团队选择了几个有代表性的LLM,并在下图中按类别细分了它们的性能。结果显示,与GPT-3.5/Claude相比,GPT-4在编码和推理方面表现出色,而Vicuna-13B在几个特定类别(有提取、编码和数学)中明显落后。这表明开源模型仍有很大的改进空间。

在这里插入图片描述

图注:比较6个模型的8种能力:写作、角色扮演、推理、数学、编码、信息提取、自然科学、人文科学

3.2 多轮对话能力

团队接下来分析所选模型的多轮对话得分,如下表2所示。

在这里插入图片描述

图注:模型在第一轮和第二轮对话中的MT-bench得分,满分为10分

观察发现:

  • 对于开源模型,性能从第一轮到第二轮明显下降(例如Vicuna-7B,WizardLM-13B),而强大的专有模型则保持一致性。
  • 基于LLaMA的模型和那些具有许可权的模型(MPT-7B、Falcon-40B和指令调整的Open-LaMA)之间有相当大的性能差距。

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

参考:https://lmsys.org/blog/2023-06-22-leaderboard/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/725586.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue 常用指令 v-bind 绑定动态值

v-bind 用于动态绑定一个或多个属性值,或者向另一个组件传递props值(这个后面再介绍),应用场景:图片地址src、超链接href、动态绑定一些类、样式等等 绑定超链接 v-bind作用在属性上面绑定动态值。 v-bind 指令后接收一个参数,以冒号分割。v…

MySQL 第二天作业 操作表和用户权限

一、1.创建数据库 Market,在 Market 中创建数据表customers,customers表结构如表4.6所示,按要求进行操作。 (1)创建数据库Market。 create database Market;(2)创建数据表customers,在c_num字段上添加主键…

ModaHub魔搭社区:如何在 Jupyter Notebook 用一行代码启动 Milvus Lite?

目录 轻量版 Milvus 能做什么? 如何在 Jupyter Notebook 中使用向量数据库? 随着各种大语言模型(LLM)的涌现和 AI 技术变得越来越普遍,大家对于向量数据库的需求也变得越来越多。作为大模型的记忆体,向量…

【新星计划Linux】——常用命令(1)

作者简介:一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​ 目录 前言 一.常用命令 1.Linux的基本原则: 用户接口: 2.命令形…

多肽中间体:23927-13-1,Cyclo(-D-Ala-D-Ala),3,6-二甲基-2,5-哌嗪二酮,的解析说明

Cyclo(-D-Ala-D-Ala),3,6-二甲基-2,5-哌嗪二酮,(3R,6R)-二甲基-哌嗪-2,5-二酮,(3R,6R)-3,6-二甲基哌嗪-2,5-二酮产品结构式: 产品规格: 1.CAS号:23927-13-1 2.分子式:C6H10N2O2 3.分子量&#x…

xNIDS-解释基于深度学习的网络入侵检测系统实现自动入侵响应

文章目录 AbsIntroMotivation and ChallengesExplaining Detection Results of DL-NIDS目标近似历史输入围绕历史记录输入进行采样捕捉特征之间的依赖关系模型开发 Generating Defense Rules防御规则范围Defense Rule Scope安全性约束 Security Constraint统一防御规则 Unified…

仅个人记录 CMX复现

文章解析(214条消息) CMX: Cross-Modal Fusion for RGB-X SemanticSegmentation with Transformers_cmx: cross-modal fusion for rgb-x semantic segment_翰墨大人的博客-CSDN博客 代码 GitHub - huaaaliu/RGBX_Semantic_Segmentation 一、 环境配置 conda create -n rgbx…

暑假第三天打卡

Java: (1)main()方法格式固定,表示程序入口 public static void main(String[] args) (2)java程序严格区分大小写 (3)System.out.println():换行 System.out.print():不换行 &…

【洛谷】P2700 逐个击破

思路&#xff1a; 先上一份ACode:&#xff08;具体解释思路在下面&#xff09; #include<bits/stdc.h> using namespace std; #define int long long const int N1e510,M2*N; int n,k,x,fa[N],sum; struct E {int u,v,w; } e[M]; int head[N],cnt; bool vis[N];bool cm…

爬虫入门04——requests库中的User-Agent请求头

import requests#定义请求的url url https://www.baidu.com/ #https://site.ip138.com/www.xicidaili.com/#发起get请求 res requests.get(url url)#获取响应结果#响应对象 print(res)#获取响应状态码 print(res.status_code)#获取响应数据 print(res.text) #返回的是字符…

SignalPlus X 北大汇丰商学院 X SHEF 公开课

&#x1f4e2; SignalPlus X 北大汇丰商学院 X SHEF &#x1f4a0; 数字金融和 AI 量化系列课程第二课 &#x1f4a0; 课程主题&#xff1a;机器学习在金融市场的应用 &#x1f4a0; 时间&#xff1a;2023 年 7 月 5 日 星期三 下午 19:00-21:00 &#x1f4a0; 授课方式&#…

【JUC进阶】10. 使用JMH进行性能测试

目录 1、前言 2、传统的性能测试 2、什么是JMH 3、Hello JMH 3.1、Maven相关依赖 3.2、编写简单示例 4、基本属性配置 4.1、BenchmarkMode 4.2、Benchmark 4.3、OptionsBuilder & Options 4.4、迭代Iteration 4.5、预热&#xff08;Warmup&#xff09; 4.6、状…

一图掌控污水厂运营——远眺污水厂数字孪生平台「捷码精品应用展」

随着我国城市化率的提升与环保意识的逐渐提升&#xff0c;对于污水处理的意识与需求也越来越强&#xff0c;需要处理的污水日益增多&#xff0c;污水厂承担的压力明显变大。 传统污水厂通常通过人工巡检的方式&#xff0c;进行设备和厂区检查和监测&#xff0c;这种方法效率低下…

MODBUSTCP和MODBUSRTU数据帧对比

工具介绍 ModBus Poll 在TCP中模拟客户端&#xff0c;在RTU中模拟主机&#xff1b;&#xff08;请求数据方&#xff09; ModBus Slave 在TCP中模拟服务器&#xff0c;在RTU中模拟从机&#xff1b;&#xff08;响应数据方&#xff09; 数据帧简介 ModBus是一种通信协议&#…

Spring整合Elasticsearch(2)

原生查询 可以查询的范围更精确,当ElasticsearchRepository提供的基本方法无法满足我们所需要的查询可以使用原生的方式查询 Test//原生查询public void naticeQuery(){//创建原生查询构建器对象NativeSearchQueryBuilder queryBuilder new NativeSearchQueryBuilder();//过滤…

【前端】ant-design-pro初体验

什么是Ant Design Pro Ant Design Pro 是一个企业级中后台前端/设计解决方案&#xff0c;它秉承 Ant Design 的设计价值观&#xff0c;致力于在设计规范和基础组件的基础上&#xff0c;继续向上构建&#xff0c;提炼出典型模板/业务组件/配套设计资源&#xff0c;进一步提高企…

第164天:应急响应-挖矿脚本检测指南威胁情报样本定性文件清除入口修复

知识点 #知识点 -网页篡改与后门攻击防范应对指南 主要需了解&#xff1a;异常特征&#xff0c;处置流程&#xff0c;分析报告等 主要需了解&#xff1a;日志存储&#xff0c;Webshell检测&#xff0c;分析思路等 掌握&#xff1a; 中间件日志存储&#xff0c;日志格式内容介绍…

如何给旧电脑安装Linux系统

目录 必要软件下载 下载ultraiso软件 下载linux系统 刻录光盘 U盘启动 必要软件下载 下载ultraiso软件 进入ultraiso官网&#xff0c;链接如下&#xff1a; 最新UltraISO官方免费下载 - UltraISO软碟通中文官方网站 下载linux系统 准备一个8G或者以上的U盘&#xff0c;…

微搭学习路线图,JavaScript入门

目录 1 学习路线1.1 HTML 语义和结构1.2 使用 CSS 布局和美化1.3 使用 JavaScript 开发交互1.4 小程序API1.5 云开发1.6 微搭 2 JavaScript入门2.1 变量2.2 注释2.3 运算符2.4 条件语句2.5 函数2.6 事件 3 示例总结 可多初学的问&#xff0c;微搭学习几个小时够么&#xff0c;几…

学习网页设计html学习总结

学习网页设计html学习总结篇一 转眼间&#xff0c;已到了期末&#xff0c;学习网页设计这门课程也要结束了&#xff0c;虽然时间有点短&#xff0c;但是学过这个几周以后我受益匪浅。 记得最初接触dreamweaver的时候&#xff0c;我很茫然&#xff0c;因为刚接触陌生的软件心里会…