斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一

news2024/12/25 9:31:01

斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一

文章目录

    • Part 1. 众多LLM排行榜
    • Part 2. AlpacaEval 技术细节
      • 2.1 AlpacaEval 评估效果
      • 2.2 如何使用AlpacaEval评估模型
    • Part 3. 微软 WizardLM 登顶开源模型第一
      • 3.1 关于 WizadLM 与 Evol-Instruct
      • 3.2 UNCENSORED WizardLM:不对齐但性能强悍

Part 1. 众多LLM排行榜

每周都有大量的LLM和各种聊天机器人发布,令人眼花缭乱。

之前,HuggingFace发布了个开源LLM的排行榜,主要是跟踪、排名和评估最新的大语言模型和聊天机器人,让所有人方便的观察到开源社区的进展和评估这些模型。

在这里插入图片描述

除此之外,还有UC伯克利主导的「LLM排位赛」(LMSYS Org)。该研究团队选择了目前在开源社区很火的开源模型,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。

在这里插入图片描述

传送门:大语言模型的中文能力哪家强?评测13款类ChatGPT大模型

最近,来自斯坦福的团队,也发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。

这个全新的大语言模型排行榜 AlpacaEval,它是一种基于 LLM 的全自动评估基准,且更加快速、廉价和可靠。

在这里插入图片描述

项目链接:https://github.com/tatsu-lab/alpaca_eval
排行榜链接:https://tatsu-lab.github.io/alpaca_eval/

AlpacaEval 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。

在这里插入图片描述

在斯坦福的这个 GPT-4 评估榜单中:

  • GPT-4 稳居第一,胜率超过了95%;胜率都在 80% 以上的 Claude 和 ChatGPT 分别排名第二和第三,其中 Claude 以不到 3% 的优势超越 ChatGPT。
  • 值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。换句话说,在所有开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco。
  • 而在开源模型中的佼佼者 Vicuna 发挥依然稳定,凭借着超过70%的胜率排在第六,胜率紧追 Guanaco 65B。
  • 最近大火的 Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。

Part 2. AlpacaEval 技术细节

2.1 AlpacaEval 评估效果

AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地,研究人员以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与 GPT-3.5 的回复进行比较,计算获胜率。

在这里插入图片描述

论文地址:https://arxiv.org/pdf/2305.14387.pdf
项目地址:https://github.com/tatsu-lab/alpaca_farm/

在这里插入图片描述

图注:AlpacaFarm是一个模拟沙盒,能够快速、廉价地对从人类反馈中学习的方法进行实验。它用API LLMs模拟人类反馈,提供一个经过验证的评估协议,并提供一套参考方法的实现。研究人员可以快速迭代模型开发,并将他们的方法转移到人类数据上进行训练,以最大限度地提高性能。

虽然仅基于 GPT-4 进行自动评估,但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数,证明了 AlpacaEval 榜单排名的高可靠性。

在这里插入图片描述

那么相比其他的 LLM 自动评测器,如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4,还有人类(humans)评估,斯坦福的 AlpacaEval 评测器有什么特别?

在 AlpacaEval set 上,斯坦福 AlpacaEval 团队通过与 2.5K 条人工标注结果(每个指令平均包含4个人工标注)对比,研究人员评估了不同的自动标注器的性能。对比结果显示,AlpacaEval 采用的 GPT-4 评测方式取得了最高的人类一致性,以及较低的误差,并仅需约 1/22 的人类标注成本。

在这里插入图片描述

图注:人类一致性:标注者与交叉标注集中人类多数票之间的一致性。价格:每1000个标注的平均价格。时间:计算1000个标注所需的平均时间。

相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。

在这里插入图片描述

另外,还有一个关键问题:什么评估数据可以最好地区分模型。

团队从统计角度出发,在 AlpacaEval 的所有子集上检验这个问题。

下图显示了 AlpacaEval 每个子集的 80 个实例上每对模型的配对 t 检验的 p 值。

例如,我们看到 Self-Instruct 数据集产生的统计能力最小,这表明可以从评估集中删除该数据集。

在这里插入图片描述

图注:不同基准评估数据集的质量

2.2 如何使用AlpacaEval评估模型

AlpacaEval 支持两种模式的模型评估方式:

  • alpaca_eval:直接根据目标模型输出的响应来评估模型。
  • alpaca_eval evaluate_from_model:根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。

评测过程分为以下 3 步:

  1. 选择一个评估集,并计算指定为 model_outputs 的输出。默认情况下,我们使用来自 AlpacaEval 的 805 个示例。
import datasets

eval_set = datasets.load_dataset( "tatsu-lab/alpaca_eval", "alpaca_eval")[ "eval"]

for example in eval_set:
    # generate here is a placeholder for your models generations
    example["output"] = generate(example["instruction"]) 
  1. 计算 golden 输出 reference_outputs。默认情况下,在 AlpacaEval 上使用 text-davinci-003 的输出。
  2. 通过 annotators_config 选择指定的自动标注器,它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器,使用者还需要在环境配置中设定 API_KEY。

目前,AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具。显然 AlpacaEval 对LLM模型评测来说很实用,但它仍不是一个全面的的模型能力评测系统,还有一些局限性:(1)指令比较简单;(2)评分时可能更偏向于风格而非事实;(3)没有衡量模型可能造成的危害。

Part 3. 微软 WizardLM 登顶开源模型第一

3.1 关于 WizadLM 与 Evol-Instruct

WizadLM 作为 AlpacaEval 上表现最好的开源模型,让人十分好奇,它的强大来源是什么?

WizardLM 是由 Can Xu 等人在 2023 年 4 月提出的一个能够根据复杂指令生成文本的大型语言模型。它使用了一个名为 Evol-Instruct 的算法来生成和改写指令数据,从而提高了指令的复杂度和多样性。 WizardLM 共有三个版本:7B、13B 和 30B。

在这里插入图片描述

论文链接:https://arxiv.org/abs/2304.12244
代码链接:https://github.com/nlpxucan/WizardLM

WizardLM 的核心算法是指一种称为 Evol-Instruct 的指令进化论。与手动创建、收集、筛选高质量指令数据的巨大耗费不同,Evol-Instruct 是一种使用 LLM 而非人类创建大量不同复杂度级别的指令数据的高效途径。

在这里插入图片描述

图注:Evol-Instruct 的指令进化论

Evol-Instruct 算法从一个简单的初始指令开始, 然后随机选择深度进化广度进化,前者将简单指令升级为更复杂的指令,而后者则在相关话题下创建新指令(以增加多样性)。以上两种进化操作是通过若干特定的 Prompt 提示 LLM 来实现。研究人员采用指令过滤器来筛选出失败的指令,这被称为淘汰进化

论文中,给出了4个重要的实验现象:

  1. 人类评估结果证明,由 Evol-Instruct 进化生成的机器指令质量整体优于人类指令(ShareGPT)。
  2. 高难度指令的处理能力:人类评估者认为此时 WizardLM 的响应比 ChatGPT 更受欢迎。

在这里插入图片描述

在这里插入图片描述

  1. 代码生成与补全能力:在 HumanEval 评估中,WizardLM-30B 同时击败了code-cushman-001 与目前最强代码开源模型 StarCoder 。这证明了 Llama 系列预训练模型的代码能力并不差,在高效的对齐算法加持下,依然可以获得优异的表现。
    在这里插入图片描述

  2. WizardLM-13B 同时在 AlpacaEval 与 Evol-Instruct 测试集的 GPT-4 评估中,获得了高度一致的 ChatGPT 能力占比(前者为 87% ChatGPT,后者为 89% ChatGPT)。

最新发布的 WizardLM-30B,在 Evol-Instruct 测试集上取得了 97.8% 的 ChatGPT 分数占比,因此未来 30B 版本的 WizardLM 在 AlpacaEval 排行榜的表现应该很让人期待啊。

在这里插入图片描述

图注: WizardLM-30B 在 Evol-Instruct 测试集上取得了 97.8% 的 ChatGPT 分数占比

3.2 UNCENSORED WizardLM:不对齐但性能强悍

目前的大语言模型都是基于大量的开放域文本数据进行预训练和微调的,从而具有强大的通用性和适应性。大多数模型都具有某种嵌入式对齐(Alignment)方式,如LLaMA、Alpaca、Vicuna、WizardLM、ChatGLM等,目的就是为了防止模型做坏事,如生成一些违法违规的东西出来。

按理说对齐是一件好事,它的初衷是敏感过滤,保证输出的合理性和合法性。但训练数据中不可避免的包含一些不合规的内容(如暴力、色情、歧视、谣言等),而大部分情况下敏感过滤都是人为操纵的,这就可能存在一定的倾向性或偏见。对于模型,可能损失一些有价值或有趣的信息,并限制模型的创造力和多样性。例如可以观察到 ChatGPT 符合美国主流文化,遵守美国法律,并带有一定不可避免的偏见。

在 HuggingFace 发布的开源LLM的排行榜中,可以看到13B的未对齐模型 Wizard-Vicuna-13B-Uncensored-HF可以和65B、40B和30B的LLMs直接在一系列基准测试上进行比较,甚至超越了65B的对齐模型

这就很微妙了,不对齐似乎也无不可取?作为面向公众的AI,拒绝回答有争议和包含潜在危险的问题,是必要的。但准确说,对于敏感问题的输出,用户具有所有权和控制权。

在这里插入图片描述

为了探索没有敏感过滤的语言模型的可能性和潜力,一个名为 faldore 的 Reddit 用户在 2023 年 5 月发布了一个新的语言模型: UNCENSORED WizardLM。这个模型是基于 WizardLM 的一个未经过滤的版本。

根据 faldore 的介绍,他使用了 WizardLM 团队提供的原始训练脚本和未经过滤的数据集 ,在四块 A100 80GB 的显卡上训练了 36 小时和 60 小时,分别得到了 UNCENSORED WizardLM-7B 和 UNCENSORED WizardLM-13B 模型。

那么不走寻常路的不对齐模型 UNCENSORED WizardLM 真的好吗?

UNCENSORED WizardLM 不会对输入或输出进行任何敏感过滤或审查,它会尽可能地按照指令生成文本,无论指令是否合理或合法。这意味着它可以生成一些其他模型无法或不愿生成的内容,如暴力、色情、歧视、谣言等。这种特点使得它具有更高的创造力和多样性,但也带来了更高的风险和责任。

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

参考:
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
https://lmsys.org/blog/2023-05-25-leaderboard/
AlpacaEval: https://tatsu-lab.github.io/alpaca_eval/
AlpacaFarm: https://crfm.stanford.edu/2023/05/22/alpaca-farm.html
WizardLM: https://github.com/nlpxucan/WizardLM
http://news.sohu.com/a/685451683_121119001
https://erichartford.com/uncensored-models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/723485.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PostgreSQL使用localhost可以连接,使用IP无法连接

问题描述:PostgreSQL使用localhost可以连接,使用IP无法连接 默认情况下,刚安装完成的 postgresSQL12 无法使用 数据库连接工具(如postman)连接。需要为其修改配置,开放连接权限。 修改pg_hba.conf 增加…

【js小案例】视频倍数播放、计算机、待办事项管理

视频倍数播放示例图&#xff1a; 视频倍数播放代码&#xff1a; <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>控制视频播放速度</title> </head> <body><video id"myVideo" width&quo…

c语言内存

程序是保存在硬盘中的&#xff0c;要载入内存才能运行&#xff0c;CPU也被设计为只能从内存中读取数据和指令。 对于CPU来说&#xff0c;内存仅仅是一个存放指令和数据的地方&#xff0c;并不能在内存中完成计算功能&#xff0c; 如&#xff1a;计算abc,必须将a,b,c都读取到CPU…

解锁生成式AI万亿规模市场,亚马逊云科技有效降低AIGC门槛

ChatGPT一声惊雷&#xff0c;让全球见识到了生成式AI的威力。当前&#xff0c;生成式AI进入一个爆发时刻&#xff0c;并在许多领域中展现出它的无限潜力。那么&#xff0c;在这轮生成式AI大爆发中&#xff0c;企业应当如何抓住机遇&#xff0c;顺应这一波时代的潮水&#xff0c…

PHP:数据库中设置文本长度,通过js去限制前台文本长度。扩展:数据类型的限制

效果图 如上图&#xff1a;当测试111的长度超过数据库中限制的长度&#xff0c;进行提示&#xff0c;并且自动将多余部分截掉 HTML代码 <!-- 附加属性 --> <div class"text-nav-1 " id"append1"> <div >append1</div><input…

如何使经纬度标注在图框内部

在生成经纬网格之后&#xff0c;如果标注了经纬度&#xff0c;仔细查看图框边缘&#xff0c;可以看到标注的经纬度出现在了图框的外面&#xff0c;这样显得不是很美观&#xff0c;我们可以通过偏移的方法让其回到图框内部&#xff0c;这里为大家介绍一下具体的操作方法&#xf…

达梦数据库 SQL交互式查询工具打不开问题处理

目录 1、开始菜单找到 “SQL交互式查询工具”。 2、 右键进入 打开文件位置。 3、右键进入属性&#xff0c;找到目标位置 4、进入我的电脑&#xff0c;访问该地址&#xff0c;并授予此地址权限 1、开始菜单找到 “SQL交互式查询工具”。 2、 右键进入 打开文件位置。 3、右…

【ARM Coresight 及 DS-5 介绍 2 - ARM Coresight 介绍】

文章目录 1.1 ARM Coresight 介绍1.1.1 ARM Coresight 发展历史 1.2 ARM Coresight 框架介绍1.1.1 Trace 通路1.1.3 Debug 通路1.1.4 Trigger 通路 1.1 ARM Coresight 介绍 ARM Coresight是ARM公司提供的一种调试和跟踪技术&#xff0c;用于ARM处理器的调试和性能分析。它通过…

根据ABAP字符寻找程序

知识来之不易&#xff0c;还请多点赞&#xff01; SE38执行程序RPR_ABAP_SOURCE_SCAN

实现流程化办公,该说不说还得借力低代码开发框架

在科技的推动下&#xff0c;流程化办公已经成为潮流。如何实现流程化办公&#xff0c;让越来越多的企业打通各部门之间的协作&#xff0c;实现高效率发展&#xff1f;借力低代码开发框架&#xff0c;让那遥不可及的梦想变为现实&#xff0c;跟传统操作方式比起来&#xff0c;低…

Pandas库如何在导出表格的时候去掉索引列(隐藏索引列)

import pandasdata {sku1:[1,2,3],sales:[11,22,33], } doc pandas.DataFrame(data)file_path rC:\Users\Zhao\Desktop\test1.xlsx doc.to_excel(file_path,indexFalse) # indexFalse 可以隐藏 索引列

从php5.6到golang1.19-文库App性能跃迁之路

作者 | 百度文库App 导读 本文深入浅出地分享了百度文库App服务端技术栈从PHP迁移至Go的实战经验&#xff0c;包含了技术选型、基础建设、流量迁移的具体方案&#xff0c;以及核心项目案例的重构实践。 全文6209字&#xff0c;预计阅读时间16分钟。 01 动机 长期以来&#xff…

异地使用PLSQL远程连接访问Oracle数据库【内网穿透】

文章目录 前言1. 数据库搭建2. 内网穿透2.1 安装cpolar内网穿透2.2 创建隧道映射 3. 公网远程访问4. 配置固定TCP端口地址4.1 保留一个固定的公网TCP端口地址4.2 配置固定公网TCP端口地址4.3 测试使用固定TCP端口地址远程Oracle 转载自cpolar极点云文章&#xff1a;公网远程连接…

【036】读懂C++的强制类型转换static_cast、const_cast、dynamic_cast以及reinterpret_cast

C的强制类型转换 引言一、类型转换简介二、上行、下行转换的概述三、static_cast 静态类型转换四、dynamic_cast 静态类型转换&#xff08;推荐使用&#xff09;五、const_cast 常量转换六、reinterpret_cast 重新解释转换&#xff08;最不安全&#xff09;总结 引言 &#x1f…

微信支付(一):小程序支付(go+gin+内网穿透)

一、前置条件 &#xff08;1&#xff09;go语言&#xff0c;1.18 &#xff08;2&#xff09;Gin、第三方依赖包&#xff1a;gopay【github.com/go-pay/gopay/alipay】https://github.com/go-pay/gopay/blob/main/doc/wechat_v3.md &#xff08;3&#xff09;微信支付相关信息…

Ubuntu安装:显卡驱动、CUDA、Anaconda

Ubuntu安装&#xff1a;显卡驱动、CUDA、Anaconda 摘要1.安装NVIDIA显卡驱动2.安装CUDA3.安装Anaconda Windows环境安装CUDA和Pytorch见&#xff1a;Pytorch入门&#xff1a;3.安装 环境&#xff1a;x86_64 Linux ubuntu18 4.150.0-20-generic 摘要 本篇博客对Ubuntu系统安装…

#消防知识#自动灭火系统是什么?

自动灭火系统是指能够在发生火灾时自动检测、控制和扑灭火灾的系统&#xff0c;包括自动喷水灭火系统、气体灭火系统、干粉灭火系统、气溶胶灭火系统等。不同的自动灭火系统有不同的组成部件、工作原理和适用范围&#xff0c;以下是一些简要的介绍&#xff1a;• 自动喷水灭火系…

汽车远程升级(OTA)定义与技术体系

1.汽车OTA定义 1.1. OTA概述 OTA&#xff08;Over-the-air technology&#xff09;是一种通过无线方式而不是使用电缆或其他本地连接进行数据传输的远程升级。能够实现对现有性能/功能的优化、新功能推送等。OTA技术最早应用于PC&#xff0c;而后在手机上普及&#xff0c;终结…

Go语言程序设计(二)常量、变量、布尔类型与运算符

一、常量、变量与命名规则 常量使用关键字const声明&#xff1b;变量可以使用关键字var声明&#xff0c;也可以使用快捷变量声明语法。Go语言可以自动推断出所声明变量的类型&#xff0c;但是如果需要显式指定其类型也是合法的&#xff0c;比如声明一种与Go语言的常规推断不同的…

途乐证券|沪指缩量跌0.69%,汽车等板块走弱,稀土概念逆市活跃

6日早盘&#xff0c;三大股指股指盘中震动回落&#xff0c;科创50指数逆市上扬&#xff1b;两市半日成交超5000亿元&#xff0c;北向资金小幅净流出。 到午间收盘&#xff0c;沪指跌0.53%报3205.97点&#xff0c;深成指跌0.39%&#xff0c;创业板指跌0.61%&#xff0c;科创50指…