顶会评测集解读-AlignBench: 大语言模型中文对齐基准

news2024/12/28 19:06:03

评测集社区 CompssHub 作为司南 OpenCompass大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等12个方向的评测集,欢迎大家探索。

为了将评测集社区 CompssHub 收录的优秀评测集更好的展现给大家,司南 OpenCompass 特别开展了顶会评测集解读系列,今天我们将解读 ACL 2024 Accepted Papers — AlignBench: Benchmarking Chinese Alignment of Large Language Models.

论文地址:

https://aclanthology.org/2024.acl-long.624.pdf

AlignBench 开源仓库:

https://github.com/THUDM/AlignBench

评测集社区 CompssHub: 

https://hub.opencompass.org.cn/dataset-detail/AlignBench

摘要

在人工智能和自然语言处理领域的飞速发展中,大语言模型(LLMs)展现出令人惊叹的能力。然而,对于新兴的中文 LLMs,其对齐效果的评估仍然是一个亟待探索的领域。为了填补这一空白, AlignBench 应运而生,这是一个全面的、多维度的基准测试,专门用于评估 LLMs 在中文环境下的对齐情况。

AlignBench 的独特之处在于其精心设计的人机协作数据策划流程。它包含了八个主要类别,涵盖683个基于真实场景的查询,每个查询都配有经过人工验证的参考答案。此外,对于知识密集型的查询,AlignBench 还提供了来自可靠网络来源的证据,包括 URL 和引用,大大提高了评估的可靠性和真实性。

在评估方法上,AlignBench 采用了创新的规则校准多维 LLM-as-Judge方法,并结合了思维链(Chain-of-Thought)技术。这种方法不仅能生成解释性评价,还能给出最终评分,为研究人员提供了深入洞察LLMs表现的窗口。

本期顶会评测集解读让我们一起深入探讨 AlignBench 评测基准,揭示中文LLMs在对齐方面的潜力与挑战,推动中文自然语言处理技术迈向新高度!

介绍

在自然语言处理(NLP)领域,对齐(Alignment)已成为大型语言模型(LLMs)发展的关键挑战。随着ChatGPT等产品的兴起,LLMs在各种任务中展现出惊人的能力。然而,如何准确评估这些模型在中文环境下的对齐程度,一直是一个亟待解决的问题

图片
图1:AlignBench 的整体框架

针对上述问题,该团队提出了 AlignBench,这是一个全面的维评测基准,用于评估中文 LLMs 的对齐能力。参考一个线上 LLM 服务,该团队建立了一个半自动化的数据策划流程并结合人类参与,以创建高质量的查询来构建 AlignBench。AlignBench 总结了一个包含 8 个主要类别的查询分类法,以全面覆盖和对齐真实场景的使用情况(参见图 1)。为了使评估模型生成客观和公正的评估,每个样本都附有一个经过人类修正的 LLM 生成的参考。为确保知识密集型查询(占 66.5%)的参考正确性,该团队要求注释员提供在网上搜索的包括 URL 和引用,最终合成参考文献。

为了增强评估的自动化,AlignBench 利用 GPT-4 作为其主要模型评估器,这有助于识别数据样本并通过逐点分结合 CoT 进行评估。不同于 MT-Bench 的是,AlignBench 进一步强调了评分中的规则校准和任务特定多维判断。实验表明,这些策略有助于 AlignBench 与人类判断更加一致并拥有更好的可解释性。基于 AlignBench,该团队评估了 17 个常见的中文 API LLMs 和开源 LLMs,并提供了这些模型在中文对齐能力的细致比较。

数据集

数据集构成

AlignBench 基于真实用户指令,将大语言模型(LLMs)的能力框架总结为 8 个主要类别,共包含 683 个样本。这种分类旨在进行系统性的评估,涵盖了 LLMs 在各种场景下的应用能力。如表 1 所示。

图片
表1:AlignBench 示例分布

数据集构建

AlignBench 中的每个样本包含一个任务导向的查询、高质量的参考答案,以及它所属于的类别。详细的构建流程如下所述。

查询筛选:为了确保查询的多样性和真实性,该团队主要参考两个来源:在线聊天服务中的场景和研究人员撰写的挑战性问题。考虑到数据的噪声特性,该团队需要经过高标准的数据筛选流程:1) 任务导向: 查询应体现人类意图,并引导 LLMs 完成指定任务。2) 清晰度与流畅性: 查询应清晰易懂,要求应流畅表达。3) 复杂性与难度: 查询应对大多数 LLMs 来说具有挑战性,需要它们充分利用能力来全面解决。4) 去敏感化: 确保查询是安全的且不具敏感性。

参考答案的获取与改进:对于 AlignBench 的逐点评分,已有研究发现使用关键参考答案进行评分有助于提高 LLM-as-Judge 的可靠性(Zheng et al., 2023; Zhang et al., 2020)。因此,该团队决定提供由人类筛选的参考答案,以帮助评审者判断答案的正确性。然而,由于 AlignBench 被设计为具有挑战性且覆盖广泛,初步试验中人类注释者从零开始提供答案非常困难。因此,该团队首先利用 GPT-4 生成答案,然后要求人类注释者仔细审查、修订和完善这些答案,作为 AlignBench 的参考答案。为了确保参考答案的质量,特别是对于来自专业知识、数学和逻辑推理等类别的知识密集型查询,该团队明确要求注释者在验证过程中进行网络搜索。在搜索过程中,要求记录网页的 URL 和引用内容,以便撰写参考文献,如表 2 所示。

图片
表 2:AlignBench 知识增强查询注释的示例

过滤与分类:为了区分强 LLMs 之间的评分,有必要过滤出更具挑战性的样本进行评估。因此,该团队使用了三种相对先进的支持中文的 LLMs,包括 GPT-3.5-turbo、ChatGLM APIs 和 Sparkdesk,作为该团队构建流程中的难度过滤器。该团队对这些模型进行评估,分析它们对处理过的查询的响应,然后利用 GPT-4 对答案进行评分。通过计算响应的平均分,并将其作为信号,该团队丢弃了获得最高平均分的 50% 查询,这表明它们的难度较低。这种方法确保了样本的细致和精准选择,有效地区分了不同能力的强 LLMs。

方法

AlignBench评估系统的核心是使用GPT-4作为主要评估模型。这种方法充分利用了强大LLM的理解和分析能力,但同时也面临着确保评判一致性和公正性的挑战。

因此,在 AlignBench 中,该团队设计了一种新颖的规则校准多维逐点 LLM-as-Judge 的方法,图 2 展示了一个例子。

图片
图 2 :AlignBench 在逻辑推理类别中的评分过程

逐点评分与思维链

在使用 LLM-as-Judge 时,之前研究已经实现了两种评分方法:逐点评分 (point-wise grading)(Zheng et al., 2023)和成对评分 (pairwise grading)(Li et al., 2023)。然而,先前的研究表明,逐点评分与人类意图一致性相比于成对评分更高,后者存在位置偏差。此外,考虑到评估效率,逐点评分在费用和时间方面具有优势。因此,AlignBench 也采用逐点评分。在评估过程中,输入查询、模型响应和人类筛选的参考答案,输出为多维分析解释和最终评分,范围从 1 到 10。由于评分任务涉及复杂推理,引入思维链(Chain-of-Thought)有助于提高评分的可靠性和可解释性。

规则校准参考

为使AI评判更接近人类评判习惯,该方法提供了详细的评分指南,明确定义了不同分数区间的标准。特别地,将参考答案设置为8分作为评分基准。这种规则校准机制有效提高了评分的区分度,使得评分分布更加合理,更接近人类评判的结果。

图 3 绘制了人类评审、一般评审和规则校准评审的累积分布,显示规则校准评审与人类评估的累积分布之间的差距更小。通常,规则校准评审的高分(9 和 10)数量明显少于一般评审,这与人类评分习惯一致,从而增强了 AlignBench  的区分能力。

图片
图 3 :人类评审、一般评审和规则校准评审的累积分布

多维分析

由于任务性质和特点各不相同,使用相同的评估标准来评估所有任务是不公平的。例如,写作任务应优先考虑创造力,而逻辑推理任务则主要需要逻辑连贯性。为了解决这一问题,该团队提出了一种多维评分方法来评估 LLM 的响应,针对具体任务量身定制评估,从而提供更全面和有条理的解释。它不仅给出评分,还提供了详细的分析过程,使评估结果更加可靠和可解释,为中文大语言模型的对齐评估提供了有力工具。



人类评估

为了验证该团队为 AlignBench 设计的规则校准多维逐点评分 LLM-as-Judge 的方法,该团队对 AlignBench 选定的查询进行了广泛的人类评估。主要关注两个方面:方法与人类评审的一致性,以及方法对于更具人类可解释性的结果的批判质量。

一致性评估

基准:实验中包含了两个稳健的基准比较,以评估该团队的方法。请注意,所有方法均使用 GPT-4 进行评估,以确保公平性。1) 一般评分: 采用 MT-bench 中的中文版评估提示;2) 规则校准评分: 为了更好地指导模型比较模型答案和参考答案,并减少评分差异,该团队将评分规则纳入评估过程。该方法包含五个评分区间,每个区间与特定的质量描述相关联。参考答案的评分设定为 8,作为相对评分基准。

分析:一致性实验的结果呈现在表 3 中。结果显示,该团队的规则校准多维逐点评分 LLM-as-Judge 的方法表现最佳,特别是在样本级皮尔逊相关指标和成对一致性(不含平局)指标上,从而证明了与人类评审的一致性极佳。此外值得注意的是,所有方法在系统级皮尔逊相关指标上均表现出色,表明 LLM-as-Judge 的可靠性和稳健性。

图片
表 3 :一致性实验

质量评估

先前的研究主要关注模型评审与人类评审在评估 LLM-as-Judge 方法时的一致性。然而评估在评分之前模型评审生成的解释质量也具有重要意义。为了评估方法生成的解释质量,以及确定最终评分,该团队进行了成对质量比较实验。

图片
表 4:质量评估的结果

质量评估的结果呈现在表 4 中。结果表明,该团队的方法生成了最高质量的解释和有用的反馈,在成对比较中以高胜率击败了两个基准。此外,基于规则的评分在解释方面优于一般评分,该结果证明了评分规则能够提供明确的基于参考的标准,从而有助于清晰地比较参考答案和模型答案。

AlignBench 评测结果

基于 AlignBench 的 LLM-as-Judge 评分的有效性,该团队评测了多种 LLMs 的中文对齐能力。该团队使用 gpt-4-0613 作为评审模型来评估各个模型的表现。结果如表 5 所示,大多数闭源 LLMs 分数较高(超过或接近 6 分),表明这些 LLMs 在满足用户意图和提供高质量响应方面具有强大的能力,表现了优秀的对齐水平。对于中文 LLMs 而言,某些中文 LLMs 的表现与 gpt-3.5-turbo 相当,甚至略有超越,逐渐接近领先模型 gpt-4-1106-preview。

图片
表 5:多种 LLMs 的中文对齐能力

结论

在本文中,介绍了AlignBench,这是一个全面的多维度基准测试,用于评估大语言模型(LLMs)在中文环境下的对齐程度。该团队设计了一个可持续的、包含人工参与的数据策划流程,并改进了LLM作为评判者(LLM-as-Judge)的方法,使AlignBench能够对LLMs的中文对齐进行高质量的自动评估。

局限性

改进自动化 LLM-as-Judge

AlignBench 展示了利用 GPT-4 作为评审可以与人类评估实现相对高的一致性,但在一致性和细致度方面仍有很大改进空间。此外,研究表明 LLM-as-Judge 存在一些潜在的偏差,包括位置偏差、复杂度和自我增强等。这些偏差可能会影响对某些模型评估的正确性。

拓展主题与查询

尽管 AlignBench 在类别中拥有相对较大的查询集,但仍需要进一步丰富,以实现更稳定和可靠的 LLMs 评估。此外,AlignBench 目前未涵盖对长文本查询的评估。

司南 OpenCompass 将持续推动大模型评测的公正性和客观性,提供丰富的大模评测基准信息,以促进大语言模型技术的健康发展和持续创新。本篇解读的 AlignBench 评测集已在评测集社区 CompssHub 上线,欢迎大家点击了解更多!

https://hub.opencompass.org.cn/dataset-detail/AlignBench

同时,司南 OpenCompass 期待更多的社区用户在评测集社区 CompssHub 发布各专业领域的评测集,让您的学术成果在我们的平台上得到更多的关注与应用!

https://hub.opencompass.org.cn/home

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2267068.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

量子退火与机器学习(1):少量数据求解未知QUBO矩阵,以少见多

文章目录 前言ー、复习QUBO:中药配伍的复杂性1.QUBO 的介入:寻找最佳药材组合 二、难题:QUBO矩阵未知的问题1.为什么这么难? 三、稀疏建模(Sparse Modeling)1. 欠定系统中的稀疏解2. L1和L2的选择: 三、压缩感知算法(C…

Linux应用软件编程-多任务处理(线程)

线程:轻量级的进程,线程的栈区独立(8M),与同一进程中的其他线程共用进程的堆区,数据区,文本区。 进程是操作系统资源分配的最小单位;线程是cpu任务调度的最小单位。 1. 线程的创建…

IKAnalyzer分词组件

IKAnalyzer是一个功能强大、易于使用、性能优异的中文分词工具包&#xff0c;适用于各种需要进行中文分词的场景&#xff0c;如搜索引擎、自然语言处理、文本挖掘等。 Springboot如何集成IKAnalyzer分词组件 引入IKAnalyzer分词组件包 <dependency><groupId>org…

微信小程序 不同角色进入不同页面、呈现不同底部导航栏

遇到这个需求之前一直使用的小程序默认底部导航栏&#xff0c;且小程序默认入口页面为pages/index/index&#xff0c;要使不同角色呈现不同底部导航栏&#xff0c;必须要在不同页面引用不同的自定义导航栏。本篇将结合分包&#xff08;subPackages&#xff09;展开以下三步叙述…

输入框去掉角标

前言 正常情况下&#xff0c;HTML textarea 多行文本输入框会存如下图所示图标&#xff0c; 用户可拉动它改变高度&#xff0c;这是我们不想看到的&#xff0c;所以要去掉它。 去掉后&#xff1a; 解决方案 设置 resize 属性即可&#xff0c;如下代码所示&#xff1a; <…

ping指令的实现与icmp协议的讲解

icmp协议 icmp属于一个网络层的协议&#xff0c;一般被封装到IP报文中&#xff0c;主要功能是如果IP报文出现目的地不可达&#xff0c;时间超过等情况出现时&#xff0c;就会将返回一个差错检测报文&#xff0c;里面包括了IP报文丢失的原因 常见的报错信息有 目的地不可达时间…

Log4j2的Policies详解、SizeBasedTriggeringPolicy、TimeBasedTriggeringPolicy

文章目录 一、Policies二、SizeBasedTriggeringPolicy:基于文件大小的滚动策略2.1、文件达到指定大小就归档 三、TimeBasedTriggeringPolicy&#xff1a;基于时间间隔的滚动策略3.1、验证秒钟归档场景3.2、验证分钟场景3.3、验证小时场景 四、多策略组合使用五、扩展知识5.1、S…

SpringCloudAlibaba实战入门之路由网关Gateway初体验(十一)

Spring Cloud 原先整合 Zuul 作为网关组件,Zuul 由 Netflix 公司提供的,现在已经不维护了。后面 Netflix 公司又出来了一个 Zuul2.0 网关,但由于一直没有发布稳定版本,所以 Spring Cloud 等不及了就自己推出一个网关,已经不打算整合 zuul2.0 了。 一、什么是网关 1、顾明…

#渗透测试#漏洞挖掘#红蓝攻防#常见未授权访问漏洞汇总

免责声明 本教程仅为合法的教学目的而准备&#xff0c;严禁用于任何形式的违法犯罪活动及其他商业行为&#xff0c;在使用本教程前&#xff0c;您应确保该行为符合当地的法律法规&#xff0c;继续阅读即表示您需自行承担所有操作的后果&#xff0c;如有异议&#xff0c;请立即停…

Fast adaptively balanced min-cut clustering

#0.论文信息 标题&#xff1a;Fast adaptively balanced min-cut clustering期刊&#xff1a;Pattern Recognition作者: Feiping Nie , Fangyuan Xie , Jingyu Wang ,Xuelong Li机构: China Telecom, Northwestern Polytechnic al University.代码链接&#xff1a; #1.摘要 …

【C++】——精细化哈希表架构:理论与实践的综合分析

先找出你的能力在哪里&#xff0c;然后再决定你是谁。 —— 塔拉韦斯特弗 《你当像鸟飞往你的山》 目录 1. C 与哈希表&#xff1a;核心概念与引入 2. 哈希表的底层机制&#xff1a;原理与挑战 2.1 核心功能解析&#xff1a;效率与灵活性的平衡 2.2 哈希冲突的本质&#x…

前端技术(26) : 全年排班日历

来源: 通义千问 效果图 代码 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><title>年度日历</title><style>body {font-family: Arial, sans-serif;}.calendar-container {margin: 20px au…

QT-------认识QT

QT简介 QT是一个跨平台的C图形用户界面应用程序框架&#xff0c;由挪威Trolltech公司于1991年开发并发布。它为开发者提供了一套丰富的类库和工具&#xff0c;用于创建各种类型的应用程序&#xff0c;包括桌面应用、移动应用、嵌入式系统应用等。QT具有高度的可定制性和可扩展…

Hive 部署

1 下载并安装 1.1 Hadoop安装 参考另一篇博客&#xff1a;Hadoop 部署 1.2 安装包下载 可通过下面网站下载&#xff1a; 官网&#xff1a;https://dlcdn.apache.org/hive/。清华源&#xff1a;https://mirrors.tuna.tsinghua.edu.cn/apache/hive/。 比如下载apache-hive-4…

Linux中QT应用IO状态设置失效问题

问题&#xff1a;在进入freeze休眠前需要设置特定IO关闭电源灯操作&#xff0c;唤醒后需要将特定IO恢复原来正常工作状态&#xff0c;此时出现偶然性&#xff08;概率很低&#xff09;的IO控制失效问题&#xff1b;【平台&#xff1a;君正X1600HN】 一、问题点分析 1、电路 …

empire靶机

打开靶机 我们先查看页面源代码&#xff0c;发现什么也没有 再去用nmap扫描 nmap -sV -p- 192.168.95.144 发现也没什么用 我们在用dirb扫一下 dirb http://192.168.95.144 我们发现了robots.txt并且响应码是200&#xff0c;去访问一下 又得到了一个目录&#xff0c;去访问…

三层交换原理及图示

大概 三层交换原理 需要提前掌握的&#xff08;VLAN基础知识&#xff09; 【Info-Finder 参考链接&#xff1a;什么是VLAN】 三层是IP层&#xff0c;即网络层。为了方便记忆的&#xff1a;“先有网络&#xff0c;才有传输”、“传输是为了验证有网络”、“IP不是Transfer”…

当AI遇见大数据:决策优化的下一个风口

引言 在信息化时代的浪潮中&#xff0c;数据已成为企业决策的重要资产。随着大数据技术的发展&#xff0c;企业积累了海量的用户行为数据、市场动态和内部运营信息&#xff0c;这些数据背后蕴藏着巨大的价值。然而&#xff0c;数据的价值并非天然显现&#xff0c;它需要通过有效…

sizeof和strlen区分,(好多例子)

sizeof算字节大小 带\0 strlen算字符串长度 \0之前

SmartAIChain荣获重要认可

2024年12月21日&#xff0c;洛杉矶尔湾市——在今年的圣诞艺术交流会上&#xff0c;黄荣先生的SmartAIChain项目获得了重要认可。此次活动汇聚了来自各地的艺术家以及社区代表&#xff0c;共同庆祝这一创新性艺术的时刻。 在活动中&#xff0c;核桃市议员伍立伦(Allen Wu)代表D…