​港中文提出CLongEval中文基准测试集,准确评估大模型长上下文能力

news2025/1/22 1:01:32

9e9fd1e3534398157cb58c5ba89a1a30.gif

68c18d4781bc6c69b10c1245e44d3bf2.png

论文题目:

ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

论文地址:

https://arxiv.org/abs/2403.03514

代码地址:

https://github.com/zexuanqiu/CLongEval

76096a790a5d723cea708dcb311c742a.png

研究背景和贡献

为了使 LLM 能够支持更复杂和多样化的应用,越来越多的研究致力于扩展 LLM 能够处理的上下文窗口。为了评估这些 long context LLM 支持长上下文能力,目前英文领域有几个数据集被提出(如 LongBench, L-Eval, LooGLE)。

然而,在中文领域,对于 long context LLM 能力评估的研究还有些滞后。目前只有一个双语基准 LongBench 可用,中文部分仅有平均长度约 13K 个字符的 1000 个测试实例。基于中文领域缺乏高质量评估数据集的现状,这篇论文提出了一个基准测试集,以准确评估 LLM 在中文领域的长文本上下文处理能力。

6847102eb53939649e0341631c3d8ece.png

论文提出了 CLongEval,一个包含了 7 种 NLP 任务、覆盖 4 个能力维度的中文长文本能力测试集。以确保对模型能力的综合评估,作者首先对 LLM 处理长文本所需的关键能力进行了拆解。

如下图所示的框架,基于于人类自身解决问题的范式,作者将 LLM 在解决长上下文任务时所用的基础能力分解为:1)在部分上下文(Partial Context)或者全部上下文(Full Context)中识别和获取关键信息的能力;2)基于获取的全部信息,以抽取式(Extractive)或者抽象式(Abstractive)推理出答案的能力。

在这些基础能力的维度上,作者构建了了 CLongEval 基准测试集。该测试集包含了 7 个任务共 7,267 个测试样本,包括长篇故事问答(Long Story QA)、长对话记忆(Long Conversation Memory)、长篇故事摘要(Long Story Summarization)、新闻标注(Stacked News Labeling)、错别字检测(Stacked Typo Detection)、段落检索(Key-Passage Retrieval)和表格查询(Table Querying)。

其中,长篇故事问答和长对话记忆均为全新标注的数据。长篇故事摘要由 GPT-4 进行辅助标注。其余 4 个任务由公共数据集重构得来。

由于目前 LLM 支持的文本长度窗口(context window)差异较大,为了确保基准测试集的适用性,CLongEval 按照输入文本的长度构建了三个子集:small set、medium set 和 large set。small set 主要包括长度在 1K 到 16K 个 token 之间的测试数据,medium set 是 16K 到 50K 个 token 之间,而 large set 包含的数据扩展到 50K 到 100K 个 token。下表展示了数据集的具体统计信息。

48902f953a6b6734fe6d2493fb692408.png

b7c5a0b86ac7614356bafb3c4dc1b845.png

数据集构建

以下是 CLongEval 包含的测试任务。每个任务针对测试一种上文提到的基础能力。

  • 长篇故事问答: 该任务要求模型根据长篇故事中的部分上下文来回答问题,考察模型能否利用部分上下文信息进行阅读理解。模型需要在输入中找到有关的上下文并进行抽象推理来得到正确答案。作者在 153 本中国叙事小说中提取了 200 个不重复的故事,并根据故事长度分配了相应数量的问题。最终共标注了约 1K 个问答对。

  • 长对话记忆:这个任务旨在评估模型的长期记忆能力,考察模型能否利用部分上下文信息进行阅读理解。该任务的输入为用户和伴侣聊天机器人之间连续多天的对话记录,模型需要准确地回答关于特定日期对话内容相关的问题。数据包含 80 个虚拟用户和伴侣聊天机器人之间的 140 天对话记录,和人工标注的约 1K 个问答对。

  • 长篇故事摘要:作为自然语言处理的经典任务,摘要生成需要模型能够正确理解完整的长上下文并进行信息整合。作者首先将 BOOKSUM 数据集翻译成了中文,之后使用 GPT-4 辅助将 BOOKSUM 数据集中每个片段的摘要整合成总摘要。该任务包含 1K 个测试样例。

  • 新闻标注:该测试任务要求模型能对输入的新闻做正确的分类。目标是评估语言模型能否理解完整的输入,并进行信息抽取。每个样例的输入包含多篇新闻以及对应的索引,输出是对每篇新闻的类别标签。该任务包含约 1K 个测试样例。

  • 错别字检测:该任务要求模型识别出长篇输入中存在的所有拼写错误。目标是评估语言模型能否理解完整的输入,并进行信息抽取。错别字构造来自于日常打字常见错误类型:同音错字。错字的数量和输入的长度成正比:small set 为 10 个错字,medium set 为 20 个错字,large set 为 30 个错字。该任务包含约 1K 个测试样例。

  • 段落检索:该任务是为了考察模型在长上下文中抽取所需信息的能力,尤其是准确返回复杂搜索结果的能力。数据集中每个样例都是一个被序列化为字符串的 JSON 对象,其中包含多个键-段落(key-passage)对。这个任务和常见的键-值检索任务类似,区别在于这里检索对象是具有实际语义的自然语言文本,而不是随机生成的 128 位 UUID 字符串,因此更具有挑战性。该任务包含约 1K 个测试样例。

  • 表格查询:该任务是为了考察模型在长上下文中抽取所需信息的能力,尤其是在长上下文中执行复杂查询的能力。数据集中每个样例由多个使用 Markdown 格式排列的表格组成;期待模型可以在长上下文中定位到目标表格,并根据查询条件从该表格中得到输出。该任务包含约 1K 个测试样例。

1144d4de66d84bd1901c31d8e258bf6a.png

实验结果

下表为主实验结果,展示了 6 个开源模型和 2 个闭源模型(GPT-4-Turbo 和 Moonshot-v1)在 CLongEval 上的表现。

7eace08ca07d6d89688107bced4d8f8a.png

作者分析了参考答案在上下文中的对应位置对模型性能的影响,结果如下图所示。作者在需要部分上下文的四个任务上进行实验,发现在长篇故事问答和长对话记忆这两个任务中,“Lost in the middle” 这一现象较为明显。

4e7233dd1b4e3519c105f4c015971216.png

下面的两张图展示了 GPT-4-Turbo 与 Moonshot-v1 在新闻标注这个任务中不同位置与不同深度的分类准确率的可视化分析。可以发现,Moonshot-v1 的表现更加稳定。

15408967f6b114c0970c2abecb5e6bce.png

c020687c2568a830a08641e8d9ebf8f0.png

更多实验结果以及分析请参考原文。

更多阅读

7a41082c51bf146041b0bad64efdeede.png

a979d6b150b075c0dad042b6722d4f69.png

f5aa79ec0f3b41205e192415d3668091.png

9006b4618e24f9b703991b9e59d2e4c3.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

a219e4f2f60acbb25c27061401c2e83e.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

aea6a0808d6778d445773d84e1bfecb2.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1562362.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32学习笔记(9_2)- USART串口外设

无人问津也好,技不如人也罢,都应静下心来,去做该做的事。 最近在学STM32,所以也开贴记录一下主要内容,省的过目即忘。视频教程为江科大(改名江协科技),网站jiangxiekeji.com 在STM3…

ES-7.12-官网阅读-ILM-自定义内置ILM策略

官网地址:Tutorial: Customize built-in ILM policies | Elasticsearch Guide [7.12] | Elastic 教程:自定义内置ILM策略(Customize built-in ILM policies) Elasticsearch包含如下内建ILM 策略: logs(日…

【项目技术介绍篇】若依项目代码文件结构介绍

作者介绍:本人笔名姑苏老陈,从事JAVA开发工作十多年了,带过大学刚毕业的实习生,也带过技术团队。最近有个朋友的表弟,马上要大学毕业了,想从事JAVA开发工作,但不知道从何处入手。于是&#xff0…

数据可视化高级技术(Echarts)

目录 (一)数据可视化概念及Echarts基础知识 数据可视化的好处: 数据可视化的目标 数据可视化的基本流程 (二)数据图表 类别比较图表: 数据关系图表: 数据分布图表: 时间序列…

增加网站搜索引擎排名的6个准则

怎样提高网站排名首页 在竞争激烈的网络世界中,网站的排名对于吸引流量和提升曝光至关重要。登上搜索引擎结果页面的首页,意味着更多的曝光和点击率。以下是一些方法,可以帮助您提高网站在搜索引擎中的排名,让其跻身首页&#xf…

基于STC12C5A60S2系列1T 8051单片机的数码管显示IIC总线器件AT24C02记录单片机上电次数应用

基于STC12C5A60S2系列1T 8051单片机的数码管显示IIC总线器件AT24C02记录单片机上电次数应用 STC12C5A60S2系列1T 8051单片机管脚图STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式及配置STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式介绍液晶显示器LCD1602简单介绍…

Vmware虚拟机远程SSH连接失效解决方法及分析过程

问题描述 系统为CentOS7 64位 一向能够正常连接 在某次使用FinalShell进行远程SSH连接时 突然无法连接 对问题原因猜测及尝试 1.dns解析失效 发现显示DNS无法解析,可以得知是使用了主机名登录,而主机名无法登录. 遂查看host文件.host文件因不知名原因被清空,重新恢复后该问…

每天五分钟计算机视觉:如何基于滑动窗口技术完成目标的检测?

汽车检测算法 现在我们想要构建一个汽车检测算法,我们希望输入到算法中一张图片,算法就可以帮助我们检测出这张图片中是否有汽车。 数据集 首先创建一个标签训练集,x是样本,y是标签。我们的训练集最好是被剪切过的图片,剪掉汽车以外的部分,使汽车居于中间位置,就是整张…

学习transformer模型-broadcast广播的简明介绍

broadcast的定义和目的: 广播发生在将较小的张量“拉伸”以具有与较大张量兼容的形状,以便执行操作时。 广播是一种有效执行张量操作而不创建重复数据的方式。 广播的处理过程: 1, 确定最右边的维度是否兼容 每…

视觉信息处理与FPGA实现第八次作业——verilog实现对比度调节

一、查看灰度图的数据格式 1.1 安装HxD HxD下载链接:https://download.csdn.net/download/weixin_44357071/89045331 解压直接打开exe就能使用。 将需要查看二进制数据的图片拖到软件框里就能读取 1.2 找到bmp图像的图片点阵数据起始地址,原理和例子…

【数据结构】非线性结构---二叉树

1、树 1.1 树的相关概念 节点的度:一个节点含有的子树的个数称为该节点的度; 如上图:A的为6 叶节点或终端节点:度为0的节点称为叶节点; 如上图:B、C、H、I...等节点为叶节点 非终端节点或分支节点&#…

中断服务程序模板

通常定时器初始化过程如下: ①对 TMOD赋值,以确定TO和T1的工作方式。 ②计算初值,并将初值写入THO、TLO或TH1、TL1。 ③中断方式时,则对IE赋值,开放中断。 ④使TRO或TR1置位,启动定时器/计数器定时或计数。 代码 利用定时器0工作方式1&…

数据结构(六)——图的应用

6.4 图的应用 6.4.1 最小生成树 对于⼀个带权连通⽆向图G (V, E),⽣成树不同,每棵树的权(即树中所有边上的权值之和)也可能不同。设R为G的所有⽣成树的集合,若T为R中边的权值之和最小的生成树,则T称为G的…

算法打卡day23

今日任务: 1)39. 组合总和 2)40.组合总和II 3)131.分割回文串 39. 组合总和 题目链接:39. 组合总和 - 力扣(LeetCode) 给定一个无重复元素的数组 candidates 和一个目标数 target ,…

人工智能之深度学习笔记——每天五分钟快速掌握深度学习理论

本专栏会对深度学习以及深度学习搭建技巧做一个详尽的介绍,相信大家阅读完本专栏之后,深度学习已经不是一个遥不可及的名词,我们会知道它究竟是什么,本专栏尽可能地简单详细地介绍每一个深度学习知识,帮助每天只用很少…

Day78:服务攻防-数据库安全RedisCouchDBH2database未授权访问CVE漏洞

目录 前置知识 数据库应用-Redis-未授权访问&CVE漏洞 未授权访问:CNVD-2015-07557 未授权访问-CNVD-2019-21763 未授权访问-沙箱绕过RCE-CVE-2022-0543 数据库应用-Couchdb-未授权越权&CVE漏洞 Couchdb 垂直权限绕过(CVE-2017-12635&…

数据结构-链表的基本操作

前言: 在dotcpp上碰到了一道题,链接放这了,这道题就是让你自己构建一遍链表的创建,插入节点,删除节点,获取节点,输出链表,题目给了几张代码图,不过不用管那些图&#xf…

k8s 经常操作指令

发现有个技巧:get、describe、edit ...操作指令后,都对应的相应的资源类型/资源 编辑deployment,查看其中部署的容器 kubectl edit deploy -n namespace pod名前缀(不带hash) 注: 带hash的具体pod&…

如何让光猫4个网口都有网络

一般情况光猫只有LAN1口有网络,LAN2、LAN3和LAN4口都是预留给电视用的,那么如何让这3个网口也有网络呢? 使用场景: 光猫在弱电箱内,弱电箱中有三根网线(网线1、网线2和网线3)分别接入到了三个房…

IP地址与子网掩码

1 IP地址 1.1 IPv4与IPv6 1.2 IPv4地址详解 IPv4地址分4段,每段8位,共32位二进制数组成。 1.2.1 地址分类 这32位又被分为网络号和主机号两部分,根据网络号占用位数的不同,又可分为以下几类: A类地址:…