浙大做了一个可用于AI领域的学术会议问答LLMs

news2025/1/16 16:03:11

深度学习自然语言处理 原创
作者:wkk

afc5e7107dc5e0358ffbb7329a4339f3.png

今天介绍一篇来自于浙江大学的一项研究,关于基于LLM进行人工智能领域内7个不同学术会议QA数据集的论文。

论文: Reliable Academic Conference Question Answering: A Study Based on Large Language Model
地址: https://arxiv.org/abs/2310.13028
git: https://github.com/zjukg/ConferenceQA

->辅导界的小米带你冲刺ACL2024

摘要

计算机科学的快速发展导致学术会议上发表的研究激增,促进了全球学术交流。研究人员在各个阶段不断地寻求有关这些会议的准确、最新信息。因此急需一个智能问答系统来有效地解决研究人员的疑问,并确保了解会议的最新进展。

会议信息通常发布在其官方网站上,以半结构化的方式组织,并包含大量文本。为了满足这一需求,本文为7个不同的学术会议开发了ConferenceQA数据集,其中包含人工注释。首先,采用手动和自动相结合的方法,以半结构化的JSON格式组织学术会议数据。随后,为每个会议注释了近100个问答对。每一对被分为四个不同的维度。为了确保数据的可靠性,手动注释每个答案的来源。

鉴于最近的进展,大型语言模型(LLM)在各种NLP任务中表现出了令人印象深刻的性能。它们在指令微调后的信息寻求问题回答方面表现出了令人印象深刻的能力,因此,提出了基于LLM的会议QA研究。由于LLM的幻觉和过时的知识,采用基于检索的方法来提高LLM的问答能力。提出了一种结构感知检索方法,专门设计用于在检索过程中利用固有的结构信息。Conference QA数据集的实证验证证明了该方法的有效性。

简介

由于计算机科学的研究成果在学术会议上发表,这为世界各地的研究人员通过参加会议进行面对面交流提供了巨大的机会。在这些学术会议之前期间之后,研究人员不断寻求有关这些事件各个方面的准确、最新情报。特定领域数据的极端激增,迫切需要一种复杂、精确的方法来获取这些信息,从而确保充分参与并全面了解最先进的进步。

鉴于LLMs优秀的推理能力,本文基于会议信息建立了一个QA数据集,进行了一项基于LLM的会议QA研究。

数据集的构建是基于手工和自动相结合的方法,这些问题被分为四类:原子提取、原子推理、复杂提取和复杂推理,从而能够详细探索这些问题。

本文的贡献如下:

  1. 构建了一个涵盖7个会议的广泛数据集,每个会议都配备了一组近100个QA对,用于测试。

  2. 进行了几个基础实验,证明了不同检索对象在响应不同类型的查询时的熟练程度不同。虽然这些发现是有希望的,但它们强调了进一步改进的巨大潜力。

  3. 通过提供广泛的数据集并揭示大型语言模型的有效应用,这项工作对学术会议中问答的发展做出了重大贡献。

数据集构造

会议QA数据集的构造主要包括以下三个步骤:如下图所示。

79d2b4e82682f71ef73e43f6c4ee3e4f.png
  • Semi-structure Data Transformation(半结构数据转换)

  • QA Pair Generation(QA对生成)

  • Question Classification(问题分类)

半结构数据转换

会议QA数据集中的数据来源于官方会议网站,网站中的每个页面都与其他页面存在结构关系。由于格式风格的可变性,使用手动和自动相结合的方法为每次学术会议构建了半结构化数据集。网站主要包括以下三部分:

  • 页面关系:使用每个页面的标题作为JSON数据中键或值的一部分。JSON数据是树状结构,父子节点对应于页面之间的嵌套关系,兄弟节点以及同级别的其他节点对应于页之间的并行关系。

  • 非结构化内容:对于页面上的非结构化内容,即页面中的纯文本,如果它包含副标题,将这些副标题提取为JSON数据中路径的一部分。副标题下的内容用作JSON数据中的值。为了增强粒度的多样性,随机选择纯文本进行更细粒度的分割,即将其分解为更多的副标题。

  • 结构化内容:结构化内容主要包括表格数据和页面上的一些有序/无序列表。对于表数据,使用网络爬虫来获取它,然后将其转换为放置在相应页面路径或标题下的半结构化数据。对于页面上的列表数据,将其合并到JSON数据的“list”部分。

QA对生成

对于每个会议,使用手动和自动方法的组合生成问答对。原则是确保每个问题与研究人员在现实环境中提出的问题密切相关。还使用手动注释来保证问题的质量和可靠性,以及注释答案及其来源。QA对生成包括:

  • 角色创建:利用ChatGPT生成了20个角色档案,其中包括角色的年龄、研究方向、职位、出版历史、会议出席经历等细节。这些角色可以类比为对会议感兴趣的来自不同背景的现实生活中的研究人员。

  • LLM生成的问题:使用系统提示让ChatGPT扮演这些角色,就每个会议提出五个不同粒度的问题。这些问题涵盖了每个会议中来自不同背景的人物感兴趣或不确定的领域。

  • 手动注释:采用手工注释的方式对问题进行了全面的回顾。过滤掉重复或过于困难的问题,同时添加一些内容更广泛、更多样的问题。随后,根据JSON数据手动注释答案。为了确保数据集的可靠性,为问答对注释每个答案的来源,由答案在学术会议JSON数据中的位置表示。

问题分类

为了评估模型回答不同难度问题的能力,设计了一个对问答对进行分类的方案。这种分类主要取决于两个不同的方面:生成答案的过程和生成正确答案的条目数量。问题分类主要从两个维度展开。

  • 提取或推理:这个维度主要考虑生成答案的过程。如果答案可以直接从数据集中提取,即答案是数据集中的一段文本,则将其归类为提取。如果给出答案需要模型首先推理,然后生成,即相应的答案不是数据集中的一段文本,则将其归类为推理。

  • 原子或复合体:这个维度主要考虑生成正确答案所涉及的条目数量。如果生成答案只需要来自单个条目的信息,即JSON数据中从最顶层到最底层的序列。它被归类为原子。如果生成答案需要来自多个条目的信息,则将其归类为复杂。

基于LLM的方法

随着LLM的出现,领域领域中的问答问题得到了广泛的研究。目前的主流方法是基于检索,利用读者的查询𝑞 提取相关内容𝑐 并将检索到的内容和问题连接起来供LLM回答。本文的方法也遵循这种基于检索的范式。然而,会议的数据集是以半结构化格式组织的。因此,首先需要处理JSON数据来组织内容以进行检索。随后,本文提出了一种专门为半结构化数据设计的结构感知方法,该方法有效地集成了数据集中的结构和语义信息。

  • 半结构化数据处理:半结构化数据集类似于树状结构,其中每个键或值都可以被视为树上的一个节点。为了便于检索,将由叶节点和根节点组成的条目视为提供给LLM的附加信息。

  • 条目检索:在接收到查询输入时𝑞, 检索器的任务是从KB={𝑒1.𝑒2.𝑒𝑚 } 与𝑞. 本文实现了一个在双编码器框架上运行的密集检索器。该框架使用编码器来处理两个输入查询𝑞 和条目𝑒。

  • 结构感知检索:为了更好地利用路径和价值的作用,设计了三种方法来整合它们的信息。这些方法包括加权求和、直接串联和利用条目描述。

方法如下图所示b93595d6b3c1921b82a1cf37ca6c151c.png

实验

实验是在会议QA数据集中的7个会议数据上进行的。给定一个问题,通过将LLM的答案与该问题的标准答案进行比较来评估LLM的回答。对于每一次会议,都进行了以下实验:直接回答而不检索(Origin),用标准条目回答(gold),使用单词袋检索函数BM25检索条目(BM25),使用密集检索方法检索条目(Entry),以及三种结构感知方法,包括加权求和(WSum)、直接连接(DCon)以及利用条目的描述进行检索(Doe)。实验采用EM和F1值作为衡量指标。

754aaacccbc1b998c4c97e06619c99e1.png

上表显示了本研究中设计的方法在7个会议数据集上的EM和F1结果。从这些结果可以看出:

  1. DoE方法在所有七个数据集中的四个问题类型中始终表现出最佳性能,证明了该方法的优越性。这也验证了结构信息和文本信息的有效集成可以显著提高性能。

  2. WSum(𝜆=0.6)和DCon方法显示出相似的性能,但它们的有效性在不同的会议数据集中有所不同。例如,在WWW2023、SIGMOD2023、IJCAI2023和ICDE2023数据集中,DCon方法比WSum方法表现更好,而WSum方法在其他会议数据集中更有效。

  3. Entry方法在检索方面明显优于BM25,突出了基于向量的检索的优势。这也表明“text-embedding-ad-002”能够有效地编码纯文本之外的结构信息。

  4. 从问题难度的角度来看,抽取组型问题在许多会议数据集上都能取得令人满意的结果。使用DoE方法,七个会议数据集的平均EM值达到80%。同时,对于最具挑战性的推理复杂类型的问题,EM值的平均值也可以达到50%。这表明LLM在完成会议问答任务方面具有巨大潜力。

4fdc0c22d16bf9b3dfbb8b5051adbe36.png研究不同权重系数的影响𝜆 在WSum方法中,从四个领域选择了具有代表性的学术会议:web领域的WWW2023、数据库领域的SIGMOD2023、自然语言处理领域的ACL2023和信息检索领域的ICDE2023。然后我们开始𝜆 以0.1的间隔在0到1的范围内,并相应地进行实验。结果如上图所示,表明:

  1. 这四个会议的绩效指标都呈现出先增加后减少的趋势,在中间达到峰值(即lambda约为0.6时)。这表明我们的数据集包含结构和文本信息,并且可以通过将两者有效地集成来实现更好的性能。

  2. 何时𝜆 如果设置为0(仅使用文本信息)或1(仅使用结构信息),则由于缺少部分信息,结果相对较差。这两种设置之间的差距因不同的会议而异。它在WWW2023、SIGMOD2023和ACL2023中更为明显,但在ICML2023几乎可以忽略不计。这表明数据的JSON组织在不同的会议中有所不同,因此不同信息的影响也有所不同。

  3. 这四种类型的问题在不同的会议中表现出相似的趋势𝜆变化。这表明,更有效地利用信息可以提高不同难度问题的性能。

5fae9a2650901a2cfc156021760589a0.png结构感知方法包括在描述构建过程中结合节点周围的结构信息。此信息包括来自同级节点和父路径的详细信息。为了评估结构感知方法的优势,进行了消融实验,包括去除兄弟节点和消除父路径的描述。移除同级节点意味着以自上而下的方式逐层构建描述,只提供父路径的描述,直到获得条目的描述。另一方面,排除父路径的信息需要直接使用来自其兄弟节点的信息来生成条目的描述,从而有助于在一个步骤中产生条目的描述。结果如上图4所示

  1. 结构感知方法在所有四个数据集上都优于其他两种方法,证明了在生成描述时添加周围结构信息的有效性。

  2. 在所有四个数据集中,删除父路径的描述的影响不如删除同级节点的影响显著,这表明同级节点可以提供更多信息并发挥更重要的作用。

  3. 在四种类型的问题中,提取组学受影响最小,可能是因为它是最简单的问题类型,不需要使用过多的周围结构信息。

总结和未来工作

本文为学术会议开发了一个可靠的数据集,包含了来自7个会议的JSON数据,这些数据来自官方网站,使用了人工-自动的组合方法。

从本文的研究中收集到的见解为那些打算使用该数据集的人提供了有价值的指导:首先,由于学术会议官方网站的组织风格不同,学术会议数据集的具体形式相当多样,导致难度不同。其次,数据集包含了大量的问答对及其来源,根据生成答案的过程和它们所依赖的条目数量,这些问答对可分为四种类型。这些类别可作为评估模型处理JSON数据熟练程度的基准。最后,证实了所提出的结构感知检索方法的有效性,强调了数据集中结构信息的重要性。

本质上,本文将该数据集视为推进学术会议问答领域进一步研究的垫脚石,并促进对模型如何利用不同类型的外部知识库的探索。尽管的Conference QA数据集包括来自七个会议网站和一百多个问答对的所有数据,但其大小仍然有限。这可能会引入结构性偏见,并限制本文研究结果的可推广性。未来,计划通过合并更多的会议和测试更广泛的方法和模型来增强数据集。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

b200626ba4c46991ebde4ac13ab1de9d.png

id:DLNLPer,记得备注呦

799cbfd70b0ba9962b3d21157c708861.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1140659.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络攻击的发展

在当今数字化时代,网站被攻击已经成为常态,网络威胁愈演愈烈。这些攻击不仅威胁到企业的安全,还可能导致严重的商业危机。本文将探讨为什么网络流量攻击变得如此普遍和容易,并分析未来可能引发的商业危机。 ​ 网络流量攻击的普遍…

【博士每天一篇文献-算法】iCaRL_ Incremental Classifier and Representation Learning

阅读时间:2023-10-27 1 介绍 年份:2017 作者:Sylvestre-Alvise Rebuffi; Alexander Kolesnikov; Georg Sperl; Christoph H. Lampert ,牛津大学 期刊:Proceedings of the IEEE conference on Computer Vision and Pa…

竞赛选题 深度学习图像修复算法 - opencv python 机器视觉

文章目录 0 前言2 什么是图像内容填充修复3 原理分析3.1 第一步:将图像理解为一个概率分布的样本3.2 补全图像 3.3 快速生成假图像3.4 生成对抗网络(Generative Adversarial Net, GAN) 的架构3.5 使用G(z)生成伪图像 4 在Tensorflow上构建DCGANs最后 0 前言 &#…

评比无代码低代码平台时,可以考虑以下几个方面

无代码低代码平台是近年来兴起的一种软件开发工具,它们旨在帮助非技术人员快速创建应用程序,而无需编写大量的代码。这些平台通过提供可视化的界面和预先构建的组件,使用户能够通过拖放和配置的方式来构建应用程序。选择无代码低代码平台时&a…

微信公众号点击打开地图导航

<h3 id"menu-location">地理位置接口</h3><span class"desc">使用微信内置地图查看位置接口</span><button class"btn btn_primary" id"openLocation">openLocation</button> <span class&quo…

发展高质量存储力,中国高科技力量聚浪成潮

中国信息通信研究院指出&#xff0c;在全球数字化转型与产业变革的浪潮下&#xff0c;算力正在成为改变全球竞争格局的关键力量。而根据最新的《算力基础设施高质量发展行动计划》&#xff0c;算力是集信息计算力、数据存储力和网络运载力于一体的新型生产力。当前&#xff0c;…

ORACLE-递归查询、树操作

1. 数据准备 -- 测试数据准备 DROP TABLE untifa_test;CREATE TABLE untifa_test(child_id NUMBER(10) NOT NULL, --子idtitle VARCHAR2(50), --标题relation_type VARCHAR(10) --关系,parent_id NUMBER(10) --父id );insert into untifa_test (CHILD_ID, TITLE, RELATION_TYP…

vite vue3 ts 使用sass 设置样式变量 和重置默认样式

1.安装scss 样式支持依赖 yarn add -D sass 2.使用sass <div><!-- 测试使用sass --><h1>测试使用sass</h1> </div><style scope lang"scss"> div {h1 {color: red;} } </style> 效果&#xff1a; 3.通过npm下载并复制…

MarkDown教程记录

什么是 Markdown? Markdown 是一款轻量级标记语言&#xff0c;不同于HTML (Hypertext Markup Language)&#xff0c;Markdown 的语法非常简单&#xff0c;且容易上手Markdown 以 纯文本格式 编写文档&#xff0c;依赖键盘而非鼠标&#xff0c;专注于写作本身&#xff0c;感受…

为什么把k8s比做操作系统:kubernetes与os的架构对比

你还在背八大件吗&#xff1f;不如把k8s的架构和os一起看&#xff0c;你会发现一些超有趣的事情&#xff01;本文旨在将k8s的架构和os做个对比&#xff0c;帮助读者理解为什么k8s要这么设计。 kubernetes架构 kubernetes架构中由master节点和minion节点组成&#xff0c;maste…

c++ deque 的使用

目录 1. deque 的介绍 2. deque 底层原理 3. deque 的迭代器 4. deque 的接口使用 5. deque 和 vector&#xff0c;list 的比较 1. deque 的介绍 下面是 deque 的介绍&#xff0c;来自于&#xff1a;deque - C Reference (cplusplus.com) 的翻译&#xff0c;您可以不用…

MobPush数智化推送,精准定位万圣节狂欢年轻一族

随着中秋十一黄金周的结束&#xff0c;2023年最后一个法定节假日也一去不复返&#xff0c;但是别急&#xff0c;今年还有另一场不放假的狂欢节日——万圣节&#xff0c;万圣节作为西方国家第四季度最为重要的营销节日之一&#xff0c;在国内年轻人群体中同样具有较大的影响力和…

字节流和处理流的对象反序列化问题

细节&#xff1a; 读写要保持一致 序列对象时&#xff0c;默认将里面的所有属性都进行序列化&#xff0c;但除了static或transient修饰的成员 要求序列化或反序列化对象&#xff0c;需要实现Serializable 序列化对象时&#xff0c;要求里面的属性也要实现序列化接口 序列化…

java-- 静态数组

1.静态初始化数组 定义数组的时候直接给数组赋值。 2.静态初始化数组的格式&#xff1a; 注意&#xff1a; 1."数据类型[] 数组名"也可以写成"数据类型 数组名[]"。 2.什么类型的数组只能存放什么类型的数据 3.数组在计算机中的基本原理 当计算机遇到…

【优选算法精品】前缀和

文章目录 一、前缀和前缀和问题一维前缀和模板二维前缀和模板 细节处理题目1思路细节处理&#xff1a; 题目2思路 题目3题目4题目5题目6总结 一、前缀和 前缀和问题 前缀和用来快速解决某一段连续区间的和。 时间复杂度O(1) 注意&#xff1a;不要背模板&#xff0c;不要背模…

死锁Deadlock

定义 死锁是指两个或多个线程互相持有对方所需的资源&#xff0c;从而导致它们无法继续执行的情况。如下图所示&#xff0c;现有两个线程&#xff0c;分别是线程A及线程B&#xff0c;线程A持有锁A&#xff0c;线程B持有锁B。此时线程A想获取锁B&#xff0c;但锁B需等到线程B的结…

计算机网络之数据链路层(全)

[复习提示] 王道&#xff1a;本章是历年考试中考查的重点。要求在了解数据链路层基本概念和功能的基础上&#xff0c;重点掌握滑动窗口机制、三种可靠传输协议、各种MAC协议、HDLC协议和PPP协议&#xff0c;特别是CSMA/CD协议和以太网帧格式&#xff0c;以及局域网的争用期和最…

C++学习笔记之三(标准库、标准模板库、vector类)

C 1、C标准库2、C标准模板库2.1、vector2.1.1、vector与array2.1.2、vector与函数对象2.1.3、vector与迭代器 1、C标准库 C C C标准库指的是标准程序库( S t a n d a r d Standard Standard L i b a r a y Libaray Libaray)&#xff0c;它定义了十个大类&#xff0c;其中包括…

只有向内生长,才能向外绽放——中国人民大学与加拿大女王大学金融硕士

这个时代&#xff0c;产业迭代、竞争愈发激烈、世界局势变幻等这些都是我们无法控制的事。我们能做到的是不断地努力提升自己&#xff0c;成为所在领域的佼佼者。人的成长之路&#xff0c;就像是一场循序渐进的蜕变。不断努力是让自己逐步增值的过程。只有向内生长&#xff0c;…

世界经济论坛:ChatGPT等生成式AI,对全球23%岗位产生巨大影响

世界经济论坛与全球最大上市咨询公司之一埃森哲合作&#xff0c;联合发布了《未来工作&#xff1a;大语言模型与就业》白皮书。 世界经济论坛表示&#xff0c;随着ChatGPT、Midjourney、Github Copilot等生成式AI的飞速发展&#xff0c;对全球经济和劳动市场产生巨大影响。未来…