浙大做了一个可用于AI领域的学术会议问答LLMs

深度学习自然语言处理原创
作者：wkk

今天介绍一篇来自于浙江大学的一项研究，关于基于LLM进行人工智能领域内7个不同学术会议QA数据集的论文。

论文: Reliable Academic Conference Question Answering: A Study Based on Large Language Model
地址: https://arxiv.org/abs/2310.13028
git: https://github.com/zjukg/ConferenceQA

->辅导界的小米带你冲刺ACL2024

摘要

计算机科学的快速发展导致学术会议上发表的研究激增，促进了全球学术交流。研究人员在各个阶段不断地寻求有关这些会议的准确、最新信息。因此急需一个智能问答系统来有效地解决研究人员的疑问，并确保了解会议的最新进展。

会议信息通常发布在其官方网站上，以半结构化的方式组织，并包含大量文本。为了满足这一需求，本文为7个不同的学术会议开发了ConferenceQA数据集，其中包含人工注释。首先，采用手动和自动相结合的方法，以半结构化的JSON格式组织学术会议数据。随后，为每个会议注释了近100个问答对。每一对被分为四个不同的维度。为了确保数据的可靠性，手动注释每个答案的来源。

鉴于最近的进展，大型语言模型（LLM）在各种NLP任务中表现出了令人印象深刻的性能。它们在指令微调后的信息寻求问题回答方面表现出了令人印象深刻的能力，因此，提出了基于LLM的会议QA研究。由于LLM的幻觉和过时的知识，采用基于检索的方法来提高LLM的问答能力。提出了一种结构感知检索方法，专门设计用于在检索过程中利用固有的结构信息。Conference QA数据集的实证验证证明了该方法的有效性。

简介

由于计算机科学的研究成果在学术会议上发表，这为世界各地的研究人员通过参加会议进行面对面交流提供了巨大的机会。在这些学术会议之前、期间和之后，研究人员不断寻求有关这些事件各个方面的准确、最新情报。特定领域数据的极端激增，迫切需要一种复杂、精确的方法来获取这些信息，从而确保充分参与并全面了解最先进的进步。

鉴于LLMs优秀的推理能力，本文基于会议信息建立了一个QA数据集，进行了一项基于LLM的会议QA研究。

数据集的构建是基于手工和自动相结合的方法，这些问题被分为四类：原子提取、原子推理、复杂提取和复杂推理，从而能够详细探索这些问题。

本文的贡献如下：

构建了一个涵盖7个会议的广泛数据集，每个会议都配备了一组近100个QA对，用于测试。
进行了几个基础实验，证明了不同检索对象在响应不同类型的查询时的熟练程度不同。虽然这些发现是有希望的，但它们强调了进一步改进的巨大潜力。
通过提供广泛的数据集并揭示大型语言模型的有效应用，这项工作对学术会议中问答的发展做出了重大贡献。

数据集构造

会议QA数据集的构造主要包括以下三个步骤：如下图所示。

Semi-structure Data Transformation(半结构数据转换)
QA Pair Generation(QA对生成)
Question Classification(问题分类)

半结构数据转换

会议QA数据集中的数据来源于官方会议网站，网站中的每个页面都与其他页面存在结构关系。由于格式风格的可变性，使用手动和自动相结合的方法为每次学术会议构建了半结构化数据集。网站主要包括以下三部分：

页面关系：使用每个页面的标题作为JSON数据中键或值的一部分。JSON数据是树状结构，父子节点对应于页面之间的嵌套关系，兄弟节点以及同级别的其他节点对应于页之间的并行关系。
非结构化内容：对于页面上的非结构化内容，即页面中的纯文本，如果它包含副标题，将这些副标题提取为JSON数据中路径的一部分。副标题下的内容用作JSON数据中的值。为了增强粒度的多样性，随机选择纯文本进行更细粒度的分割，即将其分解为更多的副标题。
结构化内容：结构化内容主要包括表格数据和页面上的一些有序/无序列表。对于表数据，使用网络爬虫来获取它，然后将其转换为放置在相应页面路径或标题下的半结构化数据。对于页面上的列表数据，将其合并到JSON数据的“list”部分。

QA对生成

对于每个会议，使用手动和自动方法的组合生成问答对。原则是确保每个问题与研究人员在现实环境中提出的问题密切相关。还使用手动注释来保证问题的质量和可靠性，以及注释答案及其来源。QA对生成包括：

角色创建：利用ChatGPT生成了20个角色档案，其中包括角色的年龄、研究方向、职位、出版历史、会议出席经历等细节。这些角色可以类比为对会议感兴趣的来自不同背景的现实生活中的研究人员。
LLM生成的问题：使用系统提示让ChatGPT扮演这些角色，就每个会议提出五个不同粒度的问题。这些问题涵盖了每个会议中来自不同背景的人物感兴趣或不确定的领域。
手动注释：采用手工注释的方式对问题进行了全面的回顾。过滤掉重复或过于困难的问题，同时添加一些内容更广泛、更多样的问题。随后，根据JSON数据手动注释答案。为了确保数据集的可靠性，为问答对注释每个答案的来源，由答案在学术会议JSON数据中的位置表示。

问题分类

为了评估模型回答不同难度问题的能力，设计了一个对问答对进行分类的方案。这种分类主要取决于两个不同的方面：生成答案的过程和生成正确答案的条目数量。问题分类主要从两个维度展开。

提取或推理：这个维度主要考虑生成答案的过程。如果答案可以直接从数据集中提取，即答案是数据集中的一段文本，则将其归类为提取。如果给出答案需要模型首先推理，然后生成，即相应的答案不是数据集中的一段文本，则将其归类为推理。
原子或复合体：这个维度主要考虑生成正确答案所涉及的条目数量。如果生成答案只需要来自单个条目的信息，即JSON数据中从最顶层到最底层的序列。它被归类为原子。如果生成答案需要来自多个条目的信息，则将其归类为复杂。

基于LLM的方法

随着LLM的出现，领域领域中的问答问题得到了广泛的研究。目前的主流方法是基于检索，利用读者的查询𝑞 提取相关内容𝑐 并将检索到的内容和问题连接起来供LLM回答。本文的方法也遵循这种基于检索的范式。然而，会议的数据集是以半结构化格式组织的。因此，首先需要处理JSON数据来组织内容以进行检索。随后，本文提出了一种专门为半结构化数据设计的结构感知方法，该方法有效地集成了数据集中的结构和语义信息。

半结构化数据处理：半结构化数据集类似于树状结构，其中每个键或值都可以被视为树上的一个节点。为了便于检索，将由叶节点和根节点组成的条目视为提供给LLM的附加信息。
条目检索：在接收到查询输入时𝑞, 检索器的任务是从KB={𝑒1.𝑒2.𝑒𝑚 } 与𝑞. 本文实现了一个在双编码器框架上运行的密集检索器。该框架使用编码器来处理两个输入查询𝑞 和条目𝑒。
结构感知检索：为了更好地利用路径和价值的作用，设计了三种方法来整合它们的信息。这些方法包括加权求和、直接串联和利用条目描述。

方法如下图所示

实验

实验是在会议QA数据集中的7个会议数据上进行的。给定一个问题，通过将LLM的答案与该问题的标准答案进行比较来评估LLM的回答。对于每一次会议，都进行了以下实验：直接回答而不检索（Origin），用标准条目回答（gold），使用单词袋检索函数BM25检索条目（BM25），使用密集检索方法检索条目（Entry），以及三种结构感知方法，包括加权求和（WSum）、直接连接（DCon）以及利用条目的描述进行检索（Doe）。实验采用EM和F1值作为衡量指标。

上表显示了本研究中设计的方法在7个会议数据集上的EM和F1结果。从这些结果可以看出：

DoE方法在所有七个数据集中的四个问题类型中始终表现出最佳性能，证明了该方法的优越性。这也验证了结构信息和文本信息的有效集成可以显著提高性能。
WSum（𝜆=0.6）和DCon方法显示出相似的性能，但它们的有效性在不同的会议数据集中有所不同。例如，在WWW2023、SIGMOD2023、IJCAI2023和ICDE2023数据集中，DCon方法比WSum方法表现更好，而WSum方法在其他会议数据集中更有效。
Entry方法在检索方面明显优于BM25，突出了基于向量的检索的优势。这也表明“text-embedding-ad-002”能够有效地编码纯文本之外的结构信息。
从问题难度的角度来看，抽取组型问题在许多会议数据集上都能取得令人满意的结果。使用DoE方法，七个会议数据集的平均EM值达到80%。同时，对于最具挑战性的推理复杂类型的问题，EM值的平均值也可以达到50%。这表明LLM在完成会议问答任务方面具有巨大潜力。

研究不同权重系数的影响𝜆 在WSum方法中，从四个领域选择了具有代表性的学术会议：web领域的WWW2023、数据库领域的SIGMOD2023、自然语言处理领域的ACL2023和信息检索领域的ICDE2023。然后我们开始𝜆 以0.1的间隔在0到1的范围内，并相应地进行实验。结果如上图所示，表明：

这四个会议的绩效指标都呈现出先增加后减少的趋势，在中间达到峰值（即lambda约为0.6时）。这表明我们的数据集包含结构和文本信息，并且可以通过将两者有效地集成来实现更好的性能。
何时𝜆 如果设置为0（仅使用文本信息）或1（仅使用结构信息），则由于缺少部分信息，结果相对较差。这两种设置之间的差距因不同的会议而异。它在WWW2023、SIGMOD2023和ACL2023中更为明显，但在ICML2023几乎可以忽略不计。这表明数据的JSON组织在不同的会议中有所不同，因此不同信息的影响也有所不同。
这四种类型的问题在不同的会议中表现出相似的趋势𝜆变化。这表明，更有效地利用信息可以提高不同难度问题的性能。

结构感知方法包括在描述构建过程中结合节点周围的结构信息。此信息包括来自同级节点和父路径的详细信息。为了评估结构感知方法的优势，进行了消融实验，包括去除兄弟节点和消除父路径的描述。移除同级节点意味着以自上而下的方式逐层构建描述，只提供父路径的描述，直到获得条目的描述。另一方面，排除父路径的信息需要直接使用来自其兄弟节点的信息来生成条目的描述，从而有助于在一个步骤中产生条目的描述。结果如上图4所示

结构感知方法在所有四个数据集上都优于其他两种方法，证明了在生成描述时添加周围结构信息的有效性。
在所有四个数据集中，删除父路径的描述的影响不如删除同级节点的影响显著，这表明同级节点可以提供更多信息并发挥更重要的作用。
在四种类型的问题中，提取组学受影响最小，可能是因为它是最简单的问题类型，不需要使用过多的周围结构信息。

总结和未来工作

本文为学术会议开发了一个可靠的数据集，包含了来自7个会议的JSON数据，这些数据来自官方网站，使用了人工-自动的组合方法。

从本文的研究中收集到的见解为那些打算使用该数据集的人提供了有价值的指导：首先，由于学术会议官方网站的组织风格不同，学术会议数据集的具体形式相当多样，导致难度不同。其次，数据集包含了大量的问答对及其来源，根据生成答案的过程和它们所依赖的条目数量，这些问答对可分为四种类型。这些类别可作为评估模型处理JSON数据熟练程度的基准。最后，证实了所提出的结构感知检索方法的有效性，强调了数据集中结构信息的重要性。

本质上，本文将该数据集视为推进学术会议问答领域进一步研究的垫脚石，并促进对模型如何利用不同类型的外部知识库的探索。尽管的Conference QA数据集包括来自七个会议网站和一百多个问答对的所有数据，但其大小仍然有限。这可能会引入结构性偏见，并限制本文研究结果的可推广性。未来，计划通过合并更多的会议和测试更广泛的方法和模型来增强数据集。