计算机人工智能前沿进展-大语言模型方向-2024-09-13

news2024/12/29 0:11:47

计算机人工智能前沿进展-大语言模型方向-2024-09-13

1. OneEdit: A Neural-Symbolic Collaboratively Knowledge Editing System

Authors: Ningyu Zhang, Zekun Xi, Yujie Luo, Peng Wang, Bozhong Tian, Yunzhi
Yao, Jintian Zhang, Shumin Deng, Mengshu Sun, Lei Liang, Zhiqiang Zhang,
Xiaowei Zhu, Jun Zhou, Huajun Chen

摘要

  • 文章介绍了一个名为OneEdit的神经符号协作知识编辑系统。该系统结合了符号知识图谱(KGs)和大型语言模型(LLMs)来表示知识。OneEdit通过自然语言促进了对KG和LLM的轻松管理,包括三个主要模块:解释器(Interpreter)、控制器(Controller)和编辑器(Editor)。解释器负责理解用户意图,控制器管理来自不同用户的编辑请求并使用KG解决知识冲突,编辑器则利用控制器提供的知识来编辑KG和LLM。实验结果表明,OneEdit在处理知识冲突方面表现优异。

在这里插入图片描述

算法模型
OneEdit系统设计包括三个主要组件:

  • 解释器(Interpreter):作为用户与控制器之间的接口,负责识别用户用自然语言表达的意图。
  • 控制器(Controller):管理来自不同用户的编辑请求,使用KG解决冲突并增强知识。
  • 编辑器(Editor):主要使用控制器增强的知识三元组来编辑KG和LLM。

系统通过存储每次知识编辑后的编辑参数,采用空间换时间的策略,显著减少了VRAM和时间开销。

实验效果
实验在两个新的数据集上进行,一个关注美国政治人物,另一个关注学术人物,两者都包含KG。结果表明,OneEdit在使用Qwen2-7B和GPT-J-6B模型时,能够实现神经符号协作知识编辑,并在处理知识冲突问题上超越了基线方法。

2. NSP: A Neuro-Symbolic Natural Language Navigational Planner

Authors: William English, Dominic Simon, Rickard Ewetz and Sumit Jha

摘要
本文提出了一个名为NSP的神经符号自然语言导航规划框架,该框架利用大型语言模型(LLMs)的神经推理能力来解析自然语言输入,并将其转换为符号表示的环境和路径规划算法。通过在符号执行环境和神经生成过程之间建立反馈循环,NSP能够自我修正语法错误并满足执行时间约束。在1500个路径规划问题的基准测试套件上的实验评估表明,NSP方法产生的有效路径比例为90.1%,且这些路径平均比最先进的神经方法短19-77%。
在这里插入图片描述

创新点

  1. 提出了一种神经符号方法来解决自由形式自然语言中的路径规划问题,该方法利用了符号方法的优势,同时避免了预定义符号表示的需要。
  2. 引入了从执行环境到神经生成过程的神经符号反馈循环,能够解决由LLM生成的幻觉和语法错误,显著提高了自然语言到符号翻译的鲁棒性。
  3. 使用1500个自然语言路径规划场景数据集评估了所提出的方法,与基于最新LLM的方法相比,NSP框架将有效路径成功率提高了最多76%。

算法模型
NSP框架包括以下主要组件:

  • 神经符号翻译:使用LLM将自然语言输入转换为符号表示,包括环境的图表示和路径规划算法。
  • 神经符号规划与反馈:执行算法以产生解决方案路径,如果遇到编译错误或执行超时,则通过反馈循环进行自我修正。

实验效果

  • 在包含5至25个房间的路径规划场景中,NSP在成功率、最优路径率和路径效率方面均优于基线方法。
  • NSP在最少反馈循环迭代次数下实现了高成功率,平均每次输入仅需执行1.82次反馈循环。
  • 在处理更复杂的路径规划问题时,NSP保持了高效率,即使在房间数量增加时,其性能下降幅度也远小于其他方法。

综上所述,NSP通过结合神经推理和符号验证,有效地解决了自然语言路径规划问题,并在多个评估指标上展现了其优越性。

3. Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization

Authors: Mehrdad Zakershahrak, Samira Ghodratnama

解释、辩论、对齐:一种用于语言模型泛化的弱到强框架

摘要
这篇文章探讨了人工智能系统快速发展带来的AI对齐挑战,特别是在复杂决策和任务执行中。随着这些系统在复杂问题上超越人类水平的表现,确保它们与人类价值观、意图和道德准则的对齐变得至关重要。文章基于先前在解释生成方面的工作,提出了一种新的方法,通过弱到强的泛化来实现模型对齐。该方法通过一个促进函数Φ,允许从高级模型向能力较弱的模型转移能力,而无需直接访问大量的训练数据。研究结果表明,这种基于促进的方法不仅提高了模型性能,还为模型对齐的本质和对高级AI系统的可扩展监督提供了洞见。

创新点

  1. 弱到强泛化框架:提出了一种新的模型对齐方法,通过弱模型促进强模型的提升,弥合了解释生成和模型对齐之间的差距。
  2. 促进函数Φ:定义了一个形式化的促进函数,用于实现从强模型到弱模型的知识转移。
  3. 辩论式对齐:引入了辩论机制来增强模型对齐和能力,通过评估不同模型提供的解释来改进模型对齐。
  4. 可扩展的监督:该方法提供了一种机制,可以在人类专家难以提供准确反馈的领域中实现对齐,同时保持与人类价值观的一致性。

算法模型

  • 弱模型(MW):在给定任务和性能指标下,得分低于人类水平的模型。
  • 强模型(MS):在相同任务和性能指标下,得分高于人类水平的模型。
  • 促进函数Φ:通过优化问题实现,将强模型的能力转移到弱模型。
  • 辩论函数D:评估强模型和弱模型提供的解释的质量,并由裁判(可以是另一个弱模型、人类或其他评估机制)评定。
  • 对齐函数Ψ:通过优化问题实现,调整强模型以最小化决策差异并改进解释。

实验效果

  • 性能提升:通过促进方法在多个复杂任务领域实现了模型性能和对齐的显著提升。
  • 可扩展性:展示了该方法在不同任务和模型规模上的可扩展性和局限性。
  • 统计显著性:通过配对t检验验证了不同方法的性能,证明了改进方法相对于基线方法的统计显著性。
  • 错误分析:通过详细分析强学生模型的错误案例,识别了常见的错误类型,并提出了改进方向。

这篇文章通过实验验证了弱到强泛化在语言模型对齐中的有效性,并展示了如何通过促进和辩论式学习来提高模型性能和对齐度。尽管存在挑战,但这项工作为未来在AI对齐和安全方面的研究提供了坚实的基础。

4. SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research

Authors: Ben Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson, Erin Bransom,
Peter Clark, Ashish Sabharwal, Tushar Khot

SUPER:评估智能体在设置和执行研究库中任务的能力

摘要
文章介绍了SUPER,这是首个旨在评估大型语言模型(LLMs)在设置和执行研究库中任务的能力的基准测试。SUPER旨在捕捉研究人员在机器学习和自然语言处理研究库中所面临的现实挑战。基准测试包括三个不同的问题集:45个端到端问题配有专家解决方案,152个从专家集中派生的子问题,专注于特定挑战(例如配置训练器),以及604个自动生成的问题用于更大规模的开发。研究者引入了各种评估措施来评估任务的成功和进展,并展示了现有最先进方法在解决这些问题上的挑战,最好的模型(GPT-4o)仅解决了16.3%的端到端问题集,以及46.1%的场景。这表明了任务的挑战性,并暗示SUPER可以作为社区衡量进展的有价值资源。

在这里插入图片描述

创新点

  1. 首个基准测试:SUPER是首个评估LLMs在设置和执行研究库任务中的能力的基准测试。
  2. 问题集设计:包括端到端问题、专注于特定挑战的子问题,以及自动生成的问题,全面覆盖了研究任务的不同方面。
  3. 评估措施:引入了多种评估措施,包括任务成功和进展的评估,利用专家解决方案或近似值进行评估。
  4. 实际应用导向:基准测试的设计紧密贴合研究人员在实际工作中可能遇到的挑战,强调了模型在实际应用中的有效性和可行性。

算法模型

  • 问题集构成:包括专家手动编写的问题集、通过“代码掩蔽”机制从专家集中提取的子问题集,以及自动生成的问题集。
  • 评估方法:对于有专家解决方案的问题集,通过比较智能体的答案与专家答案进行评估;对于自动生成的问题集,使用脚本执行成功与否作为代理评估指标。
  • 环境设置:构建了一个允许运行系统shell命令和有状态Python命令的环境,以Jupyter笔记本为引擎。

实验效果

  • 性能数据:在端到端问题集上,最好的模型(GPT-4o)仅解决了16.3%的问题,而在所有场景中解决了46.1%的问题。
  • 子问题解决率:在子问题集上,SWE-Agent模型正确解决了46.1%的挑战,但大多数子问题仍未解决。
  • 自动生成问题集:在自动生成的问题集上,模型和智能体的排名与在子问题集上的排名大体一致,表明该集可能对未来发展有用。
  • 错误分析:智能体在解决具体错误消息的子问题(如CPU支持错误、不兼容依赖或异常)方面表现更好,而在更开放的问题(如为自定义数据集配置数据加载)方面表现较差。
    在这里插入图片描述

结论
SUPER基准测试证明了即使是当前最好的商业LLMs,如GPT4,在执行研究库任务方面也面临挑战。基准测试揭示了构建自主LLMs执行代理的核心挑战,如仓库推理和代码编辑,希望这些发现能帮助社区在这一重要问题上取得可衡量的进展。

5. “My Grade is Wrong!”: A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays

Authors: Shengxin Hong, Chang Cai, Sixuan Du, Haiyue Feng, Siyuan Liu, Xiuyi

文章标题翻译

文章标题:“My Grade is Wrong!”: A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays

“我的分数错了!”:一个用于评估学生论文的可争议的人工智能框架,用于交互式反馈

摘要
文章介绍了CAELF(Contestable AI Empowered LLM Framework),这是一个用于自动化交互式反馈的框架,通过整合多智能体系统和计算论证来允许学生查询、挑战和澄清他们的反馈。论文首先由多个助教智能体(TA Agents)评估,然后教师智能体通过形式化推理生成反馈和成绩。学生可以进一步与反馈互动以完善他们的理解。通过对500篇批判性思维论文的案例研究和用户研究,证明了CAELF显著改善了交互式反馈,增强了LLMs的推理和交互能力。这种方法为克服在教育环境中限制交互式反馈采用的时间和资源障碍提供了有希望的解决方案。

创新点

  1. 交互式反馈:提出了一个允许学生对反馈进行查询和挑战的框架,增加了反馈的互动性。
  2. 多智能体系统:通过多智能体之间的讨论和辩论来提高评估的准确性和全面性。
  3. 计算论证:利用计算论证的形式化推理来生成反馈,提高了评估的透明度和可解释性。
  4. 可争议的AI:框架支持用户对AI的评估结果提出质疑和讨论,使AI的决策过程更加透明和可验证。

算法模型

  • LLM讨论:多个TA智能体根据评估标准对论文进行讨论,形成论证。
  • 形式化推理:教师智能体通过计算论证分析TA智能体的论证,使用完整的语义学来确定论文的评分和生成总结反馈。
  • 用户交互:学生可以对教师智能体生成的反馈提出挑战,启动新一轮的讨论和反馈生成。

实验效果

  • 初始准确性:CAELF与GPT-4o在初始评分准确性方面相当。
  • 交互准确性:在与学生的一轮互动后,CAELF的准确性显著优于基线模型。
  • 保持真理:CAELF在保持正确评估方面的成功率为80%-90%,而基线模型的成功率低于40%。
  • 承认错误:CAELF在纠正初始错误的成功率上比基线模型高出10%-20%。
  • 人类评估:CAELF在可读性、事实准确性、自我调节和未来改进等反馈质量方面均优于基线模型。

结论
CAELF通过结合多智能体辩论和计算论证,有效地提高了LLM在教育环境中提供交互式反馈的能力。实验结果表明,CAELF在初始评分准确性、交互评分准确性以及推理和一致性维护方面均优于现有技术。此外,人类评估结果也证实了CAELF在提供高质量反馈方面的有效性。这项工作展示了CAELF在交互式学习环境中的应用潜力,为解决传统教育中交互式反馈的局限提供了新的思路。

6. What is the Role of Small Models in the LLM Era: A Survey

Authors: Lihu Chen and Ga"el Varoquaux
综述: 在大型语言模型时代,小型模型的角色是什么?

摘要
随着大型语言模型(LLMs)在推进通用人工智能(AGI)方面取得显著进展,模型规模的增加导致了计算成本和能源消耗的指数级增长,这使得这些模型对于资源有限的学术研究人员和企业来说不切实际。与此同时,小型模型(SMs)在实际应用中经常被使用,尽管它们的重要性目前被低估。本文系统地从两个关键角度——合作和竞争——审视了LLMs和SMs之间的关系。我们希望这项调查能为从业者提供有价值的见解,促进对小型模型贡献的更深层次理解,并促进计算资源的更有效利用。

在这里插入图片描述

创新点

  1. 合作与竞争视角:首次系统地从合作和竞争的角度分析了在大型语言模型时代小型模型的角色。
  2. 多维度评估:通过准确性、泛化性、效率和可解释性等关键维度对LLMs和SMs进行了全面的比较。
  3. 实际应用分析:结合实际应用场景,探讨了小型模型在特定任务和受限环境中的优势和应用潜力。

算法模型

  • 合作框架:提出了一个框架,展示了LLMs和SMs如何在数据策划、弱到强范式、高效推理、评估LLMs、领域适应、检索增强生成和基于提示的学习等方面进行合作。
  • 竞争分析:分析了在计算受限环境、特定任务环境和需要高可解释性的环境中,小型模型相比大型模型的优势。
    在这里插入图片描述

实验效果

  • 数据策划:小型模型可以通过数据选择和重加权来提高LLMs的性能。
  • 弱到强范式:使用小型模型作为监督器来微调大型模型,可以在保持性能的同时减少计算资源的需求。
  • 高效推理:通过模型级联和模型路由,可以优化推理过程,减少成本和提高速度。
  • 评估LLMs:小型模型可以自动评估由LLMs生成的文本,提供多角度的评估。
  • 领域适应:小型模型可以通过白盒和黑盒适应方法来调整LLMs,以适应特定领域。
  • 检索增强生成:小型模型作为检索器,可以增强LLMs在特定任务上的表现。
  • 基于提示的学习:小型模型可以增强提示,从而提升LLMs的性能。

结论
文章总结了小型模型在大型语言模型时代的角色,强调了它们在合作和竞争中的潜力和价值。通过系统地分析和比较,文章揭示了小型模型在资源优化和特定任务中的显著优势,为未来在这一领域的研究提供了方向。尽管LLMs在性能上具有优势,但SMs在可访问性、简单性、低成本和互操作性方面具有明显优势,这使得它们在多种应用场景中仍然是一个重要的选择。

7. Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency

Authors: Hanyu Zhao, Li Du, Yiming Ju, Chengwei Wu, Tengfei Pan
超越独立同分布:从指令交互和依赖的角度优化指令学习
在这里插入图片描述
摘要
文章探讨了如何有效选择和整合各种指令数据集以微调大型语言模型(LLMs)。以往的研究主要关注选择单个高质量的指令,但忽略了不同类别指令之间的交互和依赖关系,导致选择策略并非最优。此外,这些交互模式的本质尚未被充分探索,更不用说根据它们来优化指令集了。为了填补这些空白,本文系统地研究了不同类别指令之间的交互和依赖模式,并使用基于线性规划的方法优化了指令集,同时使用指令依赖分类指导的课程学习来优化SFT(Supervised Fine-Tuning)的学习模式。实验结果表明,与强基线相比,在广泛采用的基准测试上取得了改进的性能。

创新点

  1. 指令交互和依赖模式的系统研究:首次系统地分析了不同类别指令之间的交互和依赖模式。
  2. 基于相关性的指令集优化:提出了一种基于效应等价的线性规划方法来优化不同类别指令的比例。
  3. 指令依赖分类指导的课程学习:提出了一种新的课程学习方法,根据指令依赖分类来安排学习不同类别指令的顺序。
  4. 实验验证:通过实验验证了所提方法在多个LLMs上的有效性,并在广泛认可的基准测试上取得了改进的性能。

算法模型

  • 自动标记系统:构建了一个自动标记系统为指令分配标签,描述完成该指令所需的详细能力和知识。
  • 因果干预分析:通过添加或移除具有特定标签的指令,观察LLM性能的变化,从而诱导出相关性和依赖模式。
  • 效应等价系数:用于量化不同类别指令之间的相关性,基于此系数优化指令集的比例。
  • 依赖分类指导的课程学习:根据指令依赖分类,调整SFT过程中不同类别指令的学习顺序。

实验效果

  • 性能提升:在包含10,000、20,000和50,000指令的指令集上,与基于质量得分的方法相比,所提出的方法在不同大小的指令集上均显示出一致的性能提升。
  • 重要数据
    • 在10,000指令集上,EE-CPO方法相比DEITA方法在MT-Bench和AlpacaEval 2.0基准测试上分别提升了0.11和0.14。
    • 在50,000指令集上,EE-CPO方法相比DEITA方法在MT-Bench和AlpacaEval 2.0基准测试上分别提升了0.26和0.33。
  • 结论:实验结果支持了分析方法和诱导的指令交互模式的合理性,并证明了考虑指令交互和依赖关系进行指令集优化的有效性。

结论
文章通过系统地研究不同类别指令之间的交互和依赖模式,并提出了相应的优化方法,有效地提高了LLMs在指令学习中的性能。这些发现不仅揭示了指令数据内在的相关性和依赖性,而且为如何优化指令集提供了有价值的见解,有助于推动LLMs在教育和其它领域的应用。

8. Native vs Non-Native Language Prompting: A Comparative Analysis

Authors: Mohamed Bayan Kmainasi, Rakif Khan, Ali Ezzat Shahroor, Boushra
Bendou, Maram Hasanain, Firoj Alam
母语与非母语提示:一项比较分析

摘要
大型语言模型(LLMs)在包括标准自然语言处理(NLP)任务在内的不同领域表现出显著的能力。为了从LLMs中获取知识,提示(prompts)起着关键作用,它们由自然语言指令组成。大多数开源和闭源的LLMs都是基于可用的标记和未标记资源(如文本、图像、音频和视频等数字内容)进行训练的,因此这些模型对高资源语言有更好的了解,但在低资源语言上则表现不佳。由于提示在理解LLMs的能力中起着至关重要的作用,因此用于提示的语言仍然是一个重要的研究问题。尽管在这一领域已有显著研究,但仍然有限,对中低资源语言的探索更少。在本研究中,我们调查了11个不同的NLP任务和12个不同的阿拉伯语数据集(9.7K数据点)上不同提示策略(母语与非母语)的影响。我们总共进行了197次实验,涉及3个LLMs、12个数据集和3种提示策略。我们的发现表明,平均而言,非母语提示的表现最好,其次是混合提示和母语提示。

创新点

  1. 多语言提示策略比较:研究了母语(阿拉伯语)与非母语(英语)提示对LLMs性能的影响,这是在中低资源语言环境下的一个重要研究领域。
  2. 广泛的实验设计:涵盖了11个不同的NLP任务和12个不同的阿拉伯语数据集,进行了197次实验,包括3个LLMs和3种提示策略。
  3. 深入分析:不仅比较了不同提示语言的效果,还探讨了零样本和少样本学习环境下的性能差异。

算法模型

  • LLMs选择:使用了包括GPT-4o、Llama-3.1-8b和Jais-13b-chat在内的多个商业和开源模型。
  • 提示策略:定义了三种不同的提示结构:母语提示、非母语提示和混合提示。
  • 提示技术:采用了零样本学习和少样本学习(3-shot)技术。
  • 后处理:为每个模型、提示、提示技术和数据集设计了特定的后处理函数,以从LLMs的原始输出中提取所需的信息。

实验效果

  • 性能提升:非母语提示在大多数情况下表现最佳,混合提示次之,母语提示在某些情况下表现不佳。
  • 重要数据
    • 在零样本设置中,非母语提示平均表现最好。
    • 在少样本设置中,非母语提示同样表现最佳,尤其是在GPT-4o模型中。
    • 对于没有训练数据的新任务,零样本设置是理想的解决方案,非母语提示在所有模型中表现更好。
    • GPT-4o在所有提示设置中表现最佳。
  • 结论:非母语提示通常能更好地引导模型理解上下文,从而在跨语言的任务中实现更高的性能。

结论
本研究调查了不同提示结构(母语、非母语和混合)对于从各种商业和开源模型中获取所需输出(下游NLP任务的标签)的重要性。实验结果表明,非母语提示在多种设置中表现更好,这可能与模型在训练过程中对主导语言(英语)的更强能力有关。未来的工作可能包括使用指令遵循数据集进行微调,以创建特定领域的专业模型。

9. Understanding Knowledge Drift in LLMs through Misinformation

Authors: Alina Fastowski and Gjergji Kasneci
通过错误信息理解大型语言模型中的知识漂移

摘要
本文主要分析了在问答场景中,当遇到错误信息时,最先进的大型语言模型(LLMs)对事实不准确信息的敏感性。这种敏感性可能导致所谓的知识漂移现象,这显著削弱了这些模型的可信度。研究者通过熵、困惑度和令牌概率等指标评估了模型回答的事实性和不确定性。实验结果显示,当模型由于暴露于错误信息而错误回答问题时,其不确定性可能增加高达56.6%。同时,重复暴露于相同的错误信息可以再次降低模型的不确定性(与未受污染的提示回答相比降低了52.8%),这可能操纵了模型的原始知识信念,引入了与其原始知识的漂移。这些发现为LLMs的鲁棒性和对抗性输入的脆弱性提供了见解,为开发更可靠的LLM应用铺平了道路。
在这里插入图片描述

创新点

  1. 知识漂移分析:首次系统地分析了LLMs在遇到错误信息时内部知识结构的变化,即知识漂移。
  2. 不确定性评估:通过熵、困惑度和令牌概率等指标来评估LLMs在面对错误信息时的不确定性变化。
  3. 错误信息影响:研究了错误信息对LLMs性能和不确定性估计的影响,发现重复暴露于错误信息可以减少模型的不确定性,表明模型可能被操纵。

算法模型

  • 不确定性度量:使用熵、困惑度和令牌概率来量化模型的不确定性。
  • 实验设计:在TriviaQA数据集上进行实验,测试LLMs在面对正确和错误信息时的表现。
  • 信息注入:通过在问题提示中注入错误信息和随机信息,来观察模型响应的变化。

实验效果

  • 不确定性增加:当模型由于错误信息而错误回答问题时,不确定性增加了高达56.6%。
  • 重复暴露影响:重复暴露于相同的错误信息可以降低模型的不确定性(与未受污染的提示相比降低了52.8%)。
  • 模型表现:实验涉及的模型包括GPT-4o、GPT-3.5、LLaMA-2-13B和Mistral-7B,结果显示所有模型在面对错误信息时都表现出了知识漂移的现象。

结论
研究揭示了LLMs在处理错误信息时可能出现的知识漂移现象,强调了在设计和部署LLM应用时考虑其对错误信息的敏感性的重要性。研究结果表明,错误信息可以显著影响模型的不确定性和事实准确性,这对于提高LLMs在关键应用中的鲁棒性和可信度具有重要意义。

推荐阅读指数
★★★★☆

推荐理由:这篇文章对于理解大型语言模型在面对错误信息时的行为和内部知识结构的变化具有重要意义。它不仅提供了对现有LLMs潜在脆弱性的深入分析,还为未来如何提高模型的鲁棒性和可信度提供了有价值的见解。适合对自然语言处理、机器学习以及人工智能安全性感兴趣的研究人员和从业者阅读。

9. Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model

Authors: Daehee Kim, Deokhyung Kang, Sangwon Ryu, Gary Geunbae Lee
使用大型语言模型合成无本体的通用领域知识图谱到文本生成数据集
在这里插入图片描述
摘要
知识图谱到文本(G2T)生成任务旨在将知识图谱的三元组形式(主体、谓语、客体)转化为自然语言文本。预训练语言模型(PLMs)的最新进展在G2T性能上取得了显著提升,但其有效性依赖于具有精确图-文本对齐的数据集。然而,高质量、通用领域G2T生成数据集的稀缺限制了通用领域G2T生成研究的进展。为了解决这一问题,我们介绍了Wikipedia OntologyFree Graph-text数据集(WikiOFGraph),这是一个新的大型G2T数据集,它利用大型语言模型(LLM)和Data-QuestEval的新方法生成。我们的新数据集包含585万通用领域图-文本对,不依赖外部本体,提供了高图-文本一致性。实验结果表明,针对WikiOFGraph进行微调的PLM在各种评估指标上优于其他数据集上训练的模型。我们的方法被证明是生成高质量G2T数据的可扩展和有效解决方案,显著推进了G2T生成领域。

创新点

  1. 无本体的数据集生成:提出了一种新方法,利用大型语言模型(LLM)和Data-QuestEval来生成无本体的通用领域知识图谱到文本的数据集。
  2. 高图-文本一致性:新数据集在不依赖外部本体的情况下,提供了高一致性的图-文本对。
  3. 大规模数据集:生成了包含585万通用领域图-文本对的数据集,覆盖了整个Wikipedia的内容。

算法模型

  • 数据集生成方法:通过LLM从Wikipedia文本中提取图表示,然后使用Data-QuestEval进行数据筛选,确保图-文本对的一致性。
  • 图提取:使用LLM从给定句子中提取图表示,通过人工选择的例子引导LLM进行图表示的提取。
  • 数据筛选:利用Data-QuestEval对生成的图-文本对进行筛选,确保数据的高质量。

实验效果

  • 性能提升:在WikiOFGraph数据集上微调的PLM在多个评估指标上优于其他数据集上训练的模型。
  • 重要数据
    • 在GenWiki测试集上,WikiOFGraph微调的模型在BLEU、METEOR、ROUGE-L和BERTScore-F1等指标上均优于其他数据集。
    • 在WikiOFGraph测试集上,微调的模型在所有评估指标上均表现出显著的性能提升。

结论
研究介绍了WikiOFGraph数据集,这是一个大规模的通用领域G2T数据集,通过LLM和Data-QuestEval生成,不依赖外部本体。实验结果表明,该数据集在多个评估指标上能够提升PLM的性能。此外,通过额外的实验和案例研究,证明了Data-QuestEval筛选在确保图-文本一致性方面的有效性。

推荐阅读指数
★★★★☆

推荐理由:这篇文章提出了一种创新的方法,通过结合LLM和Data-QuestEval来生成无本体的通用领域知识图谱到文本的数据集。该方法不仅提高了数据集的质量和一致性,而且生成的数据集规模大,覆盖了广泛的领域,对于推动G2T生成领域的研究具有重要意义。适合对自然语言处理、知识图谱和数据生成感兴趣的研究人员和从业者阅读。

10. Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem

Authors: Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Sebastian
M"oller, Vera Schmitt
交叉精炼:通过协同学习改进自然语言解释生成
在这里插入图片描述
摘要
本文介绍了一种名为CROSS-REFINE的方法,旨在通过模仿人类的学习过程来改善大型语言模型(LLM)生成的自然语言解释(NLE)。CROSS-REFINE通过使用两个LLM,一个作为生成器(generator),另一个作为批评者(critic),来迭代提升解释的质量。生成器首先输出一个初步的NLE,然后根据批评者提供的反馈和建议进行优化。这种方法不需要任何监督训练数据或额外的训练。通过在三个自然语言处理(NLP)任务上的自动和人类评估来验证CROSS-REFINE的有效性,结果表明CROSS-REFINE在多个方面优于SELF-REFINE方法,并且能够在不太强大的LLM上有效工作。

创新点

  1. 协同学习机制:CROSS-REFINE通过两个LLM的协同工作,模拟人类的学习过程,其中生成器和批评者相互提供反馈和建议。
  2. 无需额外训练:与需要额外训练数据的方法不同,CROSS-REFINE不需要任何监督训练数据或额外训练。
  3. 跨语言评估:CROSS-REFINE在英语和德语的双语数据集上进行了评估,显示了其跨语言的适用性。

算法模型
CROSS-REFINE的核心是两个LLM的协同工作:

  • 生成器:负责生成初步的NLE。
  • 批评者:提供对生成器输出的反馈和改进建议。
  • 交叉精炼过程:生成器利用批评者的反馈和建议来优化其初步解释。
    在这里插入图片描述

实验效果

  • 自动评估:使用BLEURT、BARTScore和TIGERScore等自动化指标进行评估,CROSS-REFINE在ECQA和eSNLI数据集上的表现优于SELF-REFINE。
  • 人类评估:通过用户研究,CROSS-REFINE在忠实度、连贯性和洞察力方面的表现优于SELF-REFINE。
  • 重要数据与结论
    • 在HealthFC数据集上,CROSS-REFINE在生成德语解释方面比SELF-REFINE更有效。
    • CROSS-REFINE在需要特定领域知识的医疗领域表现不佳,但在“自我CROSS-REFINE”设置中表现优于SELF-REFINE。

推荐阅读指数
★★★★☆

推荐理由

  • 对于自然语言处理和机器学习领域的研究人员和实践者,CROSS-REFINE提供了一种创新的方法来改进LLM生成的解释。
  • 论文详细介绍了方法的动机、设计和实验验证,对于理解当前LLM在解释生成方面的能力和限制非常有帮助。
  • 跨语言评估的部分为多语言NLP任务提供了有价值的见解。

扣分理由

  • 尽管在特定领域(如医疗)的表现有待提高,但整体上该方法在多个任务上显示出了显著的改进,因此扣掉一分。哈哈,另外一个原因是文章也比较长,看完不容易~~~

备注

原创文章同步发表CSDN与知乎平台,内容仅供学习使用。 – by 夜空流星(sp-fyf-2024)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2143569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

有机水果蔬菜检测系统源码分享

有机水果蔬菜检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer…

NPM如何切换淘宝镜像进行加速

什么是淘宝镜像NPM? 淘宝镜像NPM和官方NPM的主要区别在于服务器的地理位置和网络访问速度。淘宝镜像NPM是由淘宝团队维护的一个npm镜像源,主要服务于中国大陆用户,提供了一个国内的npm镜像源,地址为 https://registry.npmmirror.…

MySQL 事件调度器用法解析

MySQL 事件调度器用法解析 在日常的数据库运维与开发实践中,自动化执行任务是一项至关重要的需求,它极大地提升了数据库管理的效率和准确性。这些任务可能包括清理不再需要的历史数据以释放存储空间、更新汇总或统计信息以保持数据的新鲜度,…

Java-数据结构-二叉树-习题(三)  ̄へ ̄

文本目录: ❄️一、习题一(前序遍历非递归): ▶ 思路: ▶ 代码: ❄️二、习题二(中序遍历非递归): ▶ 思路: ▶ 代码: ❄️三、习题三(后序遍历非递归): ▶ 思路: …

2025年最新大数据毕业设计选题-基于Spark分析相关

选题思路 回忆学过的知识(Python、Java、Hadoop、Hive、Sqoop、Spark、算法等等。。。) 结合学过的知识确定大的方向 a. 确定技术方向,比如基于Hadoop、基于Hive、基于Spark 等等。。。 b. 确定业务方向,比如民宿分析、电商行为分析、天气分析等等。。。…

[网络层]-IP协议相关特性

IP协议 基本概念 主机 : 配有IP地址,但是不进行路由控制的设备路由器 : 既配有IP地址,又能进行路由控制节点: 主机和路由器的统称 协议头格式 4位版本(version):占四位,用于指定IP协议的版本,例如,使用IPv4,该字段就为44位首部长度: 表示IP协议首部的长度,以32位bit (4字节)…

秋招突击——9/10、9\11——算法练习——携程笔试练习——2024年秋招第一批笔试

文章目录 引言笔试准备2024年秋招研发第一批第一题第二题第二次实现 第三题第四题第五题参考实现 总结 引言 准备全力冲携程,好好做算法,去线下面试!今天就好好做做携程往年的笔试! 笔试准备 2024年秋招研发第一批 第一题 imp…

<<编码>> 第 14 章 反馈与触发器(1)--振荡器 示例电路

继电器振荡器 info::操作说明 无需操作, 保持控制开关常闭以形成振荡 如需停止振荡, 则断开控制开关 注: 要看到灯闪烁的效果, 右上角 “仿真速度” 控制杆应设置为一个较低的位置(靠左侧) 另: 因继电器内部开关跳动动画效果耗时太长, 即便设置为较低的仿真速度也无法观察到开关…

有效的对嵌入式操作系统进行消毒处理

这篇论文的标题是《Effectively Sanitizing Embedded Operating Systems》,作者是 Jianzhong Liu, Yuheng Shen, Yiru Xu, Hao Sun, Heyuan Shi, Yu Jiang。论文主要研究了嵌入式操作系统的安全性问题,并提出了一种名为 EmbSan 的嵌入式系统消毒器&#…

计算机的错误计算(九十六)

摘要 探讨 的计算精度问题。 计算机的错误计算(五十五)与(七十八)分别列出了 IEEE 754-2019 中的一些函数与运算。下面再截图给出其另外3个运算。 例1. 已知 x-0.9999999999966 . 计算 不妨在Python下计算,则有&am…

TI DSP TMS320F280025 Note11:F280025时钟系统

TMS320F280025 F280025时钟系统 ` 文章目录 TMS320F280025 F280025时钟系统TMS32F280025时钟系统框图**时钟系统框图分析**时钟源主内部振荡器(INTOSC2)用内部振荡器(INTOSC1)派生的时钟振荡器时钟(OSCCLK)系统锁相环输出时钟(PLLRAWCLK)设备时钟域系统时钟(PLLSYSCLK)CPU时钟(…

PyTorch 激活函数及非线性变换详解

激活函数是深度学习模型的重要组成部分,它们引入非线性,从而使模型能够更好地拟合复杂的数据模式。本文将详细介绍激活函数的作用、常见类型、经典应用示例,并比较它们的优缺点。 激活函数的作用 激活函数的主要作用是引入非线性变换&#…

12 Java文件处理之写入、读取:IO流(中):高级流(缓冲流、转换流、序列化流和反序列化流、打印流)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、缓冲流1 字节缓冲流(1)BufferedInputStream:字节缓冲输入流构造方法---- BufferedInputStream(InputStream in):创建一个使用默认缓冲区大小的缓冲输入流。---- BufferedInputStream(In…

算法题目复习(0909-0917)

1. 连续子序列和 pdd的算法题&#xff0c;根本不记得怎么做 给一个数组&#xff0c;有正数和负数&#xff0c;算出连续子序列的和最大为多少 int maxSubArraySum(vector<int>& nums) {int maxSoFar nums[0];int maxEndingHere nums[0];for (size_t i 1; i <…

说说几款耳机

从前&#xff0c;大约在戴森推出他们那款奇特的发明——戴森耳机与空气净化器组合一年后&#xff0c;人们仍对这个奇怪的产品感到困惑。这款穿戴式空气净化耳机更像是一个实验&#xff0c;缺乏实际用途。回想起那时的评测&#xff0c;大家一致认为这是有史以来最无意义的产品之…

IDEA 2024.3 EAP新特征早览!

0 前言 IntelliJ IDEA 2024.3 第一个 EAP 版本已发布&#xff0c;提前体验 下一个重大版本的一部分改进。 持续关注 EAP 更新&#xff0c;未来几周内将推出更多 IntelliJ IDEA 新功能。尝试这些新功能&#xff0c;分享您的反馈&#xff0c;共同完善 IDE。 1 AI 助手 1.1 内…

Web3入门指南:从基础概念到实际应用

Web3&#xff0c;即“去中心化的第三代互联网”&#xff0c;正在逐步改变我们对互联网的传统认知。从最初的静态网页&#xff08;Web1.0&#xff09;到互动平台和社交媒体为主的互联网&#xff08;Web2.0&#xff09;&#xff0c;Web3的目标是让用户重新掌握对数据和数字资产的…

比特币10年价格数据(2014-2024)分析(基础)

数据入口&#xff1a;【每周挑战】比特币10年价格数据可视化和量化分析 - Heywhale.com 本数据集包含 2014 - 2024 的比特币美元价格数据&#xff0c;具体包含比特币每日的开盘价、最高价、最低价、收盘价以及成交量等关键信息。数据说明如下&#xff1a; 字段说明Date日期&a…

PMP--一模--解题--151-160

文章目录 11.风险管理--规划风险应对--机会应对策略--上报151、 [单选] 早在执行阶段&#xff0c;项目经理就发现&#xff0c;事业环境因素&#xff08;EEF&#xff09;最近发生的变化将使实施成本大幅减少&#xff0c;而且还将缩减项目进度计划&#xff0c;项目经理该如何应对…

《沈阳体育学院学报》

《沈阳体育学院学报》创刊于1982年&#xff0c;是由沈阳体育学院主办&#xff0c;面向国内外公开发行的体育类学术期刊&#xff1b;国际标准刊号为ISSN 1004-0560&#xff0c;国内刊号为CN 21-1081/G8&#xff1b;双月刊&#xff0c;单月中旬出版。 《沈阳体育学院学报》是中文…