【AI视野·今日NLP 自然语言处理论文速览第六十九期】Wed, 3 Jan 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Wed, 3 Jan 2024
Totally 24 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

An Autoregressive Text-to-Graph Framework for Joint Entity and Relation Extraction
Authors Zaratiana Urchade, Nadi Tomeh, Pierre Holat, Thierry Charnois
在本文中，我们提出了一种从非结构化文本中提取联合实体和关系的新方法，将其视为条件序列生成问题。与从左到右标记级别生成器的传统生成信息提取模型相比，我们的方法是基于 textit span 的。它生成一个线性化图，其中节点表示文本范围，边表示关系三元组。我们的方法采用变压器编码器解码器架构，该架构具有跨度和关系类型的动态词汇表的指向机制。我们的模型可以通过跨度表示捕获实体和关系的结构特征和边界，同时借助指向机制将生成的输出基于原始文本。对基准数据集的评估验证了我们方法的有效性，展示了具有竞争力的结果。

LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
Authors Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia Yuan Chang, Huiyuan Chen, Xia Hu
这项工作激发了法学硕士无需微调即可处理长上下文的固有能力。训练期间训练序列的有限长度可能会限制大型语言模型LLM在长输入序列上的推理应用。在这项工作中，我们认为现有的法学硕士本身具有处理长上下文的固有能力。基于这一论点，我们建议自行扩展LLM的上下文窗口，以充分利用其固有的能力。我们提出Self Extend来激发LLM的长上下文处理潜力。基本思想是构建群体级别和邻居级别的双层注意力信息。这两个级别是由原始模型的自注意力计算的，这意味着所提出的模型不需要任何训练。只需四行代码修改，所提出的方法就可以轻松扩展现有的 LLM 上下文窗口，而无需任何微调。

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models
Authors S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija Jain, Anku Rani, Vipula Rawte, Aman Chadha, Amitava Das
随着大型语言模型法学硕士在编写类似人类文本的能力方面不断进步，一个关键的挑战仍然是他们倾向于产生看似事实但毫无根据的内容。这种幻觉问题可以说是将这些强大的法学硕士安全部署到影响人们生活的现实世界生产系统中的最大障碍。在实际环境中广泛采用法学硕士的旅程在很大程度上依赖于解决和减轻幻觉。与专注于有限任务的传统人工智能系统不同，法学硕士在训练期间接触了大量在线文本数据。虽然这使他们能够表现出令人印象深刻的语言流畅性，但这也意味着他们能够从训练数据的偏差中推断出信息，误解不明确的提示，或者修改信息以表面上与输入保持一致。当我们依赖语言生成功能来实现敏感应用程序（例如总结医疗记录、财务分析报告等）时，这就变得非常令人担忧。本文对超过 32 种为减轻法学硕士的幻觉而开发的技术进行了全面调查。其中值得注意的是检索增强一代 Lewis 等人，2021 年、知识检索 Varshney 等人，2023 年、CoNLI Lei 等人，2023 年和 CoVe Dhuliawala 等人，2023 年。此外，我们引入了一个详细的分类法，根据各种参数对这些方法进行分类，例如数据集利用率、常见任务、反馈机制和检索器类型。这种分类有助于区分专门为解决法学硕士的幻觉问题而设计的不同方法。

Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models
Authors Matthew Dahl, Varun Magesh, Mirac Suzgun, Daniel E. Ho
大语言模型法学硕士有潜力改变法律实践，但这种潜力受到这些模型的法律幻觉反应的威胁，这些反应与法律事实不符。我们使用一套原始的法律查询来调查这些幻觉的程度，将法学硕士的回答与结构化法律元数据进行比较并检查其一致性。我们的工作做出了四个关键贡献 1 我们开发了法律幻觉的类型学，为该领域的未来研究提供了概念框架。 2 我们发现，当这些模型被问到关于随机联邦法院案件的具体、可验证的问题时，法律幻觉的普遍程度令人震惊，在 ChatGPT 3.5 中出现的概率为 69，在 Llama 2 中出现的概率为 88。 3 我们举例说明，法学硕士通常无法纠正用户在反事实问题设置中的错误法律假设。 4 我们提供的证据表明法学硕士无法总是预测或并不总是知道他们何时会产生法律幻觉。总而言之，这些发现警告人们不要将流行的法学硕士快速且无监督地整合到法律任务中。

A Comprehensive Study of Knowledge Editing for Large Language Models
Authors Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen
大型语言模型法学硕士在理解和生成密切反映人类交流的文本方面表现出了非凡的能力。然而，主要的限制在于训练期间由于其广泛的参数化而产生的大量计算需求。世界的动态性质进一步加剧了这一挑战，需要经常更新法学硕士以纠正过时的信息或整合新知识，从而确保其持续的相关性。请注意，许多应用程序需要在训练后不断调整模型，以解决缺陷或不良行为。人们对用于动态模型修改的高效、轻量级方法越来越感兴趣。为此，近年来法学硕士知识编辑技术蓬勃发展，旨在有效地修改特定领域内的法学硕士行为，同时保持各种输入的整体性能。在本文中，我们首先定义知识编辑问题，然后对前沿方法进行全面回顾。受到教育和认知研究理论的启发，我们提出了一个统一的分类标准，将知识编辑方法分为三类：利用外部知识、将知识融入模型和编辑内在知识。此外，我们引入了一个新的基准 KnowEdit，用于对代表性知识编辑方法进行全面的实证评估。此外，我们还提供对知识位置的深入分析，可以更深入地了解法学硕士固有的知识结构。

Quality and Quantity of Machine Translation References for Automated Metrics
Authors Vil m Zouhar, Ond ej Bojar
自动机器翻译指标通常使用人工翻译来确定质量系统翻译。该领域的常识表明，人类参考文献的质量应该非常高。然而，没有成本效益分析可以用来指导计划收集机器翻译评估参考的从业者。我们发现，更高质量的参考可以在细分级别上与人类产生更好的指标相关性。每个细分最多有 7 个参考并取其平均值有助于所有指标。有趣的是，来自不同质量的供应商的参考可以混合在一起并提高指标的成功率。然而，更高质量的参考文献的创建成本更高，我们将其视为给定特定预算的优化问题，应收集哪些参考文献以最大限度地提高指标成功率。

CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation
Authors Quan Tu, Shilong Fan, Zihang Tian, Rui Yan
最近，大型语言模型法学硕士的出现彻底改变了生成代理。其中，角色扮演对话代理 RPCA 因其能够在情感上吸引用户的能力而引起了相当大的关注。然而，缺乏全面的基准阻碍了这一领域的进展。为了弥补这一差距，我们引入了 CharacterEval，这是一个用于综合 RPCA 评估的中国基准，并辅以定制的高质量数据集。该数据集包含 1,785 个多回合角色扮演对话，包含 23,020 个示例，并包含源自中国小说和剧本的 77 个角色。它经过精心构建，首先通过 GPT 4 提取初始对话，然后进行严格的人工质量控制，并通过来自百度百科的深入角色配置文件进行增强。 CharacterEval 采用多方面的评估方法，包含四个维度上的十三个目标指标。 CharacterEval 的综合实验表明，中文 LLM 在中文角色扮演对话中表现出比 GPT 4 更有前景的能力。

Fairness Certification for Natural Language Processing and Large Language Models
Authors Vincent Freiberger, Erik Buchmann
自然语言处理 NLP 在我们的日常生活中发挥着重要作用，特别是由于大型语言模型 LLM 的巨大进步。然而，NLP 有许多对公平性至关重要的用例，例如，作为招聘中的专家系统或作为基于法学硕士的教育导师。由于 NLP 基于人类语言，潜在有害的偏见可能会扩散到 NLP 系统中并产生不公平的结果、歧视少数群体或产生法律问题。因此，为 NLP 方法开发公平性认证非常重要。我们遵循定性研究方法来获得 NLP 的公平性认证。特别是，我们审查了大量有关算法公平性的文献，并且与该领域的众多专家进行了半结构化专家访谈。我们系统地设计了 NLP 的 6 个公平标准，并可进一步细化为 18 个子类别。

Zero-Shot Position Debiasing for Large Language Models
Authors Zhongkun Liu, Zheng Chen, Mengqi Zhang, Zhaochun Ren, Zhumin Chen, Pengjie Ren
微调已被证明是提高大型语言模型 LLM 领域性能的有效方法。然而，法学硕士可能会适应数据集偏差和预测捷径，导致生成性能不佳。实验结果表明，法学硕士很容易表现出位置偏差，即利用位于开头或结尾的信息，或输入中的特定位置线索。现有的减轻立场偏差的工作需要外部偏差知识或带注释的无偏差样本，这在现实中是不切实际的。在这项工作中，我们提出了一个零射击位置去偏差 ZOE 框架来减轻法学硕士的位置偏差。 ZOE 利用预先训练的法学硕士的无监督响应来消除偏差，因此无需任何外部知识或数据集。为了提高无监督响应的质量，我们提出了一个主从对齐 MSA 模块来修剪这些响应。对八个数据集和五个任务的实验表明，ZOE 在减轻四种类型的位置偏差方面始终优于现有方法。

Uncertainty Resolution in Misinformation Detection
Authors Yury Orlovskiy, Camille Thibault, Anne Imouza, Jean Fran ois Godbout, Reihaneh Rabbany, Kellin Pelrine
错误信息会带来多种风险，例如破坏公众信任和扭曲事实话语。像 GPT 4 这样的大型语言模型法学硕士已被证明可以有效减少错误信息，特别是在处理提供足够上下文的语句方面。然而，他们很难准确评估模棱两可或上下文不足的陈述。这项工作引入了一种新方法来解决此类陈述中的不确定性。我们提出了一个框架来对缺失信息进行分类并为 LIAR New 数据集发布类别标签，该数据集适用于缺失信息的跨域内容。然后，我们利用这个框架来生成针对缺失上下文的有效用户查询。与基线相比，我们的方法将用户回答生成的问题的速度提高了 38 个百分点，并将宏观 F1 的分类性能提高了 10 个百分点以上。

Unifying Structured Data as Graph for Data-to-Text Pre-Training
Authors Shujie Li, Liang Li, Ruiying Geng, Min Yang, Binhua Li, Guanghu Yuan, Wanwei He, Shao Yuan, Can Ma, Fei Huang, Yongbin Li
数据到文本 D2T 生成旨在将结构化数据转换为自然语言文本。数据到文本预训练已被证明在增强 D2T 生成方面非常强大，并产生了令人印象深刻的性能。然而，以前的预训练方法要么将结构化数据过度简化为序列，而不考虑输入结构，要么设计针对特定数据结构（例如表或知识图）量身定制的训练目标。在本文中，我们将不同类型的结构化数据（即表、键值数据、知识图）统一为图格式，并将不同的数据转换为文本生成任务，就像图到文本生成一样。为了有效地利用输入图的结构信息，我们通过设计结构增强的 Transformer 提出了一种用于 D2T 生成的结构增强预训练方法。具体来说，我们为 Transformer 设计一个位置矩阵，对输入图中连接节点的相对位置信息进行编码。此外，我们提出了一个新的注意力矩阵，通过考虑可用的显式连接结构，将图结构合并到原始 Transformer 中。对六个基准数据集的广泛实验表明了我们模型的有效性。

Unveiling Comparative Sentiments in Vietnamese Product Reviews: A Sequential Classification Framework
Authors Ha Le, Bao Tran, Phuong Le, Tan Nguyen, Dac Nguyen, Ngoan Pham, Dang Huynh
比较意见挖掘是情感分析的一个专业领域，旨在识别和提取比较表达的情感。为了解决这个任务，我们提出了一种方法，该方法包括解决三个连续的子任务：i识别比较句子，即，如果一个句子具有比较意义，ii提取比较元素，即什么是比较主语、宾语、方面、谓语、 iii 对比较类型进行分类，这有助于更深入地理解越南产品评论中的用户情绪。

Quokka: An Open-source Large Language Model ChatBot for Material Science
Authors Xianjun Yang, Stephen D. Wilson, Linda Petzold
本文介绍了材料科学专用聊天机器人的开发，利用 Llama 2 语言模型，并继续对 S2ORC 数据集中材料科学领域的广泛研究文章进行预训练。该方法涉及对超过一百万篇特定领域论文进行初始预训练阶段，然后进行指令调整过程以完善聊天机器人的功能。该聊天机器人旨在通过对材料科学领域的查询提供即时、上下文感知的响应来帮助研究人员、教育工作者和学生。

Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation
Authors Triet Huynh Minh, Quan Le Bao
诗歌生成一直是自然语言处理领域的一项具有挑战性的任务，因为它需要模型理解语言、情感和风格的细微差别。在本文中，我们建议使用大型语言模型根据自然语言提示生成越南诗，从而促进直观的过程和增强的内容控制。我们最有效的模型，GPT 3 Babbage 变体，达到了 0.8 的自定义评估分数，专门针对越南诗歌的 luc bat 流派量身定制。此外，我们还探索了将诗歌解释为普通文本提示的想法，并在 luc bat 类型中获得了 0.718 的相对较高分数。

DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever
Authors Zhichao Yin, Binyuan Hui, Min Yang, Fei Huang, Yongbin Li
最近，预训练视觉语言模型的重大进步极大地增强了多模态对话系统的功能。这些模型通过对下游任务进行微调，展示了显着的改进。然而，现有的预训练模型主要侧重于有效捕获视觉和语言模态之间的一致性，往往忽略了对话上下文的复杂性。在本文中，我们提出了一种名为 DialCLIP 的参数有效提示调整方法，用于多模式对话检索。具体来说，我们的方法引入了多模态上下文提示生成器来学习上下文特征，这些特征随后被提炼成预先训练的视觉语言模型 CLIP 中的提示。此外，我们引入了域提示来减轻下游对话数据的磁盘重复占用。为了促进各种类型的检索，我们还设计了多个专家来学习从 CLIP 输出到多模态表示空间的映射，每个专家负责一种特定的检索类型。大量实验表明，DialCLIP 只需调整总参数的 0.04 个参数，即可在两个广泛认可的基准数据集（即 PhotoChat 和 MMDialog）上实现最先进的性能。

Discovering Significant Topics from Legal Decisions with Selective Inference
Authors Jerrold Soh
我们提出并评估了一种自动化管道，用于通过惩罚回归和选择后显着性测试传递与主题模型合成的特征，从法律决策文本中发现重要主题。该方法识别与结果显着相关的案例主题、可以手动解释以获取有关重要主题的见解的主题词分布以及可用于识别每个主题的代表性案例的案例主题权重。我们在新的域名争议数据集和欧洲人权法院侵权案件的规范数据集上演示了该方法。评估基于潜在语义分析和语言模型嵌入的主题模型。

LLaMA Beyond English: An Empirical Study on Language Capability Transfer
Authors Jun Zhao, Zhihao Zhang, Qi Zhang, Tao Gui, Xuanjing Huang
近年来，大型语言模型法学硕士取得了重大进展，以 ChatGPT 为例，展示了对一系列复杂任务的卓越熟练程度。然而，许多主流法学硕士，例如LLaMA 在英语主导语料库上进行了预训练，这限制了它们在其他非英语语言中的表现。在本文中，我们关注如何有效地将语言生成和遵循指令的能力转移到非英语语言。为了回答这个问题，我们基于 LLaMA 进行了广泛的实证研究，积累了超过 1440 个 GPU 小时。我们分析了词汇扩展、进一步预训练和指令调整等关键因素对迁移的影响。为了准确评估模型的知识水平，我们采用了四种广泛使用的标准化测试基准 C Eval、MMLU、AGI Eval 和 GAOKAO Bench。此外，基于LLM Eval（包含17个不同类别的教学任务的基准），对模型的响应质量进行了综合评估，从准确性、流畅性、信息量、逻辑连贯性和无害性等方面进行评估。我们的评估结果表明，在知识对齐和响应质量方面，只需不到 1 个预训练数据即可实现与最先进的迁移模型相当的性能。此外，十三种低资源语言的实验结果也表现出类似的趋势。

Cheetah: Natural Language Generation for 517 African Languages
Authors Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul Mageed
资源匮乏的非洲语言给自然语言处理 NLP 任务（包括自然语言生成 NLG）带来了独特的挑战。在本文中，我们开发了 Cheetah，这是一种针对非洲语言的大规模多语言 NLG 语言模型。 Cheetah 支持 517 种非洲语言和语言变体，使我们能够解决 NLG 资源稀缺的问题，并提供促进语言多样性的解决方案。我们通过对七代下游任务的综合评估来证明 Cheetah 的有效性。在七项任务中的五项中，Cheetah 显着优于其他模型，展示了其在以多种非洲语言生成连贯且上下文适当的文本方面的卓越性能。我们还进行了详细的人类评估，以更深入地研究猎豹的语言能力。 Cheetah 的引入对语言多样性具有深远的好处。通过利用预训练模型并使其适应特定语言，我们的方法有助于为非洲社区开发实用的 NLG 应用程序。这项研究的结果有助于推进资源匮乏环境下的自然语言处理研究，使非洲语言在快速扩张的数字环境中获得更大的可访问性和包容性。

DocLLM: A layout-aware generative language model for multimodal document understanding
Authors Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
企业文档（例如表格、发票、收据、报告、合同和其他类似记录）通常在文本和空间模态的交汇处携带丰富的语义。复杂布局提供的视觉提示对于有效理解这些文档起着至关重要的作用。在本文中，我们提出了 DocLLM，它是传统大型语言模型 LLM 的轻量级扩展，用于对视觉文档进行推理，同时考虑文本语义和空间布局。我们的模型与现有的多模态法学硕士不同，它避免了昂贵的图像编码器，并且只专注于边界框信息以合并空间布局结构。具体来说，通过将经典 Transformer 中的注意力机制分解为一组解开的矩阵来捕获文本和空间模态之间的交叉对齐。此外，我们设计了一个预训练目标来学习填充文本片段。这种方法使我们能够解决视觉文档中经常遇到的不规则布局和异构内容。预训练模型使用大规模指令数据集进行微调，涵盖四个核心文档智能任务。

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
Authors Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu
通过监督微调 SFT 来利用人类注释数据的力量对于推进大型语言模型法学硕士至关重要。在本文中，我们深入探讨了在无需获取额外的人工注释数据的情况下，从较弱的法学硕士中培养出较强的法学硕士的前景。我们提出了一种新的微调方法，称为 Self Play Fine TuNing SPIN，它从监督微调模型开始。 SPIN 的核心在于自我对弈机制，LLM 通过与自身实例对战来完善其能力。更具体地说，法学硕士从之前的迭代中生成自己的训练数据，通过区分这些自我生成的响应和从人类注释数据中获得的响应来完善其策略。我们的方法逐步将 LLM 从一个新生模型提升为一个强大的模型，释放了 SFT 人类注释演示数据的全部潜力。从理论上讲，我们证明，只有当 LLM 策略与目标数据分布一致时，才能实现我们方法的训练目标函数的全局最优。根据经验，我们在几个基准数据集上评估我们的方法，包括 HuggingFace Open LLM Leaderboard、MT Bench 和 Big Bench 的数据集。我们的结果表明，SPIN 可以显着提高 LLM 在各种基准测试中的性能，甚至优于通过直接偏好优化 DPO 并辅以额外的 GPT 4 偏好数据训练的模型。

TREC iKAT 2023: The Interactive Knowledge Assistance Track Overview
Authors Mohammad Aliannejadi, Zahra Abbasiantaeb, Shubham Chatterjee, Jeffery Dalton, Leif Azzopardi
对话式信息搜索是一个关键的研究领域，之前的工作做出了重大贡献。 TREC 交互式知识协助轨道 iKAT 建立在 TREC 对话协助轨道 CAsT 的基础工作之上。然而，iKAT 独特地强调会话搜索代理的创建和研究，该代理根据用户之前的交互和当前上下文来调整响应。挑战在于如何让会话式搜索代理 CSA 能够高效地整合这种个性化上下文，并有效地引导用户获取相关信息。 iKAT 还强调决策搜索任务，即用户筛选数据和信息来权衡选项，以得出结论或执行操作。这些任务在日常信息搜索决策中普遍存在，无论是与旅行、健康还是购物相关，通常都围绕高级信息操作员的子集，其中有关信息空间的查询或问题包括寻找选项、比较选项、识别选项的优缺点。选项等。鉴于不同的角色及其通过问题序列表达的信息需求，将会出现不同的对话轨迹，因为这些相似查询的答案将非常不同。在本文中，我们报告了 TREC iKAT 第一年的情况，描述了任务、主题、数据收集和评估框架。

VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM
Authors Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
最近扩散模型的创新和突破极大地扩展了针对给定提示生成高质量视频的可能性。大多数现有作品都处理单一场景场景，在单一背景中仅发生一个视频事件。然而，扩展到生成多场景视频并非易事，需要很好地管理之间的逻辑，同时保持视频场景中关键内容的一致视觉外观。在本文中，我们提出了一种新颖的框架，即VideoDrafter，用于内容一致的多场景视频生成。从技术上讲，VideoDrafter 利用大型语言模型 LLM 将输入提示转换为全面的多场景脚本，该脚本受益于 LLM 学到的逻辑知识。每个场景的脚本包括描述事件的提示、前景背景实体以及摄像机移动。 VideoDrafter 识别整个脚本中的常见实体，并要求 LLM 详细说明每个实体。然后将生成的实体描述输入到文本到图像模型中，以为每个实体生成参考图像。最后，VideoDrafter 通过考虑参考图像、事件的描述性提示和摄像机移动的扩散过程生成每个场景视频，从而输出多场景视频。扩散模型将参考图像作为条件和对齐，以增强多场景视频的内容一致性。

Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation
Authors Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
扩散模型和大型语言模型法学硕士的最新进展极大地推动了 AIGC 领域的发展。 Text to Audio TTA 是一个新兴的 AIGC 应用程序，旨在根据自然语言提示生成音频，正在吸引越来越多的关注。然而，现有的 TTA 研究经常在生成质量和文本音频对齐方面遇到困难，尤其是对于复杂的文本输入。从最先进的文本到图像 T2I 扩散模型中汲取灵感，我们引入了 Auffusion，这是一个 TTA 系统，通过有效利用其固有的生成优势和精确的跨模态对齐，将 T2I 模型框架适应 TTA 任务。我们的客观和主观评估表明，Auffusion 超越了之前使用有限数据和计算资源的 TTA 方法。此外，T2I 之前的研究认识到编码器选择对跨模式对齐（例如细粒度细节和对象绑定）的重大影响，而之前的 TTA 工作中缺乏类似的评估。通过全面的消融研究和创新的交叉注意力图可视化，我们为 TTA 中的文本音频对齐提供了富有洞察力的评估。我们的研究结果揭示了 Auffusion 在生成准确匹配文本描述的音频方面的卓越能力，这在几个相关任务中得到了进一步证明，例如音频风格转换、修复和其他操作。

LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning Language Models
Authors Qianxi Li, Yingyue Cao, Jikun Kang, Tianpei Yang, Xi Chen, Jun Jin, Matthew E. Taylor
微调大型语言模型法学硕士使经过训练的模型适应特定的下游任务，从而显着提高任务特定的性能。监督微调 SFT 是一种常见的方法，其中法学硕士接受培训以产生所需的答案。然而，接受过 SFT 训练的法学硕士有时会犯一些简单的错误，并导致在回答问题等推理任务时产生幻觉。如果没有外部反馈，SFT 很难学习问题和所需答案之间的良好映射，尤其是在数据集较小的情况下。本文介绍了 SFT 的替代方案，称为用于微调 LLM 的自然语言反馈 LaFFi。 LaFFi 让法学硕士直接预测他们将从注释者那里收到的反馈。我们发现，需要这种反思可以显着提高领域问答任务的准确性，为自然语言反馈在 SFT LLM 领域的应用提供了一个有希望的方向。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com