Efficient Knowledge Infusion via KG-LLM Alignment

文章目录

- 题目
- 摘要
- 引言
- 相关作品
- 方法论
- 实验设置和结果
- 分析
- 结论
- 局限性
- 附录

题目

通过KG-LLM比对实现高效的知识注入
在这里插入图片描述

论文地址：https://aclanthology.org/2024.findings-acl.176.pdf

摘要

为了解决大型语言模型中特定领域知识匮乏的问题，知识图检索扩充方法被证明是一种有效的知识注入技术。然而，现有方法面临两个主要挑战:公共可用知识图和手头任务的特定领域之间的知识不匹配，以及LLM与知识图的信息一致性差。在本文中，我们利用一个小的标注样本集和一个大规模的语料库，通过LLM有效地构建特定领域的知识图，解决知识不匹配的问题。此外，我们提出了一个三阶段的KG-LLM对齐策略，以增强LLM利用知识图信息的能力。我们在两个生物医学问答数据集上进行了有限样本的实验，结果表明我们的方法优于现有的基线。

引言

大型语言模型(LLM)的最新进展，如ChatGPT，在通用内容创建方面展示了令人印象深刻的能力(OpenAI，2022；Touvron等人，2023年)。然而，他们在特定领域应用的熟练程度，特别是在医学领域，明显受到知识不足的限制(鲍等人，2023；张等，2023；韩等，2023b)。为了提高LLMs的特定领域性能，知识注入的主要策略包括两种主要方法:对特定领域语料库的持续预训练和检索增强方法，这涉及到将外部信息集成到模型中。

与持续的预训练相比，检索增强方法在以下领域越来越受欢迎知识密集型场景，因为其成本效率和增强的可追溯性(Lewis等人，2020；兰等，2023)。一些检索增强方法涉及通过监督微调将LLM与专业文献、新闻文章和表格等资源直接集成(Borgeaud等人，2022；胡等，2023)。然而，模型所需的知识可能分散在大量的数据中，直接从原始数据实例中检索将不可避免地引入噪声，从而妨碍模型有效地利用这些信息。为了缓解这一问题，利用结构化知识，特别是知识图(KGs)，是一种有效的方法(Moiseev等人，2022；拉纳德和乔希，2024；王等，2023)。然而，现有的KG检索增强方法仍然遇到两个主要挑战。

第一个挑战与知识错配有关。虽然许多现有的策略利用公开可用的KG来进行知识注入，但是特定领域任务所需的知识通常具有高度专业化的性质，这导致KG很可能不覆盖所有必需的信息，或者甚至可能存在缺口。第二个挑战是信息法规遵从性差。KGs中三元组的结构化格式偏离了自然语言的自由流动格式(李等，2021；Ke等人，2021)和目标文本往往包括额外的信息，没有发现在三元组。这种差异会导致LLMs内部的混乱，这可能导致来自训练模型的输出与来自KG的信息不一致，特别是在缺乏监督样本的情况下。

在这项工作中，我们通过LLMs有效地构建了一个基于语料库的特定领域知识图，并开发了一种知识注入方法来增强LLMs利用图信息的能力，使它们能够生成全面的，合乎逻辑的低幻觉反应。首先，我们使用少量的标记数据训练一个基于LLM的知识抽取模型。然后，我们得到一个领域知识图，通过在无监督的特定领域语料库上执行抽取并通过简单的后处理减少结果中的错误来解决知识不匹配。随后，我们提出了一个新的三阶段KG-LLM比对框架来优化LLM对KG内容的利用。

该框架由以下阶段组成:在初始的预学习阶段，我们从前面提到的提取结果中合成大量三元组到文本生成任务示例。然后，我们训练一个低阶适配器(LoRA)(胡等，2022)，命名为K-LoRA，以吸收KG灌输的过程，并获得在特定领域的语言模态的熟练程度。后续阶段涉及监督微调。对于训练集中的每个问答对，我们基于问题检索知识图，将结果子图连接到输入中，并继续训练附加的LoRA。该过程旨在细化模型的输出，使其符合给定任务的特定需求。最后一个阶段是与知识图反馈(AKGF)保持一致。在这个阶段，我们从生成的响应中提取知识三元组，并与KG进行比较，以提供关于知识正确性的评估性反馈。该反馈作为进一步微调模型的基础，以实现更全面、更符合逻辑和更少幻觉的内容。

为了模拟缺乏专门注释的现实环境，我们在基于两个公共生物医学问答数据集BioASQ (Nentidis等人，2022年)和CMedQA(崔和韩，2020年)构建的有限样本数据集上进行实验。综上所述，我们的主要贡献如下:1)我们提出了一个模块化的知识注入框架。基于高效构建的KG，我们的方法通过轻量级参数调整使LLM与KG一致，解决了知识不匹配和信息遵从性差的问题。实验结果表明，我们的方法明显优于基线。
我们引入了两种创新策略，即“预学习”和“AKGF ”,旨在加强知识管理和逻辑管理之间的联系。在预学习中，我们证明了三元组转文本任务可以作为一种简单有效的知识注入策略。在AKGF中，我们说明了KGs可以作为生成的响应的知识正确性的自动评估者。

方法论

图1展示了被提议的框架，它被称为具有知识的增强的LLM预学习和反馈(ELPF)。领域知识的高效构建对于特定领域内的任务，公开可用的知识图往往不能满足我们的需求，这被称为知识不匹配。为了解决这个问题，一个可行的解决方案是收集特定领域文档的大型语料库，并利用该语料库建立特定领域知识图。对于一个无监督的文档d ∈ D，KG构造的过程可以形式化为公式1。
在这里插入图片描述其中F是KG构造系统，S a是主体的集合，P是定义的关系的集合，Oa是对象的集合。结果中的知识三元组以公式2的形式组织其中ojk = ojk1|ojk2|…|ojkl。这些三元组基于相同的主题关系对进行组装和合并。例如，“罗马”和“佛罗伦萨”都是意大利的城市，因此实例应该表示为“<意大利，城市，罗马|佛罗伦萨>”。

然而，构建这种图的传统方法可能是复杂的，并且通常依赖于大量的手工劳动。这里，我们设计了一个高效的KG构造工作流，它只需要最少的注释，利用了LLM的高级语义理解能力。我们将这个过程简化为三个阶段:“知识三元组提取”、“错误移除”和“实体解析”。

最初，我们检查流行的标准或寻求领域专家的指导来定义模式，该模式是领域中实体和关系类别的集合和定义，然后我们手动注释一小组示例(≈ 100)以生成“文本>知识三元组”格式的训练数据。随后，我们使用LoRA对LLM进行了微调，这是一种流行的参数高效微调方法。在将训练的LoRA参数合并到基础模型中时，我们在广泛的语料库上执行推理以导出知识三元组。最后，我们采用简单的后处理策略来最小化提取的三元组中的误差:

删除输出格式不正确的结果，如缺少主题的三元组。
删除主词或宾语未出现在原文中的结果。
删除关系不在定义的架构中的结果。
移除主语和宾语是一样的。

图1:ELPF框架可以分为四个主要阶段。1)领域知识的有效构建该过程需要标记有限的示例集，并开发基于LLM的知识提取系统，以从语料库有效地构建领域知识。2)用K-LoRA进行预学习:通过基于LoRA的三元组到文本生成，获得对特定领域知识的理解，简称K-LoRA。3)具有KG检索的SFT:它涉及从特定领域的KG中检索子图，相应地修改输入并执行监督微调。4)AKGF:KG充当评估者，提供关于知识正确性的反馈，并使模型更好地与领域知识一致。
在这里插入图片描述

在实体解析阶段，我们利用开源文本嵌入工具1并设置相似度阈值。如果两个主题节点的余弦相似度超过这个阈值，我们认为它们是等价的，并随后组合它们各自的子图。这个合并过程有助于构建一个全面的领域特定知识图。我们对从我们的实验数据集提取的结果的200个样本进行质量评估，其中精度(正确三元组与生成的三元组总数的比率)超过85%。在我们的初步实验中，我们采用传统的监督学习方法进行提取(具体来说，基于BERT的联合实体和关系提取(Eberts和Ulges，2019)，样本大小大于2000)，最终的评估精度仅为0.8左右。这是当前构建知识图的流行方法；因此，我们认为在当前施工流程下通过后处理达到约0.85的精度是可以接受的。有关更多详细信息和统计结果，请参考附录a。

K-LoRA的预学习假设kg的三重形式偏离自然语言，LLM在处理它时表现出有限的熟练程度。此外，获取专业领域中大量带注释的数据经常会带来挑战。因此，即使进行了微调，增强模型利用KGs信息的能力仍然具有挑战性。我们假设，设计一种低成本、大规模的数据构建方法，使模型能够提前吸收任务格式，这可能是可行的。幸运的是，通过颠倒前面描述的提取过程，我们可以创建一个“三元组到文本”的生成任务。通过对大量实例进行广泛的微调，模型可以被训练来识别KG注入的信息格式。此外，由于目标文本是特定于领域的，因此模型能够获得与该领域相关联的独特语言风格。为了提高微调过程的效率，我们继续利用基于劳拉的SFT。我们将此步骤中获得的LoRA称为K-LoRA。

具有KG检索预学习的SFT使LLM能够更好地理解三元组形式的输入。但是，它不直接解决特定的任务。因此，通过使用监督学习示例进行微调来进一步完善仍然是必不可少的。我们坚持KG-retrieval-augmented方法的正常程序(Lewis等人，2020；Pan等人，2024)，它涉及从先前建立的特定领域KG中检索相关子图，并相应地修改输入。综合输入结构的设计遵循以下模板:
在这里插入图片描述
初步观察显示，子图中固有的主题和关系表现出与输入查询的核心目的的显著相关性。为了利用这一观察结果，我们采用开源嵌入工具1对知识图中的所有(s，p)对进行编码。随后，我们应用相同的嵌入工具对输入查询进行编码。这种方法便于计算查询的嵌入和top-k (s，p)对的嵌入之间的相似性得分。最后，我们从每个(s，p)对的原始知识图中检索相应的对象，并将它们重构为三元组。这些三元组随后与输入整合以提供子图信息。为了最大化K-LoRA提供的好处，关键是要确保子图的表示与预学习阶段使用的格式保持一致。

AKGF在SFT之后，由于过度拟合等问题，该模型可能仍然在其反应中表现出幻觉。受RLHF(人类反馈强化学习)方法的启发(齐格勒等人，2020；欧阳等，2022)，我们希望知识图可以作为一个自动化的评估器，提供当前响应的知识正确性的反馈，从而引导模型进一步优化。

首先，我们通过使用不同的输入格式或随机种子为每个查询生成各种响应。随后，我们结合知识图对这些回答进行评分和排序。评分过程需要利用第3.1节中描述的提取系统从这些回答中提取三元组，然后将其与知识图进行比较，以确定其正确性。奖励由正确匹配的知识三元组的数量决定。计算奖励的公式由公式3表示。在这里插入图片描述

其中α是超参数，rspo表示spo匹配的数量，re表示实体匹配的数量。具体实现过程详见算法1，其中Jcard代表Jaccard相似系数(Levandowsky和Winter，1971)。附录B使用一个案例演示了我们的自动奖励评分机制。

为了促进训练过程，我们利用直接偏好优化(DPO) (Rafailov等人，2023年)训练策略，这减轻了对奖励值的敏感性，从而产生更稳定的训练过程。有关DPO的全面介绍，请参考附录c。该策略包括根据奖励值创建样本对。至关重要的是，丢弃任何奖励差异不显著的配对(即rewardpos rewardneg≥thresh ),并处理阳性样本中的重复生成等问题。为了评估阳性样本中的重复程度，我们可以确定重复数据删除过程后唯一子句与子句总数的比率。如果该比率低于预定的阈值，则表明在样本中存在相当大的重复，这将被丢弃。通过利用知识图进行自动评估，该方法消除了人工评分的需要，从而降低了劳动成本。这种方法的另一个优点是它不受监督样本数量的限制，这允许更好地学习知识正确性。

实验设置和结果

我们选择CMedQA(崔和韩，2020)和BioASQ (Nentidis等人，2022)两个生物医学问答数据集来评估我们的模型，因为这两个数据集都需要广泛的领域特定知识。CMedQA是一个综合的中国医学问答的sive数据集，由超过10，000对组成。相比之下，BioASQ是一个英语生物医学数据集，包括4，719个问答对和57，360个参考段落。为了模拟样本有限的场景，我们从每个数据集中随机选择500个实例进行训练，并从每个数据集中指定1，000个实例进行测试。对于CMedQA，我们使用来自非选择问答对的答案文本作为语料库，以弱监督的方式构建知识图。类似地，使用BioASQ，我们使用所有提供的参考段落作为特定领域的语料库。

在这里插入图片描述

评估指标在我们的评估中，我们采用了多个指标来评估模型的性能，包括BLEU (n=4)、ROUGE-1、ROUGE-2和ROUGE-1。除了这些自动化指标，我们还基于五个维度进行人工评估:流畅性、与问题的相关性、核心观点的正确性、多样性和完整性以及知识幻觉，使用参考答案作为基准。因为通过人工评估来分配绝对分数是有挑战性的，我们对200个条目进行了采样，并根据各种维度对不同设置下的模型输出进行了排序。排名分数越小，表示性能越好，例如“1”表示性能最好。实验设置在预学习阶段，我们在基础LLM上执行K-LoRA的微调。预学习阶段的学习速率和历元数分别为5e-5和3。在监督微调阶段，我们将子图检索的相似性阈值设置为0.9，并选择前5个子图。更多超参数和细节，请参考附录d。

基于LLM的基线:考虑到机器资源和实际用例的限制，我们需要参数少于10B的模型。在CMedQA数据集上，我们选择ChatGLM2-6B (Zeng等人，2023)作为基础模型。在BioASQ数据集上，我们选择Llama2-chat-7B (Touvron等人，2023)作为基础模型。这两个模型都用HuggingFace的预训练检查点23初始化。此外，我们选择使用ChatGPT-3.5的API。对于基本LLM，我们给出了在零触发场景中查询模型的结果。此外，为了比较与基本连续预训练方法的差异，我们使用前述构建的无监督语料库在基本LLMs上进行连续预训练。关于连续预训练的超参数设置，请参考附录d。

无检索模型:我们使用构建的训练集评估基于LoRA的SFT后的基本LLM和连续预训练LLM的性能，其中输入不包含任何检索结果。基于检索的模型:对于公斤级检索，我们利用称为GAP (Colas等人，2022)的最先进的公斤到文本方法作为基线。GAP通过将图形感知元素整合到预先训练的语言模型中，增强了KG到文本的生成。对于文档级检索，我们将我们的方法与称为RAG (Lewis等人，2020)的代表性方法进行比较。RAG确保文本检索源与用于KG构建的无监督语料库对齐。检索这里采用的方法与3.3节中讨论的子图检索方法相同。我们将前2个检索到的段落放在输入上，然后执行基于LoRA的SFT和直接查询ChatGPT-3.5。

主要结果我们在CMedQA和BioASQ数据集上的结果如表1所示。我们观察到，zeroshot查询方法获得的ROUGE分数接近于通过监督微调获得的分数。然而，值得注意的是，zeroshot查询方法在两个数据集上的BLEU分数都明显较低。这些结果表明，零镜头查询方法不能有效地平衡生成文本的专业性和流畅性。因此，这种方法可能不适合生成满足所需标准的特定领域文本。

至于在ChatGPT-3.5上的基本2次发射RAG实验，尽管与两者的零发射基线相比有所改善，但在CMedQA上的改善更明显。案例分析发现，CMedQA对应的语料库来自问答对，而BioASQ由冗长的段落组成，这导致了段落格式和检索质量的差异。这可能暗示了两件事:

简单的RAG严重依赖于寻回犬的能力；
简单的RAG依赖于文本段落的格式。

在基于微调的方法方面，我们的模型显示了各种指标的改进。在CMedQA数据集上，我们的模型与传统的基于LoRA的SFT方法相比，实现了1.03的ROUGE-L改进和1.03的BLEU改进。在BioASQ数据集上，我们在ROUGE-L上实现了1.12的改进，在BLEU上实现了0.74的改进。值得注意的是，我们的方法实现了显著的性能改进，甚至与连续的预训练之后进行微调相比。这些结果突出了我们提出的KG协作方法在提高LLM的微调性能方面的有效性。与GAP方法相比，我们的方法不仅表现出显著的改进，而且还提供了不需要图形编码器与像GAP这样的预训练模型的全参数联合训练的优点。与侧重于文档检索的RAG相比，我们的方法获得了更高的ROUGE分数，但是BioASQ数据集上的BLEU分数较低。这种差异可能是由于文献检索系统能够回忆起更广泛的信息。另一方面，构造KG的过程引入了信息损失，导致ELPF生成在子图不足时更加依赖LLM本身的隐含知识，导致准确率降低。同时，文档检索也引入了更多的噪音，导致一些答案偏离了原问题。

在这里插入图片描述

表1:cmed QA和BioASQ的性能比较。“CP”表示“持续的预培训”。我们认为持续的预训练是领域知识注入的基本方法，与其他基于检索的方法一样。因此，我们不报告混合方法的结果。
在这里插入图片描述
表2:cmed QA和BioASQ消融实验对比。

图2:在BioASQ数据集上，不同的方法基于五个人类评估维度进行排序:流畅性、与问题的相关性、核心观点的正确性、多样性和完整性以及知识幻觉。排名分数表示由不同模型生成的内容的人工排名，其中较低的排名分数指示生成的内容的较高质量。

分析

我们进行了几次消融实验来评估每个模块的有效性。这些实验包括单独去除K-LoRA、KG prompt和AKGF，以及同时去除K-LoRA和AKGF。这些实验的结果，包括ROUGE和BLEU分数，可以在表2中找到。此外，BioASQ的人工评估结果如图2所示。以下是我们分析的主要观察结果:

移除K-LoRA导致最显著的性能下降，反映在ROUGE、BLEU和知识的多样性上。主要原因是三元组到文本的训练样本的格式类似于后续微调任务的格式，允许模型更好地纳入输入所隐含的知识。
AKGF对ROUGE和BLEU指标的影响不太显著。这是因为比对目标的重点不是复制目标答案，而是整合全面、有效和准确的领域知识，即使它与问题不是特别相关。提高了知识的多样性，以及观点的正确性，减少了幻觉，达到了对齐的目的。
人工评估的结果表明在知识正确性(问题相关性、观点正确性和幻觉)和知识多样性方面，具有知识整合的模型证明了相对于仅依赖微调的基线模型的改进。我们的ELPF方法在所有方面都优于其他方法，证明了它的有效性。

附录E给出了一个具体的案例，可以更直观的了解不同模型输出答案的有效性。

K-LoRA的深入分析为了进一步分析K-LoRA对模型的整体影响，我们检查了它对领域认知和生成的文本与知识图的对齐的影响。K-LoRA的目标是使LLM在当前领域内进行预学习，并在知识图的帮助下以弱监督的方式生成文本。关于领域感知，如图3所示，我们观察到模型训练过程中的损失减少，并发现融合了K-LoRA的模型不仅初始损失更小，而且收敛更快。这表明该模型通过K-LoRA的训练和权重融合发展了对当前域的一定程度的认知。

图3:在有和没有K-LoRA的相同设置下，比较了ELPF的损耗曲线。
在这里插入图片描述

因此，K-LoRA是一种直接有效的领域学习方法。根据生成的文本对知识图的信息符合性，我们分析了使用和不使用K-LoRA生成的文本，如图4所示。我们注意到，尽管提供了相同的知识图信息，但是原始模型并没有有效地利用这个知识图来生成。另一方面，与K-LoRA集成的模型更依赖于知识图，并生成更接近参考答案的答案。这是因为预学习和SFT的任务格式相似，K-LoRA增强了模型适应知识图输入的能力。

问题:经期背痛持续很长时间的原因是什么？痛经参考介绍:痛经是指在月经期前、月经期中或月经期后，出现下腹痛、下腰痛、下腹胀气或其他不适症状，可明显影响日常生活和工作。按照中医的说法，这往往是血瘀所致。服用一些活血化瘀的中药可以用于治疗。选项包括女金丸和益母草膏。

ELPF w/o K-LoRA它被认为是月经不调。导致月经不调的原因有很多，如内分泌失调、妇科炎症、心理/环境因素等。建议你积极去医院做个血HCG检测，确定是不是妇科炎症。应该相应地进行治疗。

图4:对K-LoRA信息合规性影响的案例研究。高亮显示KG在文本中提供的信息。

在这里插入图片描述

由于我们的方法依赖于来自知识图的信息，本节探讨知识图的完整性对我们方法的影响。知识的完备性可以通过知识图的大小和质量来衡量。首先，我们探讨图的大小的影响。我们提供各种尺寸的公斤，包括全(100%)、80%、60%、40%、20%和0%。通过从整个图中随机移除一定比例的节点来实现大小控制。接下来，我们研究图形质量的影响。我们构建了一组目标数据来模拟模型性能的上限。目标数据由从对应于问题的参考答案中提取的三元组组成。结果如表3所示。首先，我们发现减少知识图的大小确实会导致性能的下降，但这不是一个纯粹的积极关系。这是因为我们的知识图中包含了噪声，模型在学习过程中需要在有用信息和噪声之间进行平衡。当图形稀疏时，模型不能有效地学习，导致与不结合图形信息相比甚至更差的性能。第二，我们注意到与从目标数据获得的结果相比，当前结果仍然存在一定的差距。这表明由LLMs和子图检索方法构建的图的质量有改进的空间。我们将在今后的工作中解决这些问题。

在这里插入图片描述

结论

在这项工作中，我们提出了一个框架，有效地注入领域知识到LLMs。通过使用领域知识图的有效构建和三阶段KG-LLM比对过程，我们解决了知识不匹配和信息遵从性差的问题。实验表明，我们的方法显著提高了有限样本场景下的文本生成质量和知识正确性。我们希望我们的工作将为未来探索中连接KG和LLMs的挑战提供洞察力。

局限性

虽然ELPF在样本量和计算资源方面相对友好，但是这种方法还是有一定的局限性。由于领域知识图的构建在SFT和AKGF中都是必需的，ELPF方法高度依赖于图构建的质量。然而，我们的图是建立在弱监督信号的基础上的，因此结果中不可避免地存在噪声。不充分的噪声处理会影响该方法的有效性。此外，因为自建的领域知识图(KG)是不完整的，所以检测知识错误是具有挑战性的，除非它们与已知知识冲突。此外，确定知识与查询的相关性是一个难以评估的模糊概念。因此，为了提高对准的稳定性和通用性，我们在AKGF采取了更保守的策略。这种方法在某种程度上限制了优化空间。然而，在实际的垂直领域应用场景中，积极奖励或冲突惩罚策略可以根据实际情况进行调整，以达到更好的效果。最后，我们的方法集中于特定领域的文本生成。然而，由于合适的公共数据集的有限可用性，我们只在医学领域文本上进行实验。这个限制可能会对我们的发现在其他情况下的推广能力造成风险。

附录

A弱监督领域特定IE系统构建对于CMedQA数据集的标注标准，我们参考了大规模中文医学领域关系抽取数据集CMeIE v2 dataset4。对于BioASQ，我们参考了BioRED (Luo等人，2022)，这是一个在PubMed数据源上标注的英文医疗关系提取数据集。

CMedQA数据集中定义的关系类型有:[“鉴别诊断”、“病理分型”、“临床表现”、“辅助治疗”、“药物治疗”、“手术治疗”、“病因学”、“同义词”、“影像学检查”、“辅助检查”、“会诊科”、“并发症”、“实验室检查”、“易感人群”、“遗传因素”、“高危因素”、“发病机理”、“发病部位”、“病史”、“发病率”、“预后”、“发病年龄”、“预防”、“治疗后症状”、“病理生理学”、“传播途径”、“旺季”、“组织学检查”、“分期”、“放疗”、“筛查”、“化疗”、“风险评估因素”、“转移部位”、“流行区”、“死亡率”]。

BioASQ数据集中定义的关系类型有:[“关联”、" isa "、“负相关”、“正相关”]。

对于每个参考数据集，我们只利用其关系模式，并手动标注从无监督语料库中采样的100个样本。

在手动标注时，我们指派了两名标注员进行盲标，一名品控人员进行检查。最终的注释者间一致度为0.9，接受的准确度为0.97。在训练过程中，我们采用了生成信息提取范式，并在LLM的基础上训练了一个LoRA。超参数设置与SFT阶段一致。

表4提供了所构建的图表的统计细节。符号“#”表示计数的符号。我们对从实验数据集中提取的结果的200个样本进行了质量评估，并计算了精度(正确三元组与生成的三元组总数的比率)。

在这里插入图片描述
在AKGF中，我们主要提出了一种集成知识图(KG)的自动奖励评分机制。在这里，我们将通过一个具体的案例研究来演示这个过程，如图5所示。有关奖励计算的详细信息，请参考算法1。

c直接偏好优化(DPO)根据3.3节构造静态成对数据集D = {x i，yi ω，yi l } N i=1，其中yω代表正样本，yl代表负样本，然后进行奖励建模。根据DPO，奖励模型rϕ(x，y)使用负对数似然损失训练如下: 在这里插入图片描述
其中，θ是逻辑函数。在LMs的上下文中，网络rϕ(x，y)通常从SFT模型π SF T (y|x)初始化，在最终变换器层的顶部添加线性层，该线性层为奖励值产生单个标量预测。为了确保奖励函数具有较低的方差，先前的工作对奖励进行归一化，使得对于所有x，E(x,y)∼D[rϕ(x，y)] = 0。在DPO RL阶段，使用学习的奖励函数向语言模型提供反馈，优化目标如下: j = maxπθex∾d，y∾πθ(y | x)[(rϕ(x，y)]-βdkl[πθ(y | x)| |πref(y | x)] ，其中β是控制与基线参考的偏差的参数我们还分析了β参数值对训练过程的影响，并为后续训练选择了最佳参数，如表6所示。

d实现细节我们在四个A100 80GB GPUs和两个V100 32GB GPUs上进行实验。各阶段实验训练中使用的参数详见表5。对于连续预训练，我们使用batch_size=4，epochs=3，learning_rate=5e-5来微调LLM的全部参数。

e案例研究我们通过几个案例研究来评估模型的有效性，如图6所示。ELPF提供了简明和相对全面的答案关于胎儿肠道回声的特点和主要原因。它提到了生理和病理情况。ELPF(不含AKGF)在性能上接近ELPF。然而，其他答案并不完整。ELPF (w/o K-LoRA&AKGF)只提到生理条件，而ELPF (w/o K-LoRA)只涉及病理因素。像ChatGPT-3.5和Llama2-chat-7B这样未经训练的模型表现出明显的幻觉。

在这里插入图片描述