计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21

news2024/12/27 0:44:54

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21

1. AIvril: AI-Driven RTL Generation With Verification In-The-Loop

Authors: Mubashir ul Islam, Humza Sami, Pierre-Emmanuel Gaillardon, and Valerio Tenace

AIVRIL: 人工智能驱动的RTL生成与验证内循环
在这里插入图片描述

摘要
本文介绍了AIVRIL,这是一个先进的框架,旨在提高对RTL(寄存器传输级)代码生成的大型语言模型(LLMs)的准确性和可靠性。AIVRIL采用多代理、LLM不可知的系统,自动进行语法纠正和功能验证,显著减少了错误代码生成的实例。在VerilogEval-Human数据集上的实验结果显示,与以往的工作相比,我们的框架在代码质量上提高了近2倍,同时在满足验证目标方面达到了88.46%的成功率。这代表了向自动化和优化硬件设计工作流程迈出了关键一步,为人工智能驱动的RTL设计提供了更可靠的方法。

创新点

  1. 提出了AIVRIL框架,该框架集成了自动语法纠正和功能验证阶段,作为RTL语言模型的下游任务。
  2. 采用了多代理方法,通过智能代理的协作来精炼和调试生成的代码,利用来自电子设计自动化(EDA)工具的反馈。
  3. 将验证过程与生成过程相结合,提高了生成的RTL代码的可靠性和功能性。
  4. 设计为工具和LLM不可知,可以与各种EDA工具和第三方LLMs集成。

算法模型
AIVRIL框架包含两个核心组件:AutoReview和AutoDV(自动设计验证)。AutoReview负责实施语法检查并为LLMs生成的RTL代码提供自动纠正。AutoDV则封装了AutoReview过程,从语法正确的RTL描述开始,进行仿真和覆盖率分析。两个组件通过迭代细化和代理间的协作交互来提高输出质量。

实验效果

  • 在VerilogEval-Human数据集上,AIVRIL在代码质量上比CodeV和RTLFixer分别提高了1.32倍和2倍。
  • 在满足验证目标方面,平均成功率为88.46%,显示出更强的鲁棒性和合规性。
  • 实验使用了Icarus Verilog进行语法检查和功能仿真,Covered工具用于覆盖率分析。

推荐阅读指数
★★★★☆

推荐理由

  • 本文提出了一个创新的框架,将人工智能技术应用于硬件设计的自动化,这对于电子设计自动化领域是一个重要的进步。
  • AIVRIL框架的多代理系统和LLM不可知的设计使其具有很高的适应性和实用性,能够与现有的EDA工具和LLMs无缝集成。
  • 实验结果表明,该框架在提高RTL代码的准确性和可靠性方面具有显著的效果,这对于硬件设计工程师和研究人员来说是非常有价值的。

2. Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent

Authors: Fatemeh Haji, Mazal Bethany, Maryam Tabar, Jason Chiang, Anthony Rios, Peyman Najafirad
通过多代理思维树验证器代理提高大型语言模型的推理能力

摘要
多代理策略已成为提高大型语言模型(LLMs)推理能力的一种有前途的方法,通过在问题解决过程中分配特殊角色来实现。同时,思维树(ToT)方法在通过探索多样化的推理路径来改善复杂问答任务的推理方面显示出潜力。多代理推理的一个关键限制是“推理者”代理对推理路径的浅层探索。虽然ToT策略可以帮助缓解这个问题,但它们可能会生成有缺陷的推理分支,这可能会损害最终答案的可信度。为了利用多代理推理和ToT策略的优势,我们引入了一种新的方法,结合了基于ToT的推理者代理和思维验证器代理。多个推理者代理并行操作,采用ToT探索多样化的推理路径。然后思维验证器代理审查这些路径,只有在推理有效时才考虑推理者的结论。这种方法通过丢弃有缺陷的推理路径,增强了系统处理需要系统和可信推理的任务的能力。我们的方法在GSM8K数据集上的评估结果显示,与现有技术相比,我们的方法在四个LLMs上平均提高了5.6%的性能。
在这里插入图片描述

创新点

  1. 将ToT集成到多代理推理框架中。
  2. 引入了一种新颖的思维验证器代理,用于评估和过滤推理者代理产生的推理分支。
  3. 在GSM8K数据集上的实验结果表明,与现有技术相比,该方法在复杂算术推理任务中的准确性和性能有所提高。

算法模型
文章提出了一个多代理推理框架,该框架结合了ToT策略和强大的验证机制来增强复杂问题解决。该方法采用多个并行的推理者代理,每个代理使用ToT探索不同的推理路径。这些推理者代理由思维验证器代理支持,后者评估推理者产生的推理分支。验证器丢弃错误的推理分支,确保只有逻辑上合理的路径有助于最终决策。然后使用基于共识的投票机制,只有经过验证的推理路径才参与投票,无效的则被弃权。如果未达成共识,则启动新的推理轮次,将思维验证器对推理分支的反馈纳入下一轮推理。

实验效果

  • 在GSM8K数据集上,与标准ToT策略相比,所提出的方法在四个LLMs上平均提高了5.6%的性能。
  • 实验使用了OpenAI的GPT模型和Meta的Llama 3.1模型的不同版本。
  • 实验结果显示,提出的方法在解决复杂推理问题时,尤其是在模型基线能力受限的任务中,表现出更高的准确性和可信度。
    在这里插入图片描述

推荐阅读指数
★★★★☆

推荐理由

  • 本文提出了一种创新的方法,通过结合多代理系统和ToT策略,提高了LLMs在复杂推理任务中的表现。
  • 引入的思维验证器代理为多代理系统中的推理路径提供了重要的验证机制,增强了最终答案的可信度。
  • 在GSM8K数据集上的实验结果表明,该方法在提高LLMs的推理准确性方面具有显著效果,这对于自然语言处理和人工智能领域的研究者和实践者来说是非常有价值的。

3. LifeGPT: Topology-Agnostic Generative Pretrained Transformer Model for Cellular Automata

Authors: Jaime A. Berkovich and Markus J. Buehler
LIFEGPT:拓扑不敏感的生成预训练变换器模型用于元胞自动机

摘要
文章介绍了LIFEGPT,这是一个拓扑不敏感的生成预训练变换器模型,用于模拟康威的“生命游戏”(Conway’s Game of Life,简称Life)这一元胞自动机(CA)算法。Life因其对初始条件极其敏感的复杂动态行为而闻名。LIFEGPT能够在不知道网格大小或其周期性边界条件的情况下,在环面上模拟Life。研究表明,给定足够多样化的训练数据,GPT模型能够以近乎完美的准确性捕捉图灵完备系统的确定性规则。此外,文章还引入了“自回归自回归器”的概念,以递归方式使用LIFEGPT实现Life。研究结果为在大型语言模型(LLM)框架内实现真正的通用计算铺平了道路,将数学分析与自然语言处理相结合,并探索AI系统在无需显式计算的情况下对此类算法演化的情境感知。类似的GPT可能通过从现实世界生物系统中提取与CA兼容的规则集来解决多细胞自组装中的逆问题,从而为生物启发材料、组织工程和结构材料设计领域带来重大影响。

创新点

  1. 提出了LIFEGPT,一个拓扑不敏感的模型,能够模拟在环面上的Life游戏。
  2. 展示了GPT模型能够捕捉图灵完备系统的确定性规则,即使在没有显式拓扑知识的情况下。
  3. 引入了“自回归自回归器”的概念,用于递归实现Life游戏的动态。
  4. 提出了将AI系统用于情境感知和预测算法演化的可能性,而无需实际运行算法。

算法模型
LIFEGPT是一个解码器仅(decoder-only)的生成预训练变换器模型,使用因果掩蔽多头自注意力机制,训练时实施了遗忘因果掩蔽(Forgetful Causal Masking, FCM)。模型使用旋转位置嵌入(Rotary Positional Embedding, RPE)来保持空间感知,通过Adam优化器和交叉熵损失函数进行训练。模型在32×32的环面上模拟Life游戏,通过训练数据对ICs和NGSs(Next-Game-States)的对进行学习。

实验效果

  • 在训练数据集上,LIFEGPT显示出快速收敛性,跨熵损失值从约0.4降至0.2。
  • 在测试集上,模型在不同的采样温度下显示出至少99.9%的准确率,且随着训练周期的增加,准确率趋于完美。
  • 在零/少次学习能力测试中,LIFEGPT能够以接近完美的准确度模拟Life的规则,即使在训练数据只占所有可能初始配置的极小比例的情况下。
    在这里插入图片描述

推荐阅读指数
★★★★☆

推荐理由

  • 本文提出了一个创新的模型,能够在没有拓扑知识的情况下模拟复杂的元胞自动机系统,这对于理解和预测复杂动态系统具有重要意义。
  • LIFEGPT的拓扑不敏感特性为研究不同网格配置和边界条件的CA提供了新的视角。
  • 通过引入自回归自回归器的概念,文章展示了GPT模型在递归实现算法动态方面的潜力。
  • 研究结果不仅对计算机科学和数学领域有价值,也可能对生物启发材料和组织工程等领域产生深远影响。

4. Egalitarian Language Representation in Language Models: It All Begins with Tokenizers

Authors: Menan Velayuthan and Kengatharaiyer Sarveswaran

语言模型中的平等语言表示:一切从分词器开始

摘要
分词器作为人类语言与语言模型潜在空间之间的桥梁,影响着语言在这些模型中的表示方式。由于以英语为中心的大型语言模型(LLMs)的广泛流行,人们正在努力将它们适应于其他语言。然而,我们展示了从分词的角度来看,并非所有分词器都能为如泰米尔语、僧伽罗语和印地语等复杂脚本语言提供公平的表示,这主要是由于预分词方法的选择。我们进一步展示了预分词在实现这些复杂脚本语言的平等表示中比分词算法本身起着更关键的作用。为了解决这个问题,我们通过引入图素对,改进了字节对编码(BPE)算法,称之为图素对编码(GPE)。我们的实验表明,基于图素的字符提取在复杂脚本上优于字节级分词器。我们通过对泰米尔语、僧伽罗语和印地语的实验验证了这种方法。

创新点

  1. 指出了预分词在复杂脚本语言(如泰米尔语、僧伽罗语和印地语)的分词中的重要性,以及它比分词算法本身对语言表示的影响更大。
  2. 提出了图素对编码(GPE)算法,通过将图素作为最小单位,改进了传统的字节对编码(BPE)算法,以更好地处理复杂脚本语言。

算法模型

  • 图素对编码(GPE):在BPE算法的基础上,使用图素作为原子单位,通过预处理步骤将文本分解为图素,并在分词器训练数据中更新初始词汇表。
  • 预分词:在实际分词之前,将输入文本分解为更小的、可管理的块,称为预令牌。

实验效果

  • 在泰米尔语、僧伽罗语和印地语的实验中,GPE算法在压缩比(CR)和分词平等性(TP)方面均优于传统的字节级分词器。
  • GPE算法在泰米尔语数据集上训练并测试,显示出比BPE、Unigram和WordPiece算法更好的性能。
    在这里插入图片描述
    在这里插入图片描述
    算法效果对比:
    在这里插入图片描述

推荐阅读指数
★★★★☆

推荐理由

  • 本文针对复杂脚本语言在语言模型中的表示问题提供了深入的分析和解决方案,对于自然语言处理领域的研究人员和开发者具有重要的参考价值。
  • 提出的GPE算法为处理复杂脚本语言提供了一种新的视角,可能会对未来的语言模型设计产生积极影响。

5. Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs

Authors: Guillermo Marco, Luz Rello, Julio Gonzalo

小型语言模型在短篇创意写作中可以超越人类:比较SLM、人类和LLM的研究

摘要
本文评估了经过微调的小型语言模型(SLM)在创意小说写作能力,并将其与人类以及两种大型语言模型(LLM):GPT-3.5和GPT-4o的表现进行了比较。评估包括两个实验:(i)人类评估,其中读者对模型生成的故事与人类写的故事进行评分;(ii)定性的语言分析,比较不同模型生成故事的文本特征。在第一个实验中,我们要求68名参与者对模型和人类生成的短篇故事进行评分,评分维度包括语法正确性、相关性、创造力和吸引力。BART Large在大多数方面超越了人类作者,除了创造力,其总体得分为2.11,而人类文本为1.85,提高了14%。在第二个实验中,定性分析揭示了尽管GPT-4o展现出近乎完美的内外一致性,但它倾向于产生更可预测的叙事,只有3%的故事被视为新颖。相比之下,BART的故事中有15%被认为是新颖的,表明尽管模型尺寸较小,但其创造力更高。本研究提供了模型大小和微调如何影响创意写作任务中创造力、流畅性和一致性的定量和定性见解。

创新点

  1. 对比了小型语言模型(SLM)与人类以及大型语言模型(LLM)在创意写作任务中的表现。
  2. 通过人类评估和定性语言分析,提供了对SLM在创意写作中能力的深入理解。
  3. 揭示了模型大小可能与创意写作中的创造性存在权衡,即大型模型可能为了一致性和流畅性牺牲创造性。

算法模型

  • BART Large:作为SLM的代表,用于生成电影概要。
  • GPT-3.5GPT-4o:作为LLM的代表,用于生成电影概要。

实验效果

  • 在人类评估实验中,BART Large在可读性、易理解性、相关性和吸引力方面超越了人类作者,总体得分提高了14%。
  • 在定性分析中,GPT-4o在内外一致性方面表现更好,但创造性较低,只有3%的故事被视为新颖。
  • BART Large在创造性方面表现更好,有15%的故事被认为是新颖的。
    在这里插入图片描述

推荐阅读指数
★★★☆☆

推荐理由

  • 本文提供了对小型语言模型在创意写作任务中能力的实证研究,对于理解SLM与LLM在创意任务中的优劣具有重要意义。
  • 研究结果对于自然语言处理领域的研究人员和开发者具有启发性,尤其是在考虑模型选择和应用场景时。
  • 通过对比SLM和LLM,本文为未来在创意写作和其他需要创造性的AI任务中提供了新的研究方向和可能性。

6. RUIE: Retrieval-based Unified Information Extraction using Large Language Model

Authors: Xincheng Liao, Junwen Duan, Yixi Huang, Jianxin Wang

RUIE: 基于检索的统一信息提取使用大型语言模型
在这里插入图片描述

摘要
统一信息提取(UIE)的目标是使用单一模型或框架完成所有信息提取任务。以往的研究主要集中在通过构建数据集对大型语言模型(LLMs)进行指令调优,但这些方法需要大量的计算资源,并且在未见任务上的泛化能力有限。为了解决这些限制,我们提出了RUIE(基于检索的统一信息提取),一个利用上下文学习使模型能够快速泛化同时降低计算成本的框架。RUIE的关键挑战是为LLMs选择最有益的示例来有效处理多样化的信息提取任务。为了实现这一点,我们整合了LLMs对排名候选示例的偏好,并设计了一个关键词增强的奖励模型来捕捉查询和示例之间的细粒度关系。然后,我们通过对比学习和知识蒸馏训练了一个双编码器检索器用于UIE。据我们所知,RUIE是第一个可训练的UIE检索框架。在8个未见数据集上的实验结果表明,RUIE在泛化到未见任务上的有效性,与指令调优方法相比,平均F1分数提高了19.22%,与其他检索器相比提高了3.13%。进一步分析证实了RUIE对不同大小的LLMs的适应性及其关键组件的重要性。
在这里插入图片描述

创新点

  1. 提出了RUIE框架,利用上下文学习来减少计算成本,同时实现快速泛化到未见任务。
  2. 提出了一种新颖的示例选择机制,结合了LLMs的偏好对候选示例进行排名,并使用关键词增强的奖励模型来捕捉查询和示例之间的细粒度关系。
  3. RUIE展示了出色的适应性,有效处理多样化的信息提取任务(NER、RE、EE),并与不同大小的LLMs兼容,作为UIE任务的通用插件。

算法模型
RUIE框架包括以下关键组件:

  • LLM偏好评分:使用LLM对候选示例进行评分,以选择与输入查询最匹配的示例。
  • 关键词增强奖励模型:通过在输入文本中添加特殊标签来增强关键词,并使用交叉编码器来训练,以捕捉查询和示例之间的细粒度信息。
  • UIE检索器训练:基于双编码器的检索器,使用对比学习和知识蒸馏进行训练。

实验效果

  • 在8个未见数据集上的实验结果显示,RUIE在泛化到未见任务上的有效性,与指令调优方法相比,平均F1分数提高了19.22%,与其他检索器相比提高了3.13%。
  • RUIE在NER、RE、ED和EAE任务上均取得了最佳性能,证明了其在信息提取任务中的有效性。
  • 通过消融研究,证实了关键词增强和LLM偏好在检索器训练过程中的重要性。

推荐阅读指数:
★★★☆☆

推荐理由

  • 本文提出了一个创新的RUIE框架,它通过检索和上下文学习来提高信息提取任务的性能,这对于自然语言处理领域的研究人员和实践者来说是非常有价值的。
  • RUIE框架的设计理念和实验结果为如何利用大型语言模型进行有效信息提取提供了新的视角和方法。
  • 论文还讨论了RUIE在不同任务和不同大小的LLMs上的适应性,这为未来在多样化的信息提取任务中的应用提供了可能性。

7. Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation

Authors: Chunliang Tao, Xiaojing Fan, Yahe Yang

利用大型语言模型进行API交互:一个用于分类和合成数据生成的框架

摘要
随着大型语言模型(LLMs)在自然语言处理方面的进步,人们越来越有兴趣利用它们的能力来简化软件交互。本文提出了一个新颖的系统,该系统集成了LLMs,用于将自然语言输入分类为相应的API调用,并自动化创建针对特定API功能的样本数据集。通过将自然语言命令分类,我们的系统允许用户通过简单的输入调用复杂的软件功能,提高了交互效率并降低了软件使用的门槛。我们的数据集生成方法还使得不同LLMs在分类API调用方面的有效性和系统性评估成为可能,为开发者或商业所有者提供了一个实用的工具,以评估LLMs在定制API管理中的适用性。我们在几种著名的LLMs上进行了实验,使用为各种API功能生成的样本数据集。结果显示,GPT-4实现了高达0.996的分类准确率,而LLaMA-3-8B的表现则远不如,仅为0.759。这些发现突出了LLMs在API管理和验证我们系统在指导模型测试和选择方面的潜力。
在这里插入图片描述

创新点

  1. 提出了一个集成LLMs的系统,用于将自然语言输入分类为API调用,并自动化生成针对特定API功能的样本数据集。
  2. 通过自然语言命令的分类,使得用户可以通过简单的输入来调用复杂的软件功能,提高了交互效率并降低了软件使用的门槛。
  3. 提出了一个数据集生成框架,用于系统性地评估不同LLMs在API分类任务中的性能。

算法模型

  • API检索系统:一个自动化流程,用于处理用户查询,确保每个查询都被正确分类并传递给适当的API函数。
  • 数据集生成管道:使用批量提示生成合成查询,模拟与API的真实用户交互,并为评估LLMs提供高质量的数据集。

实验效果

  • 在六种API模块上的实验结果显示,GPT-4在模块级别分类准确率(MLC-Acc)和功能级别分类准确率(FLC-Acc)上均表现最佳,分别为0.992和0.996。
  • LLaMA3-70B紧随其后,整体MLC-Acc为0.964,平均FLC-Acc为0.990。
  • Gemini-1.5也表现出色,整体MLC-Acc为0.957,平均FLC-Acc为0.981。
  • GPT-3.5-turbo和较小模型(如GPT-4o-mini和LLaMA3-8B)在复杂模块中的准确性显著下降。

推荐阅读指数
★★★★☆

推荐理由

  • 本文提出了一个创新的框架,利用LLMs来简化API交互,这对于希望利用自然语言处理技术来改进软件系统的研究人员和开发者来说非常有价值。
  • 实验结果表明,LLMs在API分类任务中具有很高的潜力,尤其是在使用大型模型如GPT-4时。
  • 论文还提供了一个数据集生成方法,这对于评估和选择适合特定API管理任务的LLMs非常有用。
  • 尽管研究结果令人鼓舞,但论文也指出了在资源受限的环境中使用大型LLMs的局限性,并提出了未来研究的方向,这为相关领域的进一步研究提供了思路。

8. Revealing the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing

Authors: Wenyuan Zhang, Jiawei Sheng, Shuaiyi Nie, Zefeng Zhang, Xinghua Zhang,
Yongquan He, Tingwen Liu

揭示大型语言模型在角色扮演中检测角色知识错误的挑战
在这里插入图片描述

摘要
本文评估了经过微调的小型语言模型(SLM)在创意小说写作能力,并将其与人类以及两种大型语言模型(LLM):GPT-3.5和GPT-4o的表现进行了比较。评估包括两个实验:(i)人类评估,其中读者对模型生成的故事与人类写的故事进行评分;(ii)定性的语言分析,比较不同模型生成故事的文本特征。在第一个实验中,我们要求68名参与者对模型和人类生成的短篇故事进行评分,评分维度包括语法正确性、相关性、创造力和吸引力。BART Large在大多数方面超越了人类作者,除了创造力,其总体得分为2.11,而人类文本为1.85,提高了14%。在第二个实验中,定性分析揭示了尽管GPT-4o展现出近乎完美的内外一致性,但它倾向于产生更可预测的叙事,只有3%的故事被视为新颖。相比之下,BART的故事中有15%被认为是新颖的,表明尽管模型尺寸较小,但其创造力更高。本研究提供了模型大小和微调如何影响创意写作任务中创造力、流畅性和一致性的定量和定性见解。
在这里插入图片描述
在这里插入图片描述

创新点

  1. 提出了一个评估框架,用于评估LLMs在角色扮演中检测已知知识错误(KKE)和未知知识错误(UKE)的能力。
  2. 构建了一个探测数据集,用于模拟在自动化语料库构建过程中可能出现的错误查询。
  3. 提出了一种基于代理的推理方法,自我回忆和自我怀疑(S2RD),以提高LLMs检测错误角色知识的能力。

算法模型

  • 自我回忆(Self-Recollection):LLMs不直接回答问题,而是回忆与查询间接相关的知识,模拟人类回忆关键记忆线索的行为。
  • 自我怀疑(Self-Doubt):鼓励LLMs专注于检测不正确的行为,通过自我检查帮助LLMs理解角色知识边界。

实验效果

  • 在68名参与者的人类评估实验中,BART Large在大多数方面超越了人类作者,总体得分提高了14%。
  • 在定性分析中,GPT-4o在内部和外部一致性方面表现近乎完美,但只有3%的故事被视为新颖。
  • BART Large生成的故事中有15%被认为是新颖的,表明其创造力更高。
  • S2RD方法有效地提高了LLMs检测错误角色知识的能力,但KKE仍然是一个需要持续关注的挑战。

推荐阅读指数
★★★★☆

推荐理由

  • 本文针对LLMs在角色扮演中的知识错误检测能力进行了深入研究,对于理解LLMs在创意写作任务中的表现具有重要意义。
  • 通过构建探测数据集和提出S2RD方法,本文为提高LLMs在角色扮演中的准确性和可靠性提供了新的视角和方法。

9. Enabling Real-Time Conversations with Minimal Training Costs

Authors: Wang Xu, Shuo Wang, Weilin Zhao, Xu Han, Yukun Yan, Yudi Zhang, Zhe Tao, Zhiyuan Liu, Wanxiang Che

以最小的训练成本实现实时对话

摘要
大型语言模型(LLMs)通过对话交互提高了人类的工作效率。传统的基于回合制的LLM驱动的对话系统,在生成回复时无法实现实时交互。为了解决这一限制,研究人员提出了双工模型,这些模型可以动态适应用户输入,促进实时交互反馈。然而,这些方法通常需要大量的计算资源来获得能力。为了减少开销,本文提出了一种新的双工解码方法,通过最小的额外训练增强LLMs的双工能力。具体来说,我们的方法采用对话中查询和响应的并行解码,有效实现了信道分隔多路复用解码策略。实验结果表明,我们提出的方法显著提高了用户与AI交互的自然性和类人性,同时训练成本极低。
在这里插入图片描述

创新点

  1. 提出了一种新的双工解码方法(DUO),通过并行解码对话中的查询和响应,实现信道分隔多路复用解码策略。
  2. 引入了两个状态标记来指示是否应处理查询,以此来优化模型对新输入的响应。
  3. 与现有的双工模型相比,DUO方法在保持原有模型能力的同时,只需极小的额外训练即可实现双工能力。

算法模型

  • 并行解码:模型在每个时间步长接收新的输入令牌,同时自回归地生成输出令牌,从而建立新的输入通道。
  • 信道转换:使用状态标记来指示用户查询的状态,模型根据这些标记决定是否响应新的输入。
  • 数据集构建:从DuplexUltraChat构建数据集,通过添加状态标记来指示是否应响应查询。

实验效果

  • 人类评估:在响应性、类人性、忠实度和事实性四个方面,MiniCPMDuo相较于MiniCPM-Duplex展现出更优越的性能。
  • 标准基准测试:MiniCPMDuo在多个标准基准测试中与MiniCPM-Duplex和MiniCPM相比,展现出可比的结果,同时在训练数据需求上显著减少。

重要数据与结论

  • MiniCPMDuo在400步训练后,仅需25分钟,而MiniCPM-Duplex需要36小时的训练时间。
  • 在人类评估中,MiniCPMDuo在响应性和类人性方面优于MiniCPM-Duplex。
  • 在标准基准测试中,MiniCPMDuo与MiniCPM-Duplex相比,在大多数测试中表现相当或更好。
    在这里插入图片描述

推荐阅读指数
★★★★☆

推荐理由

  • 本文提出的DUO方法在减少训练成本的同时,有效提升了对话系统的实时交互能力,对于希望在资源受限的情况下提升对话系统性能的研究者和开发者来说,具有很高的参考价值。
  • 论文详细阐述了算法的创新点和实验验证,为实时对话系统的研究提供了新的视角和方法。

10. LLMs + Persona-Plug = Personalized LLMs

Authors: Jiongnan Liu, Yutao Zhu, Shuting Wang, Xiaochi Wei, Erxue Min, Yu Lu,
Shuaiqiang Wang, Dawei Yin, Zhicheng Dou

LLMs + Persona-Plug = 个性化的LLMs

摘要
个性化在众多语言任务和应用中扮演着至关重要的角色,因为即使需求相同的用户,也可能基于个人兴趣偏好不同的输出。这促进了各种个性化方法的发展,旨在使大型语言模型(LLMs)能够生成与用户偏好一致的定制化输出。一些方法涉及为每个用户微调一个独特的个性化LLM,这对广泛应用来说成本过高。另一种方法通过检索用户的相关历史文本作为示例,以即插即用的方式引入个性化信息。然而,基于检索的策略可能会破坏用户历史的连续性,并且无法捕获用户的整体风格和模式,导致次优性能。为了解决这些挑战,我们提出了一个新颖的个性化LLM模型,PPlug。它通过轻量级的插件用户嵌入模块为每个个体构建特定于用户的嵌入,通过将此嵌入附加到任务输入,LLMs能更好地理解和捕获用户习惯和偏好,从而在不调整自身参数的情况下产生更个性化的输出。在语言模型个性化(LaMP)基准的各种任务上的广泛实验表明,我们提出的模型显著优于现有的个性化LLM方法。
在这里插入图片描述

创新点

  1. 提出了PPlug模型,通过轻量级的插件用户嵌入模块为每个用户构建特定的嵌入,以即插即用的方式实现个性化。
  2. 引入输入感知的个人聚合器,根据当前任务输入的相关性动态构建个人嵌入。
  3. 与为每个用户微调特定LLM的方法相比,PPlug模型遵循即插即用范式,不增加LLM的额外参数。
  4. 与基于检索的LLM相比,PPlug能够捕获用户的整体模式和偏好,从而实现更好的个性化性能。

算法模型

  • 用户行为编码器:将用户的历史行为编码成密集向量。
  • 输入感知的个人聚合器:根据当前输入的相关性,动态地为每个历史行为分配权重,合成个人嵌入。
  • PPlug模型:将获得的个人嵌入直接附加到当前输入,指导固定LLM生成个性化的输出。
    在这里插入图片描述

实验效果

  • 在LaMP基准的六个任务中,PPlug模型在五个任务上都取得了最佳性能,显示出其在个性化任务上的优越性。
  • 与最佳基线模型相比,PPlug在大多数任务中的相对改进幅度从1.4%到35.8%不等。
  • 特别是在电影标签任务和推文释义任务中,PPlug的性能提升更为显著。

重要数据与结论

  • PPlug模型在LaMP-1准确度上达到了68.0%,在LaMP-2准确度上达到了56.5%,在LaMP-3的MAE上达到了0.231,在LaMP-4的ROUGE-1上达到了21.6%,在LaMP-5的ROUGE-1上达到了48.7%,在LaMP-7的ROUGE-1上达到了53.4%。

推荐阅读指数
★★★★☆

推荐理由

  • 本文提出的PPlug模型在个性化LLM领域提供了一种新颖且有效的解决方案,通过轻量级的用户嵌入模块实现个性化,具有较高的实用价值和研究意义。
  • 论文在LaMP基准测试中取得了显著的性能提升,证明了其方法的有效性,对于希望在个性化推荐、对话系统等领域应用LLM的研究者和工程师来说,具有很好的参考价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2164815.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenAPI鉴权(二)jwt鉴权

一、思路 前端调用后端可以使用jwt鉴权;调用三方接口也可以使用jwt鉴权。对接多个三方则与每个third parth都约定一套token规则,因为如果使用同一套token,token串用可能造成权限越界问题,且payload交叉业务不够清晰。下面的demo包…

springBoot --> 学习笔记

文章目录 认识 SpringBoot第一个 SpringBoot 程序彩蛋 banner (emmmmm,哈哈哈哈哈哈,牛逼!)SpringBoot 配置配置文件第一个 yaml 配置 成功案例yaml 存在 松散绑定 JSR 303 数据校验多环境配置以及文件位置访问静态资源…

教你制作一个二维码就能查分的系统

学生和家长对于成绩查询的需求日益增长。为了满足这一需求,很多学校和老师开始使用二维码查询系统,以提高效率和保护隐私。以下内容就是如何制作一个简单易用的成绩查询二维码系统的步骤: 1. 准备电子表格 老师需要准备一个包含学生成绩的电…

(已解决)vscode如何传入argparse参数来调试/运行python程序

文章目录 前言调试传入参数运行传入参数延申 前言 以前,我都是用Pycharm专业版的,由于其好像在外网的时候,不能够通过VPN来连接内网服务器,我就改用了vscode。改用了之后,遇到一个问题,调试或者运行python…

基于Qt5.12.2开发 MQTT客户端调试助手

项目介绍 该项目是一个基于 Qt 框架开发的桌面应用程序,主要用于与 MQTT 服务器进行连接和通信。通过该应用,用户可以连接到 MQTT 服务器,订阅主题、发布消息并处理接收到的消息。项目使用 QMqttClient 类来实现 MQTT 协议的客户端功能&…

第128集《大佛顶首楞严经》

《大佛顶如来密因修正了义诸菩萨万行首楞严经》。监院法师慈悲,诸位法师,诸位同学,阿弥陀佛! 请大家打开讲义296面。 庚一、总示阴相(分四:辛一、结前行阴尽相。辛二、正明识阴区宇。辛三、悬示识阴尽相。…

通过frp 免费内网穿透,端口转发

1.准备工作 (1)拥有一台有公网IP的服务器(系统可以是windows/macos/linux),服务器可以使用云厂商购买的服务器 (2)从下面链接下载最新版本的frp安装包,客户端和服务端是同一个tar包 https://github.com/fatedier/frp/releases 服务端机器A-有外网ip的作为服务端 服务端机器B-需…

前端接口415状态码【解决】

前端接口415状态码【解决】 一、概述 415状态码是HTTP协议中的一个标准响应状态码,代表“Unsupported Media Type”(不支持的媒体类型)。当客户端尝试上传或发送一个服务器无法处理的媒体类型时,服务器会返回这个状态码。这通常意…

二维四边形网格生成算法:paving(五)缝合 Seaming 与 闭合检测 Closure Check

欢迎关注更多精彩 关注我,学习常用算法与数据结构,一题多解,降维打击。 参考论文:Paving: A new approach to automated quadrilateral mesh generation 关注公众号回复paving可以获得文章链接 paving(一&#xff0…

python如何将字符转换为数字

python中的字符数字之间的转换函数 int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) 将x转换到一个浮点数 complex(real [,imag ]) 创建一个复数 str(x ) 将对象 x 转换为字…

Pytest测试实战|执行常用命令

Pytest测试实战 本文章主要详细地阐述下Pytest测试框架执行TestCase常用命令。 按分类执行 在Pytest测试框架中按照分类执行的命令为“-k”,它的主要特点是按照TestCase名字的模式来执行,在编写具体的TestCase的时候,都会编写每个TestCase…

el-table表格点击该行任意位置时也勾选上其前面的复选框

需求&#xff1a;当双击表格某一行任意位置时&#xff0c;自动勾选上其前面的复选框 1、在el-table 组件的每一行添加row-dblclick事件&#xff0c;用于双击点击 <el-table:data"tableData"ref"tableRef"selection-change"handleSelectionChange&q…

常用组件详解(五):torch.nn.BatchNorm2d()

文章目录 一、基本原理二、函数说明 在卷积神经网络的卷积层之后通常会添加torch.nn.BatchNorm2d()进行数据的归一化处理&#xff0c;将数据规范到均值为0&#xff0c;方差为一的分布上&#xff0c;使得数据在进行Relu时不会因为数据过大而导致网络性能的不稳定。 一、基本原理…

基础实践:使用JQuery Ajax调用Servlet

前言 本博客介绍最简单的JQuery&#xff08;原生JS的封装库&#xff09;使用Ajax发送请求&#xff0c;并通过对应的servlet响应数据&#xff0c;并在页面显示&#xff0c;并且servlet响应的数据来自MySQL数据库。 实现需求&#xff1a;在前端页面的输入框中输入要注册的用户名&…

2024年_ChatGPT 及类似的人工智能技术带来的影响与改变 怎样利用 ChatGPT 提高学习效率

人工智能技术给我们带来了什么的改变&#xff1a; 工作方式与效率&#xff1a; 信息检索与处理&#xff1a;能快速整合大量信息&#xff0c;提供较为准确的答案和建议&#xff0c;帮助人们更高效地获取所需知识&#xff0c;提升信息检索和处理的速度与质量&#xff0c;比如在做…

Git版本控制的使用教程

使用Git进行项目代码的版本控制&#xff0c;具体操作&#xff1a; 1). 创建Git本地仓库 当Idea中出现&#xff1a; 说明本地仓库创建成功。 2). 创建Git远程仓库 访问Gitee - 基于 Git 的代码托管和研发协作平台&#xff0c;新建仓库 点击 创建 3). 将本地文件推送到Git远程…

Java【根据数据库生成实体文件】

下载插件 安装 MybatisX 配置包 Scratches and Consoles -> Extensions&#xff0c;Reload from Disk 后&#xff0c;会出现 MyBatisX 文件夹&#xff0c;将模板配置文件夹&#xff08;我的模板配置文件夹叫做 a-custom&#xff09;放入该文件夹下的 templates 文件夹内&am…

【欧拉函数变化】[SDOI2012] Longge 的问题

求和 gcd(i,j) 转化为 k*gcd(i/k,j/k) 1 (i,j%k 0)。 本质就是利用互质转化到了欧拉函数的领域上。 [SDOI2012] Longge 的问题 - 洛谷 转自小粉兔 #include<bits/stdc.h> #define int long long using namespace std; unordered_map<int,int>pd; long long…

天润融通发布微藤智能体平台,中国客户联络正式进入“智能体时代”

9月19日&#xff0c;以“云启智跃&#xff0c;产业蝶变”为主题的2024云栖大会在杭州正式开幕。大会持续三天&#xff0c;聚焦AI时代的技术升级与实践应用&#xff0c;设有三大主论坛、400多个分论坛&#xff0c;并开放4万平方米的智能科技展区&#xff0c;展示全球百余款AI应用…

20_BERT微调训练

1.导包 import json #通过路径加载预训练模型 import os import torch from torch import nn import dltools2.加载预训练模型BERT函数 def load_pretrained_model(pretrained_model, num_hiddens, ffn_num_hiddens,num_heads, num_layers, dropout, max_len, devices):dat…