9月大型语言模型研究论文总结

news2025/2/1 10:53:09

大型语言模型(llm)在今年发展迅速,随着新一代模型不断地被开发,研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。

这些论文涵盖了一系列语言模型的主题,从模型优化和缩放到推理、基准测试和增强性能。最后部分讨论了有关安全训练并确保其行为保持有益的论文。

优化与扩展

Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning

https://arxiv.org/abs/2310.03094

像GPT-4这样的大型语言模型(llm)在各种任务中表现出了卓越的性能,但是这种强大的性能通常伴随着使用付费API服务的高昂费用。

在本文中,作者研究了构建LLM级联以节省使用LLM的成本,特别是用于执行推理(例如,数学,因果关系)任务。

级联管道遵循的理论是,简单的问题可以通过较弱但更实惠的LLM来解决,而只有具有挑战性的问题才需要更强大且更昂贵的LLM。

为了实现这一决策,他们将较弱LLM的“答案一致性”视为问题难度的信号,并提出了几种答案抽样和一致性检查方法,包括一种利用两种思维表示(即Chain-of-Thought 和 Program-of-Thought)的混合方法。

通过在六个推理基准数据集上的实验,分别使用gpt -3.5 turbo和GPT-4作为较弱和较强的LLM,证明提出的LLM级联可以达到与单独使用较强LLM相当的性能,而成本仅为其40%。

EcoAssistant: Using LLM Assistant More Affordably and Accurately

https://arxiv.org/abs/2310.03046

用户要求大型语言模型(llm)作为助手来回答需要外部知识的查询;他们会询问某个城市的天气、股票价格,甚至是他们所在社区的具体位置。

这些查询需要LLM生成调用外部api代码来回答用户的问题,但是LLM很少在第一次尝试时生成正确的代码,需要在执行结果上进行迭代的优化。这导致高查询量可能会很昂贵。

在这项工作中,作者贡献了一个框架,EcoAssistant,使LLM能够更经济、更准确地回答代码驱动的查询。EcoAssistant包含三个组件:

首先,它允许LLM助手与自动代码执行器对话,以迭代地改进代码或根据执行结果生成答案。

其次,我们使用LLM助手的层次结构,它试图用更弱、更便宜的LLM来回答查询。

第三,从过去成功的查询中检索解决方案,作为上下文演示,以帮助后续查询。

EcoAssistant在可负担性和准确性方面具有明显的优势,其成功率超过GPT-4 10个百分点,成本不到GPT-4的50%。

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

https://arxiv.org/abs/2309.16058

作者提出了任意模态增强语言模型(AnyMAL),这是一个可以对多种输入模态信号(即文本、图像、视频、音频、IMU运动传感器)进行推理,并生成文本响应的统一模型。

AnyMAL继承了包括LLaMA-2 (70B)在内的最先进llm的强大的基于文本的推理能力,并通过预训练的对齐器模块将特定于模态的信号转换为联合文本空间。

为了进一步加强多模态LLM的能力,他们使用手动收集的多模态指令集对模型进行了微调,涵盖简单问答之外的各种主题和任务。他们进行了全面的实证分析,包括人工和自动评估,并在各种多模式任务中展示了最先进的表现。

基于人类反馈的强化学习(RLHF)

A Long Way to Go: Investigating Length Correlations in RLHF

https://arxiv.org/abs/2310.03716

使用基于人类反馈的强化学习(RLHF)来校准大型语言模型取得了巨大的成功。开源好数据集和奖励模型使得在普通聊天设置之外的更广泛的实验成为可能,特别是使系统对网络问答、摘要和多回合对话等任务更“有用”。在优化有用性时,RLHF一直被观察到驱动模型产生更长的输出。

论文表明,优化响应长度是RLHF在这些设置中报告的改进背后的重要因素。他们研究了在三个开源的数据集上训练的奖励模型的奖励和长度之间的关系。发现长度与奖励密切相关,奖励分数的提高主要是通过改变输出长度的分布来驱动的。

然后探索在RL和奖励模式学习期间的干预措施,是否能在不增加长度的情况下实现与RLHF相同的下游改善。虽然干预措施减轻了长度的增加,但它们并不是在不同的环境下都有效。

论文还发现即使运行RLHF时仅基于长度的奖励也能再现初始策略模型的大部分下游改进,这表明在这些设置下的奖励模型还有很长的路要走。

推理

MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning

https://arxiv.org/abs/2310.03731

最近发布的GPT-4代码解释器在解决具有挑战性的数学问题方面表现出了非凡的熟练程度,这主要归功于它能够无缝地使用自然语言进行推理,生成代码,执行代码,并根据执行输出继续进行推理。

论文提出了一种方法来微调开源语言模型,使他们能够使用代码来建模和推导数学方程,从而提高他们的数学推理能力。

其中包含一种生成新颖的高质量数学问题及其基于代码的解决方案数据集的方法,称为mathcodedirective。每个解决方案都交织着自然语言、代码和执行结果。我们还介绍了一种定制的监督微调和推理方法。

这种方法产生了MathCoder模型,这是一组能够生成基于代码的解决方案的模型,用于解决具有挑战性的数学问题。MathCoder模型在MATH(45.2%)和GSM8K(83.9%)数据集上获得了最先进的分数,大大优于其他开源替代方案。MathCoder模型不仅在GSM8K和MATH上超过ChatGPT-3.5和PaLM-2,而且在竞赛级别的MATH数据集上也优于GPT-4。

Large Language Models Cannot Self-Correct Reasoning Yet

https://arxiv.org/abs/2310.01798

大型语言模型(llm)已经成为一项突破性的技术,在各种应用程序中具有无与伦比的文本生成能力。然而对其生成内容的准确性和适当性的关注仍然存在。

论文提出了一种自我纠正的方法,作为这些问题的补救。研究的核心是内在自我纠正的概念,即LLM试图仅根据其固有能力纠正其初始反应,而不依赖外部反馈。

在推理的情况下,研究表明,LLM很难在没有外部反馈的情况下自我纠正他们的反应,有时他们的表现在自我纠正后的指标下降。根据这些见解,作者对该领域的未来研究和实际应用提出了建议。

Large Language Models as Analogical Reasoners

https://arxiv.org/abs/2310.01714

语言模型的思维链(CoT)提示在推理任务中展示了令人印象深刻的性能,但通常需要标记为推理过程的范例。

论文引入了一种新的提示方法,类比提示,它可以自动引导大型语言模型的推理过程。类比推理是一种认知过程,在这种认知过程中,人类从相关的过去经验中汲取知识来解决新问题。我们的方法受到类比推理的启发,促使语言模型在继续解决给定问题之前,在上下文中自我生成相关的范例或知识。

这种方法有几个优点:它避免了标记或检索样本的需要,提供了通用性和方便性;它还可以为每个问题定制生成的示例和知识,提供适应性。实验结果表明,论文的方法在各种推理任务中都优于0-shot CoT和手动较少-shot CoT,包括GSM8K和math中的数学问题解决,Codeforces中的代码生成以及BIG-Bench中的其他推理任务。

LLM进展与基准

How FaR Are Large Language Models From Agents with Theory-of-Mind?

https://arxiv.org/abs/2310.03051

“思考是为了行动。”人类可以通过观察推断他人的心理状态——一种被称为心理理论(ToM)的能力——然后根据这些推断采取实际行动。现有的问答基准(如ToMi)会向模型提问,以推断故事中人物的信念,但不会测试模型是否可以使用这些推断来指导它们的行动。

我们为大型语言模型(llm)提出了一种新的评估范式:Thinking for Doing (T4D),它要求模型将对他人心理状态的推断与社会场景中的行动联系起来。在T4D上的实验表明,像GPT-4和PaLM 2这样的llm似乎擅长追踪故事中人物的信念,但它们很难将这种能力转化为战略行动。

论文引入了一个零样本提示框架,预见和反映(FaR),它提供了一个推理结构,鼓励LLM预测未来的挑战,并对潜在的行动进行推理。

FaR将GPT-4在T4D中的表现从50%提高到71%,优于其他提示方法。此外FaR推广到不同的分布外的故事结构和场景,也需要ToM推理来选择一个动作,始终优于其他方法(包括少量的上下文学习)。

SmartPlay: A Benchmark for LLMs as Intelligent Agents

https://arxiv.org/abs/2310.01557

最近的大型语言模型(llm)已经证明了智能代理和下一代自动化的巨大潜力,但目前还没有一个系统的基准来评估llm作为代理的能力。

论文提出的SmartPlay:既是一个具有挑战性的基准,也是一种评估LLM作为代理的方法。SmartPlay由6款不同的游戏组成,包括石头剪刀布、河内塔和我的世界。

每个游戏都有一个独特的设置,提供多达20个评估设置和无限的环境变化。SmartPlay中的每个游戏都独特地挑战了智能LLM代理的9个重要功能的子集,包括对象依赖性推理,提前计划,空间推理,从历史中学习和理解随机性。每个游戏测试的能力集之间的区别使我们能够分别分析每个能力。

SmartPlay不仅可以作为评估LLM代理整体性能的严格测试场地,还可以作为识别当前方法差距的路线图。

提高LLM的表现

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

https://arxiv.org/abs/2310.03214

大多数大型语言模型(llm)只训练一次,从不更新;因此,他们缺乏动态适应不断变化的世界的能力。在这项工作中,通过回答测试当前世界知识的问题的背景下,对LLM生成的文本的真实性进行了详细的研究。

引入了FreshQA,这是一种新的动态QA基准,包含各种各样的问答类型,包括需要快速变化的世界知识的问题,以及需要揭穿的错误前提的问题。

在一个双模式评估程序下对各种封闭和开源llm进行基准测试,通过涉及超过5万次判断的人类评估,揭示了这些模型的局限性,并展示了显著的改进空间:例如,所有模型(无论模型大小)都在与涉及快速变化的知识和错误前提的问题作斗争。

受这些结果的启发,论文提出了FreshPrompt,这是一种简单的少量提示方法,通过将从搜索引擎检索到的相关和最新信息整合到提示中,大大提高了LLM的性能。

实验表明,FreshPrompt优于竞争对手的搜索引擎增强提示方法,如Self-Ask (Press et al., 2022)以及商业系统,如Perplexity AI。对FreshPrompt的进一步分析表明,检索证据的数量及其顺序在影响llm生成答案的正确性方面起着关键作用。

此外,与鼓励冗长的答案相比,指导LLM生成简洁直接的答案有助于减少幻觉。

DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

https://arxiv.org/abs/2310.03714

ML社区正在迅速探索提示语言模型(LMs)的技术,并将它们堆叠到解决复杂任务的管道中。但是现有的LM管道通常是使用硬编码的“提示模板”实现的,即通过反复试验发现的长字符串。

为了更系统地开发和优化LM管道,论文提出了DSPy,这是一个编程模型,它将LM管道抽象为文本转换图,即命令式计算图,其中通过声明性模块调用LM。DSPy模块是参数化的,这意味着它们可以学习(通过创建和收集演示)如何应用提示、调优、增强和推理技术的组合。

作者还设计了一个编译器,它将优化任何DSPy管道以最大化给定的度量。进行了两个案例研究,表明简洁的DSPy程序可以表达和优化复杂的LM管道,这些管道可以解释数学单词问题、处理多跳检索、回答复杂问题和控制代理循环。

在编译的几分钟内,几行DSPy允许GPT-3.5和llama2-13b-chat自引导管道,其性能优于标准的少样本提示(通常分别超过25%和65%)和专家创建的演示管道(分别高达5-46%和16-40%)。最重要的是,DSPy程序编译为开放和相对较小的lm,如770M-parameter T5和llama2-13b-chat,与依赖专家编写的专有GPT-3.5提示链的方法相比具有竞争力。

Enable Language Models to Implicitly Learn Self-Improvement From Data

https://arxiv.org/abs/2310.00898

大型语言模型(llm)在开放式文本生成任务中表现出了非凡的能力。但是这些任务固有的开放性意味着模型响应的质量总是有改进的空间。

为了应对这一挑战,人们提出了各种方法来LLM的性能。人们越来越关注使LLM能够自我提高其响应质量,从而减少对大量人工注释工作的依赖,以收集多样化和高质量的训练数据。基于提示的方法因其有效性、高效性和便捷性在自我完善方法中得到了广泛的探索。

但是这些方法通常需要明确而彻底地编写规则作为llm的输入。论文提出了一个隐式自我完善(PIT)框架,该框架从人类偏好数据中隐式学习改进目标。PIT只需要用于训练奖励模型的偏好数据,而无需额外的人力。

作者重新制定了基于人类反馈(RLHF)的强化学习的训练目标——不是对给定输入最大化响应质量,而是在参考响应的条件下最大化响应的质量差距。通过这种方式,PIT被隐式地训练,其改进目标是更好地与人类偏好保持一致。在两个真实数据集和一个合成数据集上的实验表明,该方法明显优于基于提示的方法。

法规与道德

HeaP: Hierarchical Policies for Web Actions using LLMs

https://arxiv.org/abs/2310.03720

大型语言模型(llm)已经证明了在少量和零样本设置中执行一系列指令跟随任务的卓越能力。

但是组合大型开放世界任务和跨网络界面的变化对于模型有巨大的挑战。作者通过利用llm将web任务分解为一组子任务来解决这些挑战,每个子任务都可以通过低级闭环策略来解决。

这些策略构成了跨任务的共享语法,也就是说,新的web任务可以表示为这些策略的组合。论文提出了一个新的框架,使用LLM的Web操作的分层策略(HeaP),它从演示中学习一组分层LLM提示,用于规划高级任务并通过一系列低级策略执行它们。

根据一系列web任务(包括miniwob++、WebArena、模拟航空公司CRM以及实时网站交互)的基线对HeaP进行了评估,并表明它能够使用更少的数据来优于先前的工作。

https://avoid.overfit.cn/post/fe5635accd16437aa7b4b6d7f2eea43f

作者:Youssef Hosni

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1093857.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Sigma中的数字增益放大/降低方法

1 是否需要申请加入数字音频系统研究开发交流答疑群(课题组)?加他微信hezkz17, 本群提供音频技术答疑服务

如何快速分析一款产品?

一、何时需要对一个产品进行分析? 首先,当你刚刚融入一个新的产品团队,尤其是当你需要深入了解你将负责的产品时,分析产品就显得尤为重要。这有助于你对产品的全面理解,发现其中的优势和不足,为未来的工作提…

14.5 Socket 应用组播通信

组播通信是一种基于UDP协议的网络通信方式,它允许发送方将消息同时传递给多个接收方。在组播通信中,发送方和接收方都会加入一个共同的组播组,这个组播组对应一个特定的IP地址,所有加入该组播组的主机都能够接收到发送方发送的消息…

C++概述

一、C特色 1.C是面向对象的高级程序设计语言 2.支持数据封装,将数据和对该数据进行操作的函数封装在一个类中,对象就是某一个具体的类。即类是数据封装的工具,对象是数据封装的实现。 3.具有继承性 4.具有函数重载 二、拓展介绍 1.C标准&a…

基于音频SOC开发板的主动降噪ANC算法源码实现

基于音频SOC开发板的主动降噪ANC算法源码实现 是否需要申请加入数字音频系统研究开发交流答疑群(课题组)?可加我微信hezkz17, 本群提供音频技术答疑服务,+群附加赠送降噪开发资料,

IO流:java中解码和编码出现乱码说明及代码实现

IO流:java中解码和编码的代码实现 一、UTF-8和GBK编码方式二、idea和eclipse的默认编码方式三、解码和编码方法四、代码实现编码解码 五、额外知识扩展 一、UTF-8和GBK编码方式 如果采用的是UTF-8的编码方式,那么1个英文字母 占 1个字节,1个…

深度学习-优化算法与梯度下降

文章目录 前置知识指数移动平均EMAL2正则(L2 Regularization)权重衰减(Weight Decay) 优化器SDGMomentumNAGAdagradRMSPropAdaDeltaAdamAdamW综上 学习率StepLRMultiStepLRExponentialCosineAnealingRLROP(ReduceLRonPlateau)lambda总结 前置…

【图像处理】图像配准、图像增强和图像分割研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

网络编程基础知识总结——IP,端口,协议

目录 1. 什么是网络编程? 2. 网络编程的三要素 3. IP 3.1 IP地址的概念 3.2 IP地址的分类 3.3 IPv4解析 3.4 Ipv6解析 4. IPv4 的使用细节 5. 特殊IP地址 4. 端口号 5. 协议 5.1 UDP协议 5.2 TCP协议 1. 什么是网络编程? 总的来说就是一句…

RuntimeWarning: More than 20 figures have been opened

在画图操作结束后使用plt.close(all)语句,但是此时图像仍然不能正常显示,之前是可以正常显示的,然后又在最后的画图的部分添加plt.show()语句,可以正常显示图像并且不再出现警告了。

Android---DVM以及ART对JVM进行优化

Dalvik Dalvik 是 Google 公司自己设计用于 Android 平台的 Java 虚拟机,Android 工程师编写的 Java 或者 Kotlin 代码最终都是在这台虚拟机中被执行的。在 Android 5.0 之前叫作 DVM,5.0 之后改为 ART(Android Runtime)。在整个…

oracle创建数据库,导入dmp操作全家桶

背景:小明在一家IT公司就职,通过查看项目,公司使用的是oracle,几天后,经理要求他从服务器导入数据库到公司服务器,聪明的小明就开始干了起来,整理如下教程。 说明:此次演示环境oracl…

【LeetCode力扣】297. 二叉树的序列化与反序列化

目录 1、题目介绍 2、解题思路 2.1、详细过程图解 2.2、代码描述 2.3、完整代码 1、题目介绍 原题链接:297. 二叉树的序列化与反序列化 - 力扣(LeetCode) 示例 1: 输入:root [1,2,3,null,null,4,5] 输出&#…

代码随想录算法训练营第二十二天丨 二叉树part09

669. 修剪二叉搜索树 思路 递归法 从图中可以看出需要重构二叉树,想想是不是本题就有点复杂了。 其实不用重构那么复杂。 在上图中我们发现节点0并不符合区间要求,那么将节点0的右孩子 节点2 直接赋给 节点3的左孩子就可以了(就是把节点…

mac 移动硬盘推出

最近移动硬盘推出总是出现 磁盘无法推出,因为一个或多个程序正在使用它 的问题 解决办法 首先尽可能关闭所有的应用,然后点击左上角的 点击强制退出,注意其中的预览,这个通常就卡在了这里 然后就可以正常退出了

Python点击exe后报错:Failed to execute script xxxx问题的解决办法

最近工作在弄人脸识别的问题,从gitee来pull了一个但是发现报了一个Failed to execute script XXX的问题 造成这个问题的原因是执行文件exe存放的目录不对,可能在打包前exe文件并不是存在在这个位置。 解决方案将exe文件尝试存在在不同目录下&#xff…

【已解决】No Python at ‘D:\Python\python.exe‘

起因,我把我的python解释器,重新移了个位置,导致我在Pycharm中的爬虫项目启动,结果出现这个问题。 然后,从网上查到了这篇博客: 【已解决】No Python at ‘D:\Python\python.exe‘-CSDN博客 但是,按照上述…

数据结构 - 5(二叉树7000字详解)

一:二叉树的基本概念 1.1树形结构 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。 注意&am…

如何删除错误堆栈里的数据

修改某个主数据。然后发现N年前,某位开发在DTP上做了一个错误堆栈。 这里面有很多历史错误信息,有几千条了,一条条删肯定不可能。 如果不删除,DTP增量无法激活,明天处理链肯定出问题。 于是找到一位印度大神的方法&a…

java劳务外包管理系统springboot+vue

当前,系统开发的技术已经发展成熟,而且通过计算机网络可以获取开发工具的使用方法,以及规范化编写的模块化代码,这些知识可以帮助开发者顺利完成本系统的编码工作。 采用JavaMysql的方式设计制作的劳务外包管理系统,在…