五一假期后,必读的10篇大模型论文

news2024/9/25 3:19:27

在这里插入图片描述

1.同时预测多个 token:更好更快的大型语言模型

目前,GPT 和 Llama 等大型语言模型(LLMs)都是通过下一个 token 预测损失来训练的。

在这项工作中,来自 Meta FAIR 的研究团队认为,训练语言模型同时预测多个 token,可以提高采样效率。更具体地说,在训练语料库的每个位置,他们要求在共享模型主干的基础上,使用 n 个独立的输出头预测后面的 n 个 token。将多 token 预测视为一项辅助训练任务,他们测量了代码模型和自然语言模型在无训练时间开销的情况下改进的下游能力。

这种方法对更大的模型规模更加有效,而且在进行多 epochs 训练时仍能保持这种效率。该模型在编码等生成基准方面的优势尤为明显,始终比强基准高出几个百分点。与同类的 next-token 模型相比,他们的 13B 参数模型在 HumanEval 上多解决了 12% 的问题,在 MBPP 上多解决了 17% 的问题。

小型算法任务的实验表明,多 token 预测有利于归纳头和算法推理能力的发展。另外一个好处是,使用 4-token 预测训练的模型即使在大 batch 尺寸情况下,推理速度也能提高 3 倍。

论文链接:
https://arxiv.org/abs/2404.19737

2.InstantFamily:零样本多身份图像生成

目前,在个性化图像生成领域,创建保存概念的图像的能力已大大提高。要创建一幅能将多个概念自然地融合在一起、具有视觉吸引力的图像,依然具有挑战性。

SK Telecom 提出了 InstantFamily —— 采用一种新颖的掩码交叉注意力机制和多模态嵌入堆栈来实现零样本多 ID 图像生成。他们的方法利用预先训练的人脸识别模型中的全局和局部特征与文本条件相结合,从而有效地保留了 ID。

此外,他们的掩码交叉注意力机制能够精确控制生成图像中的多 ID 和组成。实验表明它在生成多 ID 图像方面具有优势,同时解决了多 ID 生成问题。此外,该模型在单 ID 和多 ID 保存方面都达到了 SOTA,该模型在保存 ID 的数量比最初训练时更多的情况下,也表现出了显著的可扩展性。

论文链接:
https://arxiv.org/abs/2404.19427

3.Meta 提出“迭代推理偏好优化”

最近的研究表明,迭代偏好优化方法在一般指令微调任务中表现出色,但在推理任务中通常改善甚微。

Meta 和纽约大学的研究团队开发了一种迭代方法,通过优化导致正确答案的获胜与失败推理步骤,来优化竞争生成的思维链(CoT)候选者之间的偏好。他们使用修改后的 DPO 损失进行训练,并增加了一个负对数似然项。

结果表明,推理能力在该方案的反复迭代中得到了提高。尽管只依赖训练集中的示例,但该方法使 Llama-2-70B-Chat 在 GSM8K 上的准确率从 55.6% 提高到 81.6%(在 32 个样本中使用多数投票的准确率为 88.7%),在 MATH 上的准确率从 12.5% 提高到 20.8%,在 ARC-Challenge 上的准确率从 77.8% 提高到 86.7%,超过了其他不依赖额外数据集的基于 Llama-2 的模型。

论文链接:
https://arxiv.org/abs/2404.19733

4.SPPO:基于自我博弈的大模型对齐方法

传统的人类反馈强化学习(RLHF)方法依赖于 Bradley-Terry 模型等参数模型,无法很好地捕捉人类偏好的不稳定性和不理性。最新进展表明,直接使用偏好概率可以更准确地反映人类偏好,从而实现更灵活、更准确的语言模型对齐。

来自加州大学洛杉矶分校和卡内基梅隆大学的研究团队,提出了一种基于自我博弈的语言模型对齐方法 SPPO,该方法将问题视为一个恒和双人博弈,旨在确定纳什均衡策略。它通过迭代策略更新逼近纳什均衡,并具有理论上的收敛保证。该方法能有效提高被选对策的对数似然,降低被拒对策的对数似然,这一点是直接偏好优化(DPO)和身份偏好优化(IPO)等对称成对损失方法无法实现的。

实验表明,SPPO 仅使用了来自 UltraFeedback 数据集的 60k 个提示(不含回复),并且没有进行任何提示增强,通过利用仅有 0.4B 个参数的预训练偏好模型 PairRM,可以从微调 Mistral-7B-Instruct-v0.2 中获得一个模型,该模型在 AlpacaEval 2.0 上与 GPT-4-Turbo 相比达到了长度控制胜率 SOTA(28.53%)。它在 MT-Bench 和 Open LLM Leaderboard 上的表现也优于(迭代)DPO 和 IPO。值得注意的是,SPPO 的强大性能是在没有 GPT-4 或其他更强大的语言模型的额外外部监督(如偏好等)的情况下实现的。

论文链接:
https://arxiv.org/abs/2405.00675

5.字节、南开团队 StoryDiffusion:提高图像、视频生成的一致性

对于最新的基于扩散的生成模型来说,在生成的一系列图像中保持内容的一致性,尤其是那些包含主题和复杂细节的图像,是一个巨大的挑战。

来自南开大学和字节跳动的研究团队提出了一种新的自注意力计算方式 —— 一致自注意力(Consistent Self-Attention),它能显著提升生成图像之间的一致性,并以零样本的方式增强基于扩散的预训练文本到图像模型。

为了将该方法扩展到长视频生成,他们进一步提出了一个新颖的语义空间时间运动预测模块,名为 “语义运动预测器”(Semantic Motion Predictor)。该模块经过训练,可以估计语义空间中两幅提供图像之间的运动状况。该模块可将生成的图像序列转换为具有平滑过渡和一致主体的视频,尤其是在生成长视频的情况下,其稳定性明显高于仅基于潜空间的模块。

此外,通过合并这两个新颖的组件,框架 StoryDiffusion 可以用包含丰富内容的一致图像或视频来描述基于文本的故事。

论文链接:
https://arxiv.org/abs/2405.01434
GitHub 链接:
https://github.com/HVision-NKU/StoryDiffusion

6.使用“单图像对”定制文本到图像模型

艺术重新诠释是指对参考作品进行变体创作,使配对的艺术作品展现出独特的艺术风格。然而,这样的图像配对能否用于定制生成模型,从而捕捉所展示的风格差异?

来自卡内基梅隆大学和东北大学的研究团队提出了一种新的定制方法 ——配对定制(Pair Customization),它能从单个图像配对中学习风格差异,然后将获得的风格应用到生成过程中。与从图像集合中学习模仿单一概念的现有方法不同,该方法能捕捉配对图像之间的风格差异。这使他们能够应用风格变化,而不会过度适应示例中的特定图像内容。

为了完成这项新任务,他们采用了一种联合优化方法,明确地将风格和内容分离为不同的 LoRA 权重空间。他们对这些风格和内容权重进行优化,从而重现风格和内容图像。

在推理过程中,他们根据学习到的权重,通过新的风格引导来修改扩散过程。定性和定量实验都表明,他们的方法可以有效地学习风格,同时避免过度拟合图像内容,突出了从单个图像对中模拟这种风格差异的潜力。

论文链接:
https://arxiv.org/abs/2405.01536
GitHub 链接:
https://paircustomization.github.io/

7.Meta 新研究:实现语言模型的高效训练

目前,语言模型(LMs)的训练依赖于在海量数据集上进行计算量巨大的训练,这使得训练过程极其费力。来自 Meta FAIR 的研究团队提出了一种新方法,以模型无关的方式对大型无标签 NLP 数据集中的文本质量进行数值评估,为文本实例分配 “质量分数”。

通过提出文本质量度量,他们建立了一个识别和消除低质量文本实例的框架,从而提高了 LM 模型的训练效率。在多个模型和数据集上的实验结果证明了这种方法的有效性,展示了训练效果的大幅提升,并突出了资源节约型 LM 训练的潜力。

例如,在 OpenWebText 数据集上训练时,他们观察到多个 LM 模型在 14 个下游评估任务中的平均绝对准确率提高了 0.9%,同时使用的数据减少了 40%,训练速度提高了 42%;在维基百科数据集上训练时,平均绝对准确率提高了 0.8%,同时使用的数据减少了 20%,训练速度提高了 21%。

论文链接:
https://arxiv.org/abs/2405.01582

8.超越 GPT-4V,清华团队推出具身智能体开放平台

尽管大型语言模型(LLMs)和大型多模态模型(LMMs)取得了进步,但将它们集成到以语言为基础、类似人类的具身智能体中的工作仍未完成,这阻碍了物理环境中复杂现实任务的执行。现有的集成通常以有限的开放源代码为特征,对该领域的整体进步构成了挑战。

来自清华大学、中南大学的研究团队提出了一个开放、可扩展的平台——LEGENT,用于开发使用 LLM 和 LMM 的具身智能体。LEGENT 提供了一种双重方法:一个具有可交流和可操作智能体的丰富交互式 3D 环境,搭配一个用户友好型界面,以及一个利用先进算法的复杂数据生成管道,实现大规模利用来自模拟世界的监督。

实验结果显示,根据 LEGENT 生成的数据训练的视觉-语言-行动模型的雏形,在具身任务中超越了 GPT-4V,展示了良好的泛化能力。

论文链接:
https://arxiv.org/abs/2404.18243
GitHub 地址:
https://github.com/thunlp/LEGENT

9.Cohere提出评测新方法:用多个小模型替代大模型

随着大型语言模型(LLMs)的能力变得越来越强大,业内已经无法对其进行准确的评测。不仅很难找到能充分评测特定模型属性的数据,而且仅评测模型自由形式生成的正确性也是一项挑战。

为了解决这一问题,现有很多评测都依赖于使用 LLM 作为“评委”,对其他 LLM 的输出质量进行评分。最常见的评测方法是使用单一的大模型(如 GPT4)。虽然这种方法越来越受欢迎,但它成本高昂,而且已被证明会引入模型内偏差(intramodel bias)。

在这项工作中,Cohere 团队发现大模型往往是不必要的。他们建议使用 LLM 评测小组(PoLL)来评测模型。通过三种不同的评测设置和六个不同的数据集,他们发现,使用由更多较小模型组成的 PoLL 比使用单一大型评估器的效果更好,由于它由互不关联的模型族组成,因此模型内偏差更小,而且成本要低 7 倍多。

论文链接:
https://arxiv.org/abs/2404.18796

10.Meta推出AdvPrompter,快800倍,生成人类可读对抗性提示

最近,大型语言模型(LLMs)取得了令人瞩目的成就,但它们容易受到某些越狱攻击,导致生成不恰当或有害的内容。

要进行人工红队,就必须找到会导致这种越狱行为的对抗性提示,比如在给定指令上添加后缀,这种方法既低效又耗时。另一方面,自动生成对抗性提示通常会导致无语义攻击,这种攻击很容易被基于易错性的过滤器检测到,可能需要 TargetLLM 的梯度信息,或者由于在 token 空间上的离散优化过程耗时而不能很好地扩展。

在这项研究中,Meta 团队提出了一种新方法——使用一种名为 AdvPrompter 的 LLM 在数秒内生成人类可读的对抗性提示,比现有的基于优化的方法快 800 倍。

他们使用一种无需访问 TargetLLM 梯度的新算法来训练 AdvPrompter。这一过程在以下两个步骤之间交替进行:1)通过优化 AdvPrompter 预测生成高质量的目标对抗后缀;2)利用生成的对抗后缀对 AdvPrompter 进行低等级微调。经过训练的 AdvPrompter 生成的后缀会在不改变输入指令含义的情况下掩盖指令,从而诱使 TargetLLM 做出有害响应。在开源 TargetLLMs 上进行的实验结果表明,AdvBench 数据集上的结果达到了 SOTA,这也适用于闭源 LLM API。

此外,他们还证明,通过在 AdvPrompter 生成的合成数据集上进行微调,可以使 LLM 在保持性能(即高 MMLU 分数)的同时,对越狱攻击具有更强的抵御能力。

论文链接:
https://arxiv.org/abs/2404.16873

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1644732.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言】解决不同场景字符串问题:巧妙运用字符串函数

🌈个人主页:是店小二呀 🌈C语言笔记专栏:C语言笔记 🌈C笔记专栏: C笔记 🌈喜欢的诗句:无人扶我青云志 我自踏雪至山巅 文章目录 一、字符函数1.1 字符分类函数1.1.1 islower1.1.2 isupper 1.…

jetbra.zip教程 激活JetBrains全家桶Idea、pyCharm…亲测有效

本教程基于Windows系统 1、下载jetbra.zip 1.1、地址:https://3.jetbra.in/ 1.2、点击随便一个可用站点 1.3、找到左上角蓝色部分,点击下载 1.4、注意软件卡片上右上角支持的版本 1.5、不要关闭网页,留着,要等会用到 2、下载对应…

数据结构===二叉树

文章目录 概要二叉树的概念分类存储遍历前序中序后序 小结 概要 简单写下二叉树都有哪些内容,这篇文章要写什么 二叉树的概念分类,都有哪些二叉树遍历 对一个数据结构,最先入手的都是定义,然后才会有哪些分类,对二叉…

环保设备在线监控系统

随着环保意识的日益提升,对环境污染的监控与管理成为了我们不可忽视的重要任务。在这个背景下,HiWoo Cloud平台凭借其强大的环保设备在线监控系统,为环保事业注入了新的活力,助力我们共同迈向绿色未来。 一、环保设备在线监控系统…

速锐得深入研究比亚迪E5电控系统及BCU数据及DBC控制策略

新能源汽车中比亚迪作为世界品牌的佼佼者,其E5车型凭借出色的电控系统成为了市场上的一颗璀璨明星。比亚迪E5电控系统不仅体现了技术的先进性,更是智能化、高效率的代名词,它如同一位智慧的指挥官,精确地掌控着汽车的每一个动作&a…

iOS 获取相册标题时不显示中文

一、解决方案 设置info.plist中的Localization native development region 为 China即可 二、图片展示

vue3+vite+axios+ElementPlus+ElLoading简易封装

1.安装按需加载element-plus需要的依赖包 pnpm install element-pluspnpm install axios# 按需自动导入 pnpm install -D unplugin-vue-components unplugin-auto-import# 自动导入element-plus样式 pnpm install -D vite-plugin-style-import2.修改jsconfig.json {"com…

[贪心] 区间选点问题

905. 区间选点 - AcWing题库 思路&#xff1a;就是将所有区间按照右端点排序&#xff0c; 然后选取一些区间的右端点 代码&#xff1a; #include <iostream> #include <algorithm> #include <vector> using namespace std; const int N 100010;typedef p…

银行函证工作操作指引

银行函证工作操作指引 根据《关于加快推进银行函证规范化、集约化、数字化建设的通知》&#xff08;财会〔2022〕39号&#xff09;等文件要求&#xff0c;中国注册会计师协会和中国银行业协会制定了《银行函证工作操作指引》&#xff0c;对银行函证工作中的具体事项予以进一步明…

一款AI工作流项目:phidatahq/phidata

一款AI工作流项目&#xff1a;phidatahq/phidata 构建和测试功能强大的 AI 工作流程。该项目提供了一个工作流平台,可以结合大型语言模型(LLM)和各种工具,扩展模型的实用性和应用范围。[1][4][5] 开发各种 AI 助手应用,如客服聊天机器人、数据分析工具、研究助手等。phidata 提…

API接口接入电商平台通过商品链接URL、商品ID抓取淘宝taobao评论数据key接入示例

要接入淘宝taobao评论数据&#xff0c;你需要先注册一个API账号并获取相应的ApiKey和ApiSecret。接下来&#xff0c;你可以使用Python的requests库来调用API接口。 以下是一个示例代码&#xff1a; # coding:utf-8 """ Compatible for python2.x and python3.…

学习笔记:【QC】Android Q - phone 模块

一、phone init 流程图 二、phone MO 流程图 三、phone MT 流程图 四、Log分析(MO_qcril_hal_分析) 1、RILJ请求dial enqueue进队列&#xff0c;QCRIL-hal pop出来处理&#xff0c;最后还是调用qmi_client_send_msg_async发送给modem 11-07 17:29:23.598 2758 2758 D RILJ …

51. 【Android教程】JSON 数据解析

在上一节我们学习了 xml 数据格式&#xff0c;如果你觉得 xml 的数据比较冗余&#xff0c;标签、属性等等定义过于复杂&#xff0c;那么这一节我们将继续学习另一种更精简、更高效的数据格式—— Json。它广泛的运用于数据持久化以及网络传输中&#xff0c;这一节我们一起学习 …

Anaconda删除虚拟环境目录pkgs和envs|conda瘦身

这个文件夹里面是专门放不同环境中的包的&#xff0c;只是没有区分环境&#xff0c;都混在一起了&#xff0c; 一般在想要删除一个虚拟环境&#xff0c;除了在命令行中输入conda remove -n your_env_name(虚拟环境名称) --all 然后在envs中删除虚拟环境的文件夹&#xff0c; 还…

RedHat7端口操作/RedHat7开启和关闭防火墙/RedHat7防火墙常用操作常用命令

1、查看当前那些端口被放行了 firewall-cmd --list-port 2、开放指定端口 firewall-cmd --zonepublic --add-port8000/tcp --permanent 3、关闭指定的端口 firewall-cmd --zonepublic --remove-port3306/tcp --permanent 4、重载防火墙配置&#xff0c;让新加入的端口生效…

CTF-WEB(MISC)

安全攻防知识——CTF之MISC - 知乎 CTF之MISC杂项从入门到放弃_ctf杂项 你的名字-CSDN博客 CTF MICS笔记总结_archpr 掩码攻击-CSDN博客 一、图片隐写 CTF杂项---文件类型识别、分离、合并、隐写_ctf图片分离-CSDN博客 EXIF&#xff08;Exchangeable Image File&#xff09;是…

【学习AI-相关路程-工具使用-自我学习-NVIDIA-cuda-工具安装 (1)】

【学习AI-相关路程-工具使用-自我学习-NVIDIA-cuda &#xff08;1&#xff09;】 1、前言2、环境配置1、对于jetson orin nx 的cuda环境2、对于Ubuntu 20.04下cuda环境 3、自我总结-安装流程1、在ubuntu下&#xff0c;如果想使用cuda平台&#xff0c;应该注意什么 和 都安装什么…

企业开发基础--数据库

今天完成了数据库学习的全部内容&#xff0c;在事务&#xff0c;索引&#xff0c;范式中要有个人逻辑上的理解&#xff0c;也算是卡着点完成了大多数预期&#xff0c;还有一个Java游戏未完成&#xff0c;会后续补上。 之后的一周要完成34道数据库练习题以及JDBC&#xff0c;学…

台式电脑如何找ip地址和端口

随着互联网的深入发展和广泛应用&#xff0c;每台连接到网络的设备都需要一个独特的标识来确保数据传输的准确与高效。对于台式电脑来说&#xff0c;这个标识就是IP地址&#xff0c;而端口则是数据进出的通道。了解如何查找自己台式电脑的IP地址和端口&#xff0c;不仅有助于日…

森林消防泵:守护绿色生命线的无声战士/恒峰智慧科技

在广袤无垠的森林中&#xff0c;生命的绿色如同一块巨大的调色板&#xff0c;为世界增添了无尽的生机与活力。然而&#xff0c;这美丽的画卷也可能因一场突如其来的火灾而瞬间破碎。因此&#xff0c;有一群默默无闻的消防人员&#xff0c;他们配备的是一台台强大的森林消防泵&a…