五一假期后，必读的10篇大模型论文

在这里插入图片描述

1.同时预测多个 token：更好更快的大型语言模型

目前，GPT 和 Llama 等大型语言模型（LLMs）都是通过下一个 token 预测损失来训练的。

在这项工作中，来自 Meta FAIR 的研究团队认为，训练语言模型同时预测多个 token，可以提高采样效率。更具体地说，在训练语料库的每个位置，他们要求在共享模型主干的基础上，使用 n 个独立的输出头预测后面的 n 个 token。将多 token 预测视为一项辅助训练任务，他们测量了代码模型和自然语言模型在无训练时间开销的情况下改进的下游能力。

这种方法对更大的模型规模更加有效，而且在进行多 epochs 训练时仍能保持这种效率。该模型在编码等生成基准方面的优势尤为明显，始终比强基准高出几个百分点。与同类的 next-token 模型相比，他们的 13B 参数模型在 HumanEval 上多解决了 12% 的问题，在 MBPP 上多解决了 17% 的问题。

小型算法任务的实验表明，多 token 预测有利于归纳头和算法推理能力的发展。另外一个好处是，使用 4-token 预测训练的模型即使在大 batch 尺寸情况下，推理速度也能提高 3 倍。

论文链接：
https://arxiv.org/abs/2404.19737

2.InstantFamily：零样本多身份图像生成

目前，在个性化图像生成领域，创建保存概念的图像的能力已大大提高。要创建一幅能将多个概念自然地融合在一起、具有视觉吸引力的图像，依然具有挑战性。

SK Telecom 提出了 InstantFamily —— 采用一种新颖的掩码交叉注意力机制和多模态嵌入堆栈来实现零样本多 ID 图像生成。他们的方法利用预先训练的人脸识别模型中的全局和局部特征与文本条件相结合，从而有效地保留了 ID。

此外，他们的掩码交叉注意力机制能够精确控制生成图像中的多 ID 和组成。实验表明它在生成多 ID 图像方面具有优势，同时解决了多 ID 生成问题。此外，该模型在单 ID 和多 ID 保存方面都达到了 SOTA，该模型在保存 ID 的数量比最初训练时更多的情况下，也表现出了显著的可扩展性。

论文链接：
https://arxiv.org/abs/2404.19427

3.Meta 提出“迭代推理偏好优化”

最近的研究表明，迭代偏好优化方法在一般指令微调任务中表现出色，但在推理任务中通常改善甚微。

Meta 和纽约大学的研究团队开发了一种迭代方法，通过优化导致正确答案的获胜与失败推理步骤，来优化竞争生成的思维链（CoT）候选者之间的偏好。他们使用修改后的 DPO 损失进行训练，并增加了一个负对数似然项。

结果表明，推理能力在该方案的反复迭代中得到了提高。尽管只依赖训练集中的示例，但该方法使 Llama-2-70B-Chat 在 GSM8K 上的准确率从 55.6% 提高到 81.6%（在 32 个样本中使用多数投票的准确率为 88.7%），在 MATH 上的准确率从 12.5% 提高到 20.8%，在 ARC-Challenge 上的准确率从 77.8% 提高到 86.7%，超过了其他不依赖额外数据集的基于 Llama-2 的模型。

论文链接：
https://arxiv.org/abs/2404.19733

4.SPPO：基于自我博弈的大模型对齐方法

传统的人类反馈强化学习（RLHF）方法依赖于 Bradley-Terry 模型等参数模型，无法很好地捕捉人类偏好的不稳定性和不理性。最新进展表明，直接使用偏好概率可以更准确地反映人类偏好，从而实现更灵活、更准确的语言模型对齐。

来自加州大学洛杉矶分校和卡内基梅隆大学的研究团队，提出了一种基于自我博弈的语言模型对齐方法 SPPO，该方法将问题视为一个恒和双人博弈，旨在确定纳什均衡策略。它通过迭代策略更新逼近纳什均衡，并具有理论上的收敛保证。该方法能有效提高被选对策的对数似然，降低被拒对策的对数似然，这一点是直接偏好优化（DPO）和身份偏好优化（IPO）等对称成对损失方法无法实现的。

实验表明，SPPO 仅使用了来自 UltraFeedback 数据集的 60k 个提示（不含回复），并且没有进行任何提示增强，通过利用仅有 0.4B 个参数的预训练偏好模型 PairRM，可以从微调 Mistral-7B-Instruct-v0.2 中获得一个模型，该模型在 AlpacaEval 2.0 上与 GPT-4-Turbo 相比达到了长度控制胜率 SOTA（28.53%）。它在 MT-Bench 和 Open LLM Leaderboard 上的表现也优于（迭代）DPO 和 IPO。值得注意的是，SPPO 的强大性能是在没有 GPT-4 或其他更强大的语言模型的额外外部监督（如偏好等）的情况下实现的。

论文链接：
https://arxiv.org/abs/2405.00675

5.字节、南开团队 StoryDiffusion：提高图像、视频生成的一致性

对于最新的基于扩散的生成模型来说，在生成的一系列图像中保持内容的一致性，尤其是那些包含主题和复杂细节的图像，是一个巨大的挑战。

来自南开大学和字节跳动的研究团队提出了一种新的自注意力计算方式 —— 一致自注意力（Consistent Self-Attention），它能显著提升生成图像之间的一致性，并以零样本的方式增强基于扩散的预训练文本到图像模型。

为了将该方法扩展到长视频生成，他们进一步提出了一个新颖的语义空间时间运动预测模块，名为 “语义运动预测器”（Semantic Motion Predictor）。该模块经过训练，可以估计语义空间中两幅提供图像之间的运动状况。该模块可将生成的图像序列转换为具有平滑过渡和一致主体的视频，尤其是在生成长视频的情况下，其稳定性明显高于仅基于潜空间的模块。

此外，通过合并这两个新颖的组件，框架 StoryDiffusion 可以用包含丰富内容的一致图像或视频来描述基于文本的故事。

论文链接：
https://arxiv.org/abs/2405.01434
GitHub 链接：
https://github.com/HVision-NKU/StoryDiffusion

6.使用“单图像对”定制文本到图像模型

艺术重新诠释是指对参考作品进行变体创作，使配对的艺术作品展现出独特的艺术风格。然而，这样的图像配对能否用于定制生成模型，从而捕捉所展示的风格差异？

来自卡内基梅隆大学和东北大学的研究团队提出了一种新的定制方法 ——配对定制（Pair Customization），它能从单个图像配对中学习风格差异，然后将获得的风格应用到生成过程中。与从图像集合中学习模仿单一概念的现有方法不同，该方法能捕捉配对图像之间的风格差异。这使他们能够应用风格变化，而不会过度适应示例中的特定图像内容。

为了完成这项新任务，他们采用了一种联合优化方法，明确地将风格和内容分离为不同的 LoRA 权重空间。他们对这些风格和内容权重进行优化，从而重现风格和内容图像。

在推理过程中，他们根据学习到的权重，通过新的风格引导来修改扩散过程。定性和定量实验都表明，他们的方法可以有效地学习风格，同时避免过度拟合图像内容，突出了从单个图像对中模拟这种风格差异的潜力。

论文链接：
https://arxiv.org/abs/2405.01536
GitHub 链接：
https://paircustomization.github.io/

7.Meta 新研究：实现语言模型的高效训练

目前，语言模型（LMs）的训练依赖于在海量数据集上进行计算量巨大的训练，这使得训练过程极其费力。来自 Meta FAIR 的研究团队提出了一种新方法，以模型无关的方式对大型无标签 NLP 数据集中的文本质量进行数值评估，为文本实例分配 “质量分数”。

通过提出文本质量度量，他们建立了一个识别和消除低质量文本实例的框架，从而提高了 LM 模型的训练效率。在多个模型和数据集上的实验结果证明了这种方法的有效性，展示了训练效果的大幅提升，并突出了资源节约型 LM 训练的潜力。

例如，在 OpenWebText 数据集上训练时，他们观察到多个 LM 模型在 14 个下游评估任务中的平均绝对准确率提高了 0.9%，同时使用的数据减少了 40%，训练速度提高了 42%；在维基百科数据集上训练时，平均绝对准确率提高了 0.8%，同时使用的数据减少了 20%，训练速度提高了 21%。

论文链接：
https://arxiv.org/abs/2405.01582

8.超越 GPT-4V，清华团队推出具身智能体开放平台

尽管大型语言模型（LLMs）和大型多模态模型（LMMs）取得了进步，但将它们集成到以语言为基础、类似人类的具身智能体中的工作仍未完成，这阻碍了物理环境中复杂现实任务的执行。现有的集成通常以有限的开放源代码为特征，对该领域的整体进步构成了挑战。

来自清华大学、中南大学的研究团队提出了一个开放、可扩展的平台——LEGENT，用于开发使用 LLM 和 LMM 的具身智能体。LEGENT 提供了一种双重方法：一个具有可交流和可操作智能体的丰富交互式 3D 环境，搭配一个用户友好型界面，以及一个利用先进算法的复杂数据生成管道，实现大规模利用来自模拟世界的监督。

实验结果显示，根据 LEGENT 生成的数据训练的视觉-语言-行动模型的雏形，在具身任务中超越了 GPT-4V，展示了良好的泛化能力。

论文链接：
https://arxiv.org/abs/2404.18243
GitHub 地址：
https://github.com/thunlp/LEGENT

9.Cohere提出评测新方法：用多个小模型替代大模型

随着大型语言模型（LLMs）的能力变得越来越强大，业内已经无法对其进行准确的评测。不仅很难找到能充分评测特定模型属性的数据，而且仅评测模型自由形式生成的正确性也是一项挑战。

为了解决这一问题，现有很多评测都依赖于使用 LLM 作为“评委”，对其他 LLM 的输出质量进行评分。最常见的评测方法是使用单一的大模型（如 GPT4）。虽然这种方法越来越受欢迎，但它成本高昂，而且已被证明会引入模型内偏差（intramodel bias）。

在这项工作中，Cohere 团队发现大模型往往是不必要的。他们建议使用 LLM 评测小组（PoLL）来评测模型。通过三种不同的评测设置和六个不同的数据集，他们发现，使用由更多较小模型组成的 PoLL 比使用单一大型评估器的效果更好，由于它由互不关联的模型族组成，因此模型内偏差更小，而且成本要低 7 倍多。

论文链接：
https://arxiv.org/abs/2404.18796

10.Meta推出AdvPrompter，快800倍，生成人类可读对抗性提示

最近，大型语言模型（LLMs）取得了令人瞩目的成就，但它们容易受到某些越狱攻击，导致生成不恰当或有害的内容。

要进行人工红队，就必须找到会导致这种越狱行为的对抗性提示，比如在给定指令上添加后缀，这种方法既低效又耗时。另一方面，自动生成对抗性提示通常会导致无语义攻击，这种攻击很容易被基于易错性的过滤器检测到，可能需要 TargetLLM 的梯度信息，或者由于在 token 空间上的离散优化过程耗时而不能很好地扩展。

在这项研究中，Meta 团队提出了一种新方法——使用一种名为 AdvPrompter 的 LLM 在数秒内生成人类可读的对抗性提示，比现有的基于优化的方法快 800 倍。

他们使用一种无需访问 TargetLLM 梯度的新算法来训练 AdvPrompter。这一过程在以下两个步骤之间交替进行：1）通过优化 AdvPrompter 预测生成高质量的目标对抗后缀；2）利用生成的对抗后缀对 AdvPrompter 进行低等级微调。经过训练的 AdvPrompter 生成的后缀会在不改变输入指令含义的情况下掩盖指令，从而诱使 TargetLLM 做出有害响应。在开源 TargetLLMs 上进行的实验结果表明，AdvBench 数据集上的结果达到了 SOTA，这也适用于闭源 LLM API。

此外，他们还证明，通过在 AdvPrompter 生成的合成数据集上进行微调，可以使 LLM 在保持性能（即高 MMLU 分数）的同时，对越狱攻击具有更强的抵御能力。

论文链接：
https://arxiv.org/abs/2404.16873