大模型日报｜8 篇必读的大模型论文

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.Pandora：自回归-扩散混合通用世界模型

世界模型模拟世界在不同行动下的未来状态，它们有助于创建交互式内容，并为有依据的长远推理提供基础。然而，目前的基础模型并不能完全满足通用世界模型的能力要求——大语言模型（LLM）由于依赖语言模式和对物理世界的理解有限而受到限制，而视频模型则缺乏对世界模拟的交互式行动控制。

来自 Maitrix、加州大学圣地亚哥分校和 MBZUAI 的研究团队提出了一种自回归-扩散混合模型 Pandora，通过生成视频来模拟世界状态，并允许使用自由文本操作进行实时控制，从而向建立通用世界模型迈出了一步。

Pandora 通过大规模预训练和指令微调实现了领域通用性、视频一致性和可控性。最重要的是，Pandora 通过整合预训练 LLM（7B）和预训练视频模型，绕过了从头开始训练的成本，只需要额外的轻量级微调。他们展示了 Pandora 在不同领域（室内与室外、自然与城市、人类与机器人、2D 与 3D 等）的生成结果。结果表明，通过更大规模的训练，建立更强大的通用世界模型潜力巨大。

论文链接：
https://arxiv.org/abs/2406.09455
项目地址：
https://world-model.maitrix.org/

2.牛津大学新研究：将深度贝叶斯主动学习用于 LLM 偏好建模

近年来，利用人类偏好来引导大语言模型（LLM）的行为已经取得了显著的成功。然而，数据选择和标签仍然是这些系统尤其是在大规模应用中的瓶颈。因此，选择信息量最大的点来获取人类反馈，可以大大降低偏好标签的成本，促进 LLM 的进一步发展。贝叶斯主动学习（Bayesian Active Learning）为此提供了一个原则性框架，并在各种环境中取得了成功。然而，之前将其用于偏好建模的尝试并未达到预期效果。

来自牛津大学的研究团队发现原生（naive）的认识论不确定性估计会导致获取冗余样本。为此，他们提出了一种新颖的随机获取策略——贝叶斯主动学习器偏好建模（BAL-PM），它不仅能根据偏好模型锁定认识不确定性高的点，还能在所采用的 LLM 所跨的特征空间中寻求获取的提示分布熵的最大化。

实验证明，在两个流行的人类偏好数据集中，BAL-PM 所需的偏好标签减少了 33%-68%，超过了以前的随机贝叶斯获取策略。

论文链接：
https://arxiv.org/abs/2406.10023

3.哈佛、牛津团队提出 LLM 数据选择新方法 CoLoR-Filter

选择高质量的数据进行预训练对塑造语言模型的下游任务性能至关重要。确定最佳子集是一项重大挑战，因此需要可扩展的有效启发式方法。来自哈佛大学和牛津大学的研究团队提出了一种数据选择方法 —— 条件损失减少过滤（CoLoR-Filter），利用贝叶斯启发法的经验，基于两个辅助模型的相对损失值，推理出一种简单且计算效率高的选择标准。

除了建模原理外，他们还在两个语言建模任务中对 CoLoR-Filter 进行了实证评估：（1）从 C4 中选择数据，用于在 Books 上进行领域适应性评估；（2）从 C4 中选择数据，用于一套下游选择题回答任务。通过更积极地进行子选择和使用小型辅助模型为大型目标模型选择数据，他们展示出了该方法良好的扩展性。

一个突出的结果是，使用一对 1.5 亿参数的辅助模型选择 CoLoR-Filter 数据，可以训练一个 1.2b 参数的目标模型，使其与在 25b 随机选择的 token 上训练的 1.2b 参数模型相匹配，而 Books 的数据要少 25 倍，下游任务的数据要少 11 倍。

论文链接：
https://arxiv.org/abs/2406.10670
GitHub 地址：
https://github.com/davidbrandfonbrener/color-filter-olmo

4.GAMA：具有高级音频理解和复杂推理能力的大型音频语言模型

感知和理解非语言声音和非语言语音对于做出有助于人类与周围环境互动的决策至关重要。

来自美国马里兰大学和 Adobe 的研究团队提出了具有高级音频理解和复杂推理能力的新型通用大型音频语言模型——GAMA，其通过将 LLM 与多种类型的音频表征（包括来自定制音频 Q-Former 的特征）相集成来构建。Q-Former 是一种多层聚合器，可聚合来自音频编码器多层的特征。

他们在大规模音频语言数据集上对 GAMA 进行了微调，从而增强了它的音频理解能力。他们还提出了一个合成生成的指令微调数据集——复杂音频推理指令微调（CompA-R），其中包含要求模型对输入音频执行复杂推理的指令。他们利用 CompA-R 对 GAMA 进行指令微调，使其具备复杂推理能力，并通过利用输入音频的事件标签，进一步添加软提示作为具有高级语义证据的输入。

最后，他们还提出了一个人工标签的评估数据集 CompA-R-test，用于评估 LALM 在需要复杂推理的开放式音频问题解答方面的能力。通过自动和专家人工评估，他们发现 GAMA 在各种音频理解方面的表现优于文献中的其他大型音频语言模型。

论文链接：
https://arxiv.org/abs/2406.11768
GitHub 地址：
https://sreyan88.github.io/gamaaudio/

5.探索 LLM 在扩散模型提示编码中的作用

与 CLIP 和 T5 系列模型相比，基于纯解码器 transformer 的大语言模型（LLM）已显示出较好的文本理解能力。然而，在文本到图像的扩散模型中利用当前先进的 LLM 的模式仍有待探索。

来自 SenseTime、香港中文大学和上海 AI Lab 的研究团队观察到：直接使用 LLM 作为提示编码器会显著降低图像生成中的提示跟踪能力。他们发现这一问题背后有两个主要障碍：一是 LLM 中的下一个 token 预测训练与扩散模型中对判别提示特征的要求不一致；二是纯解码器架构的内在位置偏差。

为此，他们提出了一个新颖的框架，以充分利用 LLM 的能力。通过精心设计的使用指南，他们有效地增强了提示编码的文本表示能力，并消除了其固有的位置偏差。这使他们能够将先进的 LLM 灵活地集成到文生图像模型中。此外，他们还提供了将多种 LLM 融合到他们的框架中的有效方法。考虑到 transformer 架构所展示的优异性能和扩展能力，他们进一步设计了基于该框架的 LLM 注入扩散 transformer（LI-DiT）。

他们进行了大量实验来验证 LI-DiT 的模型规模和数据规模。得益于 LLMs 的固有能力和他们的创新设计，LI-DiT 的提示理解性能超越了开源模型以及主流闭源商业模型，包括 Stable Diffusion 3、DALL-E 3 和 Midjourney V6。

论文链接：
https://arxiv.org/abs/2406.11831

6.VideoLLM-online：用于流媒体视频的在线视频大语言模型

目前，大语言模型（LLM）已经增强了视觉功能，使其能够理解图像、视频和交错的视觉语言内容。然而，这些大型多模态模型的学习方法通常将视频视为预先确定的片段，使其在处理流媒体视频输入时效率较低。

来自新加坡国立大学和 Meta 的研究团队提出了一种新颖的视频流中学习（LIVE）框架，它可以在连续视频流中实现时间对齐、长上下文和实时对话。他们的 LIVE 框架由实现视频流对话的综合方法组成，包括：（1）旨在为连续流输入执行语言建模的训练目标；（2）将离线时间注释转换为流式对话格式的数据生成方案；（3）在真实世界视频流中加快模型响应速度的优化推理管道。

利用 LIVE 框架，他们在 Llama-2 与 Llama-3 的基础上建立了 VideoLLM-online 模型，并展示了它在处理流视频方面的显著优势。例如，他们的模型可以在 A100 GPU 上以超过 10 FPS 的速度支持 5 分钟视频片段中的流式对话。此外，它还在识别、字幕和预测等公共离线视频基准测试中展示了 SOTA。

论文链接：
https://arxiv.org/abs/2406.11816
GitHub 地址：
https://showlab.github.io/videollm-online/

7.华盛顿大学、苹果等推出 DataComp-LM：寻找下一代语言模型训练集

来自华盛顿大学、苹果、丰田综合研究所、德克萨斯大学奥斯汀分校和特拉维夫大学的研究团队及其合作者，提出了一个以改进语言模型为目标的受控数据集实验平台 DataComp for Language Models（DCLM）。作为 DCLM 的一部分，他们提供了从 Common Crawl 中提取的 240T token 的标准化语料库、基于 OpenLM 框架的有效预训练综合方案以及 53 种下游评估的广泛套件。DCLM 基准的参与者可以在 412M 到 7B 参数的模型规模内尝试重复数据删除、过滤和数据混合等数据整理策略。

作为 DCLM 的基线，他们进行了大量实验，发现基于模型的过滤是组建高质量训练集的关键。由此产生的数据集 DCLM-Baseline 可以从头开始训练一个 7B 参数的语言模型，并在具有 2.6T 训练 token 的 MMLU 上达到 64% 的 5 shot 准确率。与之前的开放数据语言模型 MAP-Neo 相比，DCLM-Baseline 在 MMLU 上提高了 6.6 个百分点，而训练所需的计算量却减少了 40%。他们的基线模型在 MMLU（63% 和 66%）上也可与 Mistral-7B-v0.3 和 Llama 3 8B 相媲美，并且在平均 53 个自然语言理解任务中表现相似，而训练所需的计算量是 Llama 3 8B 的 6.6 倍。他们的研究结果凸显了数据集设计对训练语言模型的重要性，并为进一步研究数据整理提供了一个起点。

论文链接：
https://arxiv.org/abs/2406.11794
GitHub 地址：
https://www.datacomp.ai/dclm/

8.mDPO：多模态大语言模型的条件偏好优化

直接偏好优化（DPO）已被证明是大语言模型（LLM）对齐的有效方法。最近有研究尝试将 DPO 应用于多模态场景，但发现要实现一致的改进具有挑战性。

来自南加州大学、加利福尼亚大学戴维斯分校和微软的研究团队通过对比实验，发现了多模态偏好优化中的无条件偏好问题，即模型忽略了图像条件。为此，他们提出了一种多模态 DPO 目标 ——mDPO，通过同时优化图像偏好来防止仅语言偏好的过度优先化。此外，他们还提出了一个奖励锚，强制所选反应的奖励为正，从而避免其可能性的降低——这是相对偏好优化的一个固有问题。在两个不同规模的多模态 LLM 和三个广泛使用的基准上进行的实验表明，mDPO 有效地解决了多模态偏好优化中的无条件偏好问题，并显著提高了尤其在减少幻觉方面的模型性能。

论文链接：
https://arxiv.org/abs/2406.11839