大模型日报｜20 篇必读的大模型论文

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.智谱AI 发布视频大模型 CogVideoX 技术报告

Sora 发布近半年之后，业内仍未出现一个开源的、满足商业级应用需求的视频生成模型。

今天，智谱AI 便推出了首个开源的商用级视频生成模型——CogVideoX 2B。

据介绍，CogVideoX 2B 生成视频长度为 6 秒，帧率为 8 帧/秒，视频分辨率为 720*480，提示词上限为 226 个 token，在 FP-16 精度下的推理仅需 18GB 显存，微调则只需 40GB 显存，这意味着单张 4090 显卡即可进行推理，单张 A6000 显卡即可完成微调。

CogVideoX 应用了基于 Expert Adaptive LayerNorm 的 3D VAE 和 3D Transformer。该模型采用渐进式训练技术，能够生成具有显著运动特征的连贯长时间视频。此外，他们还提出了一套完整的大规模数据处理管道，包括各种数据清理策略和视频重新描述（Re-caption）方法，从而提高了生成质量并改善了语义一致性。最后，CogVideoX 在多个机器指标和人工评估方面都超过了 Pika、Gen-2 和 Open-Sora V1.2。

论文链接：
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

2.OpenAI：无需大量人工，基于规则奖励改善模型安全行为

基于人类偏好的大语言模型（LLM）的强化学习微调已被证明可以提升它们的能力和安全行为。然而，在涉及安全的情况下，如果没有向人类标注者提供精确的指示，收集到的数据可能会导致模型变得过于谨慎，或者以不希望的风格回应，例如带有评判性。此外，随着模型能力和使用模式的发展，可能需要花费大量成本来添加或重新标注数据以修改安全行为。

为此，OpenAI 研究团队推出了一种新颖的偏好建模方法，该方法利用人工智能（AI）反馈，并且只需少量的人类数据。他们基于规则的奖励（RBR），使用一组规则来定义期望或非期望的行为（例如，拒绝不应带有评判性），并结合一个 LLM 评分器。

与之前使用 AI 反馈的方法不同，他们的方法在 RL 训练中直接使用细粒度、可组合的、LLM 评分的少量样本提示作为奖励，从而实现了更大的控制、准确性和易于更新。

他们展示了 RBR 是一种有效的训练方法，其 F1 分数达到 97.1，而人类反馈的基线为 91.7，通过更好地平衡有用性和安全性，显著提高了安全行为准确性。

论文链接：
https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf
GitHub 地址：
https://github.com/openai/safety-rbr-code-and-data

3.Stability AI 推出 Stable Video 4D

Stability AI 研究团队推出了 Stable Video 4D （SV4D），这是一种用于生成多帧和多视角一致的动态 3D 内容的潜在视频扩散模型。与之前依赖单独训练的视频生成和新视角合成的生成模型的方法不同，他们设计了一个统一的扩散模型来生成动态 3D 对象的新视角视频。

具体来说，给定一个单目参考视频，SV4D 为每个视频帧生成时间上的一致的新视角。然后，他们使用生成的新视角视频来高效优化一个隐式的 4D 表示（动态 NeRF），无需在大多数先前工作中使用的繁琐的 SDS 基优化。

为了训练该统一的生成新视角视频模型，他们从现有的 Objaverse 数据集中策划了一个动态 3D 对象数据集。在多个数据集上的广泛实验结果和用户研究证明了 SV4D 在新型视角视频合成以及与先前工作相比的 4D 生成方面的先进性能。

论文链接：
https://arxiv.org/pdf/2407.17470
项目地址：
https://stability.ai/news/stable-video-4d

4.MINT-1T：迄今为止最广泛、最多样的开源多模态交错数据集

多模态交错数据集具有自由形式的图像和文本交错序列，对于训练前沿大型多模态模型（LMM）至关重要。尽管开源 LMM 发展迅速，但大规模、多样化的开源多模态交错数据集仍然非常稀缺。

为此，来自华盛顿大学和 Salesforce 的研究团队及其合作者，推出了迄今为止最广泛、最多样的开源多模态交错数据集——MINT-1T，其包含一万亿个文本 token 和 34 亿张图片，是现有开源数据集的 10 倍。此外，他们还纳入了 PDF 和 ArXiv 论文等以前未开发的资源。

由于扩展多模态交错数据集需要大量的工程努力，因此共享数据整理过程和发布数据集对社区大有裨益。实验表明，在 MINT-1T 上训练的 LMM 的性能可与在之前的领先数据集 OBELICS 上训练的模型相媲美。

论文链接：
https://arxiv.org/abs/2406.11271
GitHub 地址：
https://github.com/mlfoundations/MINT-1T

5.Diffree：通过文本引导实现对象添加的文生图模型

来自厦门大学和上海 AI Lab 的研究团队解决了一个重要问题，即仅通过文本指导为图像添加对象。这是一个挑战，因为新对象必须无缝地融入图像中，并保持一致的视觉背景，如光照、纹理和空间位置。虽然现有的文本引导图像修补方法可以添加对象，但它们要么无法保持背景的一致性，要么需要繁琐的人工干预来指定边界框或用户涂鸦的遮罩。

为此，研究团队推出了 Diffree，这是一个文生图（T2I）模型，它仅通过文本控制就能方便地实现文本引导的对象添加。他们通过使用图像修补技术移除对象，制作了一个合成数据集 OABench。OABench 包含了 74K 个真实世界的元组，包括原始图像、移除对象后的修补图像、对象遮罩和对象描述。

在 OABench 上使用带有额外遮罩预测模块的 Stable Diffusion 模型进行训练后，Diffree 能够独特地预测新对象的位置，并仅通过文本指导实现对象添加。广泛的实验表明，Diffree 在添加新对象方面具有高成功率，同时保持了背景一致性、空间适宜性以及对象的相关性和质量。

论文链接：
https://arxiv.org/abs/2407.16982
GitHub 地址：
https://github.com/OpenGVLab/Diffree

6.OpenDevin：面向 AI 软件开发者的智能体开放平台

得益于大语言模型（LLM）的改进，与周围环境互动并产生影响变化的 AI 智能体（agent）得到了快速发展。

在这项工作中，来自美国伊利诺伊大学香槟分校、卡内基梅隆大学的研究团队及其合作者推出了 OpenDevin，这是一个用于开发强大且灵活的智能体的平台，这些智能体以类似于人类开发者的方式与世界互动：编写代码、与命令行交互以及浏览网页。研究团队描述了该平台如何实现新智能体的创建，与代码执行的沙盒环境的安全交互，多个智能体之间的协调，以及评估基准的整合。

基于他们目前整合的基准，他们对智能体在 15 个挑战性任务上进行了评估，包括软件工程（例如，SWE-BENCH）和网页浏览（例如，WEBARENA）等。

论文链接：
https://arxiv.org/abs/2407.16741
GitHub 地址：
https://github.com/OpenDevin/OpenDevin

7.ViPer：通过个体偏好学习实现生成模型的视觉个性化

不同的用户对于同一提示生成的不同图像有不同的喜好。这引发了个性化的图像生成，即创建与个人视觉偏好相符的图像。然而，当前的生成模型是非个性化的，因为它们被调整为产出吸引广泛受众的输出。使用它们来生成与个人用户喜好对齐的图像依赖于用户迭代的手动提示工程，这是低效且不理想的。

来自瑞士洛桑联邦理工学院研究团队提出通过首先在一次性的过程中捕获用户的通用偏好来个性化图像生成过程，方法是邀请他们对一组小规模图像进行评论，解释他们喜欢或不喜欢每张图像的原因。基于这些评论，研究团队使用大语言模型（LLM）推断出用户结构化的喜欢和不喜欢视觉属性，即他们的视觉偏好。这些属性用于指导文本到图像模型，使其产出调整到个人用户视觉偏好的图像。

通过一系列的用户研究和 LLM 引导的评估，他们证明了所提出的方法能够生成与个人用户视觉偏好高度一致的图像。

论文链接：
https://arxiv.org/abs/2407.17365
项目地址：
https://viper.epfl.ch/

8.利用常识增强语言模型进行多轮响应选择

作为高级人工智能（AI）的一个分支，对话系统正在快速发展。多轮响应选择是对话系统中的一个普遍研究问题。在背景信息和预训练语言模型（PLMs）的帮助下，SOTA 方法在这一问题上的性能得到了显著提高。然而，现有研究忽视了外部常识知识的重要性。

因此，来自清华大学、格里菲斯大学和昆士兰大学的研究团队，将 PLMs 与图神经网络（GNN）结合，设计了一种连体网络——SinLG。SinLG 利用 PLMs 捕捉上下文和候选响应中的关联词，并利用 GNN 从外部知识图谱中推理出有用的常识。GNN 旨在协助 PLM 进行微调，并唤起其相关记忆，以获得更好的性能。

具体来说，他们首先从外部知识图谱中提取相关概念作为节点，构建一个子图谱，将上下文响应对作为每个样本的超级节点；接下来，他们通过 PLM 和 GNN 学习上下文响应对的两种表征，利用两个表征之间的相似性损失，将常识知识从 GNN 转移到 PLM；然后，他们只使用 PLM 进行在线推断，从而保证了效率；最后，他们在 PERSONA-CHAT 数据集的两个变体上进行了大量实验，证明这一解决方案不仅能提高 PLM 的性能，还能实现高效推理。

论文链接：
https://arxiv.org/abs/2407.18479

9.Google DeepMind 提出混合嵌套专家 MoNE

视觉媒介（图像和视频）自然包含大量冗余信息，从而为提高处理效率提供了绝佳机会。虽然基于视觉 Transformer（ViT）的模型能有效地扩展到大型数据环境，但它们无法利用这种固有的冗余，导致计算成本较高。

混合专家（MoE）网络在保持相同推理时间成本的同时，还具有可扩展性，但参数占用空间较大。在这项工作中，Google DeepMind 团队提出了混合嵌套专家（MoNE），它采用嵌套式专家结构，其中单个专家的计算精度曲线呈上升趋势。在计算预算允许的情况下，MoNE 学会按照优先顺序动态选择 token，因此多余的 token 会通过更便宜的嵌套专家来处理。

利用这一框架，他们实现了与基线模型相当的性能，同时将推理时间计算量减少了两倍多。他们在标准图像和视频数据集（ImageNet-21K、Kinetics400 和 Something-Something-v2）上验证了这一方法。他们进一步强调了 MoNE 的适应性，展示了它仅使用一个经过训练的模型就能在不同推理时间计算预算的视频中保持高性能的能力。

论文链接：
https://arxiv.org/abs/2407.19985

10.苹果团队提出大规模多任务智能体理解新基准

大语言模型（LLM）的最新进展增加了对综合基准的需求，以评估其作为类人智能体（agent）的能力。现有的基准虽然有用，但往往侧重于特定的应用场景，强调任务的完成，而未能剖析驱动这些结果的基本技能。由于缺乏精细度，因此很难深入辨别失败的根源。此外，建立这些环境需要耗费大量精力，有时会出现不可靠和可重复性问题，尤其是在交互式任务中。

为了解决这些局限性，来自苹果的研究团队提出了大规模多任务智能体理解（MMAU）基准，其具有全面的离线任务，无需复杂的环境设置。

该基准评估了五个领域的模型，包括工具使用、有向无环图（DAG）QA、数据科学和机器学习编码、竞赛级编程和数学，并涵盖了五种基本能力：理解、推理、规划、解决问题和自我纠正。MMAU 共有 20 个精心设计的任务，包含 3K 多个不同的提示，为评估 LLM 智能体的优势和局限性提供了一个全面的框架。

此外，MMAU 不仅揭示了 LLM 智能体的能力和局限性，还增强了其性能的可解释性。

论文链接：
https://arxiv.org/abs/2407.18961

11.FreeLong：无需额外训练的长视频生成方法

视频扩散模型在各种视频生成应用中取得了重大进展。然而，针对长视频生成任务的模型训练需要大量的计算和数据资源，这给开发长视频扩散模型带来了挑战。

在这项工作中，来自悉尼科技大学和浙江大学的团队研究了一种简单且无需额外训练的方法，以扩展现有的短视频扩散模型（如在 16 帧视频上进行预训练），用于生成一致的长视频（如 128 帧）。初步观察发现，直接应用短视频扩散模型生成长视频会导致严重的视频质量下降。进一步研究发现，这种质量下降主要是由于长视频中高频成分的失真，其特点是空间高频成分减少，时间高频成分增加。

受此启发，他们提出了一种名为 FreeLong 的解决方案，用于在去噪过程中平衡长视频特征的频率分布。FreeLong 融合了包含整个视频序列的全局视频特征的低频成分，以及侧重于较短帧子序列的局部视频特征的高频成分。这种方法在保持全局一致性的同时，还纳入了来自本地视频的各种高质量时空细节，从而提高了长视频生成的一致性和保真度。

他们在多个基础视频扩散模型上对 FreeLong 进行了评估，观察到了显著的改进。此外，这一方法还支持连贯的多提示生成，确保视觉连贯性和场景间的无缝过渡。

论文链接：
https://arxiv.org/abs/2407.19918

12.Apple Intelligence 技术报告

苹果团队介绍了为支持 Apple Intelligence 功能而开发的基础语言模型，包括一个专为在端侧高效运行而设计的约 30 亿参数模型，以及一个专为私有云计算而设计的基于服务器的大语言模型（LLM）。这些模型旨在高效、准确、负责任地执行各种任务。该技术报告介绍了模型架构、用于训练模型的数据、训练过程、如何优化模型推理以及评估结果。另外，苹果团队也强调了他们对负责任人工智能的关注，以及如何在整个模型开发过程中应用这些原则。

论文链接：
https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

13.Google DeepMind 提出扩散增强智能体 DAAG

在这项工作中，Google DeepMind 团队提出了扩散增强智能体（DAAG），这是一种新型框架，它利用大语言模型（LLM）、视觉语言模型（VLM）和扩散模型来提高样本效率，并在强化学习中为具身智能体提供迁移学习。

DAAG 通过使用扩散模型重新标记智能体的过去经验，以时间和几何上一致的方式转换视频，从而与目标指令对齐，使用了一种名为 Hindsight Experience Augmentation 的技术。大语言模型可协调这一自主过程，无需人工监督，因此非常适合终身学习场景。该框架减少了以下工作所需的奖励 token 数据量：1）微调充当奖励检测器的视觉语言模型；2）在新任务中训练 RL 代理。

他们在涉及操纵和导航的模拟机器人环境中演示了 DAAG 的样本效率收益。研究结果表明，DAAG 提高了奖励检测器的学习能力、过去经验的迁移能力和新任务的获取能力——这些都是开发高效终身学习型机器人的关键能力。

论文链接：
https://arxiv.org/abs/2407.20798
项目网站：
https://sites.google.com/view/diffusion-augmented-agents/

14.牛津团队推出医学分割模型 MedSAM-2

在这项工作中，来自牛津大学的研究团队推出了医学版 SAM 2（MedSAM-2），它是一种先进的分割模型，利用 SAM 2 框架解决二维和三维医学图像分割任务。通过采用将医学影像作为视频的理念，MedSAM-2 不仅适用于三维医学影像，还具有新的一次提示（One-prompt）分割能力。用户只需要提供一张或某张针对某个物体的特定图像的提示，模型就能在随后的所有图像中自动分割出相同类型的物体，而无需考虑图像之间的时间关系。

他们对 MedSAM-2 进行了各种医学成像模式的评估，包括腹部器官、视盘、脑肿瘤、甲状腺结节和皮肤病变，并在传统和交互式分割设置中与 SOTA 模型进行了比较。结果表明，MedSAM-2 不仅在性能上超越了现有模型，而且在一系列医学影像分割任务中表现出很好的通用性。

论文链接：
https://arxiv.org/abs/2408.00874
GitHub 地址：
https://github.com/MedicineToken/Medical-SAM2

15.MuChoMusic：评估多模态音频-语言模型中的音乐理解能力

联合处理音频和语言的多模态模型在音频理解方面大有可为，并越来越多地被音乐领域所采用。这些模型允许用户通过文本查询并获取给定音频输入的相关信息，因此有可能通过基于语言的界面完成各种音乐理解任务。然而，这些模型的评估工作面临着相当大的挑战，目前仍不清楚如何利用现有方法有效评估这些模型正确解释音乐相关输入的能力。

受此启发，来自庞培法布拉大学、伦敦玛丽女王大学和环球音乐集团的研究团队推出了 MuChoMusic，这是一个用于评估专注于音频的多模态语言模型音乐理解能力的基准。MuChoMusic 包含 1187 道选择题，所有题目均经过人工标注员验证，涉及 644 首音乐曲目，这些曲目来自两个公开的音乐数据集，涵盖各种类型。该基准中的问题旨在评估多个维度的知识和推理能力，涵盖基本音乐概念及其与文化和功能背景的关系。通过该基准所提供的整体分析，他们对五个开源模型进行了评估，并发现了一些缺陷，包括过度依赖语言模式，这表明需要更好地进行多模态整合。

论文链接：
https://arxiv.org/abs/2408.01337
项目地址：
https://mulab-mir.github.io/muchomusic/

16.Stability AI 推出稳定、快速的 3D 网格重建方法 SF3D

在这项工作中，Stability AI 团队提出了 SF3D，其可以在 0.5 秒内从单张图像快速、高质量地重建纹理物体网格。与大多数现有方法不同，SF3D 经过明确的网格生成训练，采用了快速 UV 解包技术，能够快速生成纹理，而不是依赖顶点颜色。这一方法还能学习预测材料参数和法线贴图，从而提高重建 3D 网格的视觉质量。此外，SF3D 还集成了一个消除低频光照效应的步骤，确保重建的网格能在新的光照条件下轻松使用。实验证明，SF3D 的性能优于现有技术。

论文链接：
https://arxiv.org/abs/2408.00653
项目地址：
https://stable-fast-3d.github.io/

17.微软提出 OmniParser：让大模型更懂你的屏幕截图

尽管大型视觉语言模型展示了驱动在用户界面上运行的智能体系统的潜力，但目前依然缺乏鲁棒的屏幕解析技术，如：1）可靠地识别用户界面中的可交互图标；2）理解屏幕截图中各种元素的语义，并准确地将预期操作与屏幕上的相应区域联系起来。这就使得像 GPT-4V 这样的多模态模型作为跨不同应用的多操作系统通用智能体系统的能力在很大程度上被低估了。

在这项工作中，微软研究团队提出了一种将用户界面截图解析为结构化元素的综合方法——OmniParser，其大大增强了 GPT-4V 生成动作的能力，这些动作可以准确地关联到界面的相应区域。

他们首先利用流行网页和图标描述数据集策划了一个可交互图标检测数据集，然后利用这些数据集对专门模型进行了微调：一个检测模型用于解析屏幕上的可交互区域，另一个说明模型用于提取检测到的元素的功能语义。OmniParser 显著提高了 GPT-4V 在 ScreenSpot 基准测试中的性能。在 Mind2Web 和 AITW 基准测试中，仅输入屏幕截图的 OmniParser 的性能优于需要屏幕截图以外额外信息的 GPT-4V 基线。

论文链接：
https://arxiv.org/abs/2408.00203

18.Meta 发布 Llama 3 技术报告

现代人工智能（AI）系统由基础模型驱动。在这份技术报告中，Meta 详细介绍了一组新的基础模型 Llama 3，它是一个语言模型群，原生支持多语言、编码、推理和工具使用。其中，最大的模型是一个稠密 Transformer，有 405B 个参数，上下文窗口多达 128K 个 token。

该技术报告对 Llama 3 进行了广泛的实证评估。结果显示，在大量任务中，Llama 3 的质量可与 GPT-4 等领先的语言模型相媲美。Meta 公开发布了 Llama 3，包括 405B 参数语言模型的预训练和后训练版本，以及用于输入和输出安全的 Llama Guard 3 模型。该技术报告还介绍了 Meta 通过组合方法将图像、视频和语音功能集成到 Llama 3 中的实验结果，这种方法在图像、视频和语音识别任务上的表现与 SOTA 方法不相上下。由于模型仍在开发中，因此尚未广泛发布。

论文链接：
https://arxiv.org/abs/2407.21783

19.Meta 提出模态感知 MoE 架构 MoMa

MoMa 是一种新颖的模态感知混合专家（MoE）架构，设计用于预训练混合模态的早期融合语言模型。MoMa 通过将专家模块划分为特定模态组来处理任意序列的图像和文本。这些小组专门处理指定的 token，同时在每个小组内采用学习到的路由，以保持语义上的适应性。

实证结果表明，通过这种针对特定模式的参数分配，预训练效率大幅提高。在 1 万亿个 token 的训练预算下，拥有 4 个文本专家和 4 个图像专家的 MoMa 1.4B 模型实现了大幅 FLOPs 节省：与计算量等效的稠密基线相比，按训练前损失计算，总体节省了 3.7 倍，其中文本处理节省了 2.6 倍，图像处理节省了 5.2 倍。这优于使用 8 个混合模态专家的标准专家选择 MoE，后者可节省 3 倍的总 FLOPs（文本节省 3 倍，图像节省 2.8 倍）。将 MoMa 与混合深度（MoD）相结合，可将预训练 FLOPs 节省率进一步提高到 4.2 倍（文本：3.4 倍，图像：5.3 倍），但由于对路由准确性的敏感度提高，这种组合会损害因果推理的性能。

这些结果表明，MoMa 有潜力显著提高混合模态、早期融合语言模型预训练的效率，有助于开发资源效率更高、能力更强的多模态人工智能系统。

论文链接：
https://arxiv.org/abs/2407.21770

20.LawLuo：由 LLM 智能体共同经营的律师事务所

得益于优异的文本理解和生成能力，法律大语言模型（LLM）能够为不具有法律背景的用户提供法律咨询服务。然而，现有的中文法律 LLM 仅单个模型与用户进行对话，这与现实律师事务所中多个员工协作完成一次咨询之间存在差距，从而无法给用户带来真实的咨询体验。此外，现有的中文法律LLM还存在以下问题：（1）缺乏对指令微调数据质量的把控；（2）用户粗糙而模糊的问句加重模型幻觉；（3）多轮对话后的指令遵循能力下降。

因此，来自东北林业大学、马来西亚拉曼大学和石家庄铁道大学的研究团队提出了一个基于 LLM 多智能体协作的法律问答框架——LawLuo。框架内的四个角色智能体——接待员（负责初步接待用户并了解其基本需求）、律师（提供具体的法律建议和解答用户的问题）、秘书（记录和整理咨询过程中的关键信息）以及老板（监督整个咨询过程以确保咨询质量），共同完成一次用户的法律咨询。

此外，他们构建了高质量法律问答数据集 KINLED 和多轮法律咨询数据集 MURLED，并用这两个数据集微调 ChatGLM-3-6b。实验结果表明，LawLuo 在类似律师的语言、法律建议的有用性和法律知识的准确性三个维度上的表现优于包括 GPT-4 在内的基线 LLM。LawLuo 为用户带来了更加真实和专业的法律咨询体验。未来，他们将继续优化该框架，以期进一步提升法律咨询服务的质量和用户体验。

论文链接：
https://arxiv.org/abs/2407.16252
GitHub 地址：
https://github.com/NEFUJing/LawLuo