大模型周报｜15 篇必读的大模型论文

在这里插入图片描述
大家好，今日必读的大模型论文来啦！

1.谷歌推出风格感知拖放新方法 Magic Insert

来自谷歌的研究团队提出了 Magic Insert，用于以物理上可信的方式将用户提供的图像中的对象拖放到不同风格的目标图像中，同时与目标图像的风格相匹配。

这项工作将风格感知拖放问题形式化，并通过解决两个子问题提出了解决该问题的方法：风格感知个性化和在风格化图像中插入真实对象。在风格感知个性化方面，该方法首先使用 LoRA 和主题图像上的学习文本 token 来微调预训练的文本到图像扩散模型，然后将目标风格的 CLIP 表示法注入其中。在对象插入方面，他们使用 Bootstrapped Domain Adaption（自适应领域模型）来调整特定领域的逼真对象插入模型，从而适应不同艺术风格的领域。总体而言，该方法明显优于传统方法（如 inpainting）。最后，他们也推出了一个数据集 SubjectPlop，从而促进评估和该领域的未来进展。

论文链接：
https://arxiv.org/abs/2407.02489
项目地址：
https://magicinsert.github.io/

2.OMG-LaVA：在单一模型中实现图像级、对象级、像素级的推理与理解

目前的通用分割方法在像素级图像和视频理解方面表现出很强的能力。然而，它们缺乏推理能力，无法通过文本指令进行控制。相比之下，大型视觉语言多模态模型具有强大的基于视觉的对话和推理能力，但缺乏像素级的理解能力，难以接受视觉提示以实现灵活的用户交互。

在这项工作中，来自武汉大学、Skywork AI 和 S-Lab 的研究团队提出了一种将强大像素级视觉理解能力与推理能力结合在一起的框架——OMG-LLaVA。它可以接受各种视觉和文本提示，实现灵活的用户交互。具体来说，他们使用一种通用的分割方法作为视觉编码器，将图像信息、感知先验和视觉提示整合成视觉 token，提供给 LLM。LLM 负责理解用户的文本指示，并根据视觉信息提供文本响应和像素级分割结果。为更好地整合感知先验和图像特征，他们提出了感知先验嵌入技术。OMG-LaVA 在单一模型中实现了图像级、对象级和像素级的推理和理解，在多个基准测试中的性能达到或超过了专业方法。

论文链接：
https://arxiv.org/abs/2406.19389
项目地址：
https://lxtgh.github.io/project/omg_llava/

3.上海 AI Lab 推出长上下文、多功能大型视觉语言模型 IXC-2.5

来自上海 AI Lab 的研究团队及其合作者提出了一个支持长上下文输入和输出的多功能大型视觉语言模型——InternLM-XComposer-2.5（IXC-2.5），其在各种文本图像理解和合成应用中表现出色，只需 7B LLM 后端就能实现 GPT-4V 级别的能力。通过 24K 交错图像-文本上下文的训练，它可以通过 RoPE 外推法无缝扩展到 96K 长上下文。这种长上下文能力使 IXC-2.5 在需要大量输入和输出上下文的任务中表现出色。

与之前的 2.0 版本相比，IXC-2.5 在视觉语言理解方面进行了三大升级：（1）超高分辨率理解，（2）细粒度视频理解，以及（3）多轮多图像对话。除了理解之外，IXC-2.5 还将额外的 LoRA 参数用于文本图像合成：（1）制作网页和（2）撰写高质量的文本图像文章。IXC-2.5 已在 28 个基准上进行了评估，在 16 个基准上优于现有的开源先进模型。在 16 项关键任务上，它还超越了 GPT-4V 和 Gemini Pro，或与之不相上下。

论文链接：
https://arxiv.org/abs/2407.03320
GitHub 地址：
https://github.com/InternLM/InternLM-XComposer

4.上下文抽象学习（ICAL）：实现多模态智能体的持续学习

大语言模型（LLMs）和视觉语言模型（VLMs）在进行决策和指令跟随的少样本上下文学习方面表现出色。然而，它们需要在上下文窗口中包含高质量的示例演示。

那么，LLM 和 VLM 能否从通用的次优演示中生成自己的提示示例？在这项工作中，来自卡内基梅隆大学和 Google DeepMind 的研究团队提出了“上下文抽象学习”（In-Context Abstraction Learning，ICAL），这是一种从次优演示和人类反馈中建立多模态经验洞察记忆的方法。给定一个新领域中的嘈杂演示，VLM 通过修正低效操作和注释认知抽象（任务关系、对象状态变化、时间子目标和任务构想），将轨迹抽象为一个通用程序。当智能体尝试在类似环境中执行轨迹时，这些抽象概念会通过人类反馈进行交互式改进和调整。由此产生的抽象概念在提示中作为范例使用时，可显著提高检索增强型 LLM 和 VLM 代理的决策能力。

在 TEACh 中，ICAL 智能体在基于对话的指令跟随、VisualWebArena 中的多模态网络智能体和 Ego4D 中的行动预测方面都达到了 SOTA。在 TEACh 中，目标条件成功率提高了 12.6%。在 VisualWebArena 中，任务成功率从 14.3% 提高到 22.7%。在 Ego4D 行动预测中，成功率比 GPT-4V 的少样本成功率要高，并且与监督模型相比仍具有竞争力。结果表明，对检索增强型上下文智能体进行微调后，效果会更好。

论文链接：
https://arxiv.org/abs/2406.14596
项目地址：
https://ical-learning.github.io/

5.普林斯顿团队：阻碍智能体实际应用的四大缺点

智能体（agent）是一个令人兴奋的新研究方向，而智能体的发展是由基准（benchmark）驱动的。来自普林斯顿大学的研究团队对当前的智能体基准和评估实践进行了分析，发现了阻碍其在实际应用中发挥作用的几个缺点。

首先，只关注准确性而忽视了其他指标。因此，SOTA 智能体不必要地变得复杂和昂贵，社会各界对准确度提升的来源也得出了错误的结论。他们在关注准确性的同时也关注成本，于是提出了共同优化这两个指标的新目标。他们设计并实现了一个优化方案，显示了其在保持准确性的同时大幅降低成本的潜力。其次，模型开发人员和下游开发人员对基准测试的需求被混为一谈，因此很难确定哪种智能体最适合特定应用。第三，许多智能体基准的保留集（holdout sets）不足，有时甚至根本没有保留集。这就导致了智能体的脆弱性，因为它们会走捷径，以各种方式过度拟合基准。他们提出了一个避免过度拟合的原则性框架。最后，评估实践缺乏标准化，导致普遍缺乏可重复性。

论文链接：
https://arxiv.org/abs/2407.01502

6.首个用于 LM 智能体的树搜索算法

由语言模型（LMs）驱动的智能体在执行决策任务（如网络自动化）的能力方面已显示出良好的前景。然而，一个关键的局限性依然存在：主要为自然语言理解和生成而优化的 LM，在尝试解决现实计算机任务时，在多步推理、规划和使用环境反馈方面仍面临困难。

为了解决这个问题，来自卡内基梅隆大学的研究团队为 LM 智能体提出了一种推理时间搜索算法，以便在交互式网络环境中明确执行探索和多步骤规划。该方法是一种在实际环境空间内运行的最佳优先树搜索形式，与大多数现有的最先进智能体互补。这是第一种用于 LM 智能体的树搜索算法，在现实的网络任务中显示出了有效性。在具有挑战性的 VisualWebArena 基准测试中，在 GPT-4o 智能体的基础上应用该搜索算法，与不使用搜索的相同基准相比，成功率相对提高了 39.7%。在 WebArena 上，搜索也比基线智能体提高了 28.0%，成功率达到 19.2%。该实验凸显了搜索对网络智能体的有效性，并证明了随着测试时间计算量的增加，性能也会随之提高。

论文链接：
https://arxiv.org/abs/2407.01476
项目地址：
https://jykoh.com/search-agents

7.清华团队推出多智能体课堂模拟框架 SimClass

大语言模型（LLM）已被用于各种智能教育任务，从而辅助教学。虽然初步探索主要集中在由 LLM 驱动的独立智能体来完成特定的教育任务，但 LLM 在多智能体协作框架内模拟有真实用户参与的课堂的潜力仍有待开发。

在这项工作中，来自清华大学的研究团队提出了有用户参与的多智能体课堂模拟框架——SimClass。他们识别了具有代表性的班级角色，并为自动课堂教学引入了一种新颖的班级控制机制，还在两门实际课程中进行了用户实验。利用教育分析中的弗兰德斯互动分析系统和探究社区理论框架，他们证明了 LLM 可以有效模拟传统的课堂互动模式，同时增强用户体验。他们还在 SimClass 中观察到了智能体之间出现的群体行为，智能体之间相互协作，在课堂上创造出生动的互动，从而改善用户的学习过程。

论文链接：
https://arxiv.org/abs/2406.19226

8.Agentless：自动解决软件开发问题的无智能体方法

大语言模型（LLM）的最新进展大大推进了软件开发任务的自动化，包括代码合成、程序修复和测试生成。最近，研究人员和行业从业人员开发了各种自主 LLM 智能体，从而执行端到端的软件开发任务。这些智能体具备使用工具、运行命令、观察环境反馈和规划未来行动的能力。然而，这些基于智能体的方法非常复杂，而目前的 LLM 能力有限，这就提出了以下问题：我们真的需要使用复杂的自主软件智能体吗？

为了尝试回答这个问题，来自伊利诺伊大学香槟分校的研究团队提出了一种自动解决软件开发问题的无智能体方法——Agentless。与基于智能体的方法冗长复杂的设置相比，Agentless 采用了一个简单的两阶段过程：先定位，后修复，无需让 LLM 决定未来的行动，也无需使用复杂的工具。

SWE-bench Lite 基准测试结果表明，与现有的所有开源软件智能体相比，Agentless 的性能最高（27.33%），成本最低（0.34 美元）。他们的工作凸显了自主软件开发中一种简单、可解释的技术目前被忽视的潜力。他们希望，Agentless 将有助于重设自主软件智能体的基线、起点和预期，并激励未来沿着这一重要方向开展工作。

论文链接：
https://arxiv.org/abs/2407.01489

9.RouteLLM：动态选择强、弱 LLM，提高成本效益

大语言模型（LLM）在广泛的任务中表现出令人印象深刻的能力，然而在选择使用哪种模型时，往往需要在性能和成本之间做出权衡。功能更强大的模型虽然有效，但成本也更高，而功能较弱的模型则更具成本效益。

为了解决这一难题，来自 UC 伯克利、Anyscale 和 Canva 的研究团队提出了几种高效的路由器模型，在推理过程中动态选择较强和较弱的 LLM，从而在优化成本和响应质量之间取得平衡。他们为这些路由器开发了一个训练框架，利用人类偏好数据和数据增强技术来提高性能。

在广泛认可的基准上进行的评估表明，该方法大大降低了成本，在某些情况下成本降低了 2 倍多，而响应的质量却没有受到影响。有趣的是，这些路由器模型还表现出了显著的迁移学习能力，即使在测试时改变了强模型和弱模型，也能保持其性能。

论文链接：
https://arxiv.org/abs/2406.18665

10.HuatuoGPT-Vision：增强 MLLM 的医学多模态能力

GPT-4V 等多模态大语言模型（MLLM）的快速发展带来了重大进步。然而，这些模型在医疗多模态功能方面仍面临挑战，原因是医疗视觉文本数据的数量和质量受到限制，这源于数据隐私问题和高昂的注释成本。虽然以往的方法利用 PubMed 的大规模、去标识化医学图像-文本对来解决这些限制，但由于固有的数据噪声，这些方法仍有不足之处。

为了解决这个问题，来自深圳市大数据研究院、香港中文大学和 National Health Data Institute 的研究团队从 PubMed 中提炼了医学图像-文本对，并使用 MLLMs（GPT-4V）以“非盲“的方式对数据进行去噪和重新格式化，最终创建了包含 130 万个医学 VQA 样本的 PubMedVision 数据集。

实验结果表明，PubMedVision 可以显著增强当前 MLLM 的医学多模态能力，在包括 MMMU 健康与医学赛道在内的基准测试中表现出明显的改进；医学专家的人工检查和实证结果验证了与其他数据构建方法相比，该数据集具有更高的数据质量。

此外，利用 PubMedVision，他们训练了一个 34B 的医学 MLLM HuatuoGPT-Vision，其在医学多模态场景中表现出了开源 MLLM 的优越性能。

论文链接：
https://arxiv.org/abs/2406.19280
GitHub 地址：
https://github.com/FreedomIntelligence/HuatuoGPT-Vision

11.MIRAI：评估 LLM 智能体的事件预测能力

大语言模型（LLMs）的最新进展使 LLM 智能体（agent）能够自主收集世界信息，并据此进行推理以解决复杂问题。鉴于这种能力，越来越多的人开始关注利用 LLM 智能体预测国际事件，因为这可以影响国际范围内的决策和政策制定。尽管人们的兴趣与日俱增，但对 LLM 智能体的预测能力和可靠性却缺乏严格的基准。

为了填补这一空白，来自加州大学洛杉矶分校、加州理工学院的研究团队推出了一个新颖的基准 MIRAI，旨在系统地评估 LLM 智能体在国际事件中的时间预测能力。他们的基准具有一个智能体环境，该环境中的工具可用于访问广泛的历史、结构化事件和文本新闻文章数据库。他们对 GDELT 事件数据库进行了仔细的清理和解析，以策划一系列具有不同预测范围的关系预测任务，评估 LLM 智能体从短期到长期的预测能力。

他们进一步实施了应用程序接口，使 LLM 智能体能够通过基于代码的接口使用不同的工具。总之，MIRAI 从三个方面全面评估了智能体的能力：1）自主从大型全球数据库中获取并整合关键信息；2）使用特定领域的应用程序接口和工具库编写代码；3）联合推理来自不同格式和时间的历史知识，以准确预测未来事件。

论文链接：
https://arxiv.org/abs/2407.01231
项目地址：
https://mirai-llm.github.io/

12.消除语言模型、视觉-语言模型的位置偏差

位置偏差（Position bias）问题，会导致语言模型（LM）根据内容在给定上下文中的位置确定其优先级。这种偏差往往会导致意想不到的模型故障，并损害各种应用中的性能、鲁棒性和可靠性。

在这项工作中，来自伊利诺伊大学香槟分校、哈佛大学、得克萨斯农工大学的研究团队，将位置偏差归因于几乎所有 SOTA LM 所采用的两个组成部分：因果注意力（causal attention）和相对位置编码（relative positional encodings）。具体来说，他们发现因果注意力通常会导致模型偏向于远处的内容，而相对位置编码（如 RoPE）则偏向于近处的内容。此外，他们对物体检测的实证研究表明，位置偏差也存在于视觉语言模型（VLMs）中。

因此，他们提出了一种无训练零样本的方法来消除不同输入片段顺序（比如，LM-as-a-judge 中的选项，QA 中的检索文档）造成的位置偏差。他们的方法将片段间的因果注意力改为双向注意力，并利用模型注意力值来决定片段的相对顺序，而不是使用输入提示中提供的顺序，因此可以在片段级别实现位置不变推断（PINE）。

通过消除位置偏差，模型在广泛存在位置偏差的下游任务（如 LM-as-a-judge 和 retrieval-augmented QA）中获得了更好的性能和可靠性。值得注意的是，PINE 在调整 LM 以评估推理对时特别有用：它在大多数情况下都能持续提高 8 到 10 个百分点的性能，并使 Llama-3-70B-Instruct 在 RewardBench 推理子集中的表现甚至优于 GPT-4-0125-preview。

论文链接：
https://arxiv.org/abs/2407.01100
GitHub 地址：
https://github.com/wzq016/PINE

13.港大、港中文新研究：检测 Sora 等 AI 生成视频的三大关键

最近，基于扩散的视频生成技术取得了显著进步，但合成视频与真实世界视频之间的差距仍未得到充分探索。

在这项研究中，来自香港大学、香港中文大学的研究团队从外观、运动和几何这三个基本角度研究了这一差距，并将真实世界的视频与 Stable Video Diffusion 生成的视频进行了比较。为此，他们使用三维卷积网络训练了三种分类器，每种分类器都针对不同的方面：视觉基础模型特征用于外观，光流用于运动，单目深度用于几何。每个分类器在假视频检测方面都表现出很强的定性和定量性能。这表明人工智能生成的视频仍然很容易被检测到，而且真实视频和虚假视频之间仍然存在明显差距。

此外，利用 Grad-CAM，他们还指出了人工智能生成的视频在外观、运动和几何方面的系统性失误。最后，他们提出了一个专家集合模型，该模型整合了外观、光流和深度信息，用于假视频检测，从而增强了鲁棒性和泛化能力。即使在训练过程中没有接触到任何 Sora 视频，这一模型也能高精度地检测出由 Sora 生成的视频。这表明，真假视频之间的差距可以在各种视频生成模型中通用。

论文链接：
https://arxiv.org/abs/2406.19568
项目地址：
https://justin-crchang.github.io/3DCNNDetection.github.io/

14.FoleyCrafter：让无声的视频栩栩如生

来自上海 AI Lab 和香港中文大学的研究团队推出了 Neural Foley，其能够自动生成与视频同步的高质量音效，从而实现身临其境的视听体验。

尽管应用范围广泛，但现有方法在同时合成高质量和视频同步（即语义相关和时间同步）的声音时遇到了限制。为了克服这些限制，他们提出了 FoleyCrafter，这是一个新颖的框架，利用预先训练好的文本到音频模型来确保生成高质量的音频。

FoleyCrafter 包括两个关键组件：用于语义对齐的语义适配器和用于精确音视频同步的时序控制器。语义适配器利用并行交叉注意层，根据视频特征调节音频生成，产生与视觉内容语义相关的逼真音效。同时，时间控制器结合了起始检测器和基于时间戳的适配器，从而实现音频和视频的精确对齐。

FoleyCrafter 的一个显著优势是与文本提示兼容，可以根据用户意图使用文本描述来实现可控和多样化的视频音频生成。

论文链接：
https://arxiv.org/abs/2407.01494
项目地址：
https://foleycrafter.github.io/

15.苹果新研究：理解多模态 LLM 中的对齐

偏好对齐已成为提高大语言模型（LLM）性能的重要方法，但其对多模态大语言模型（MLLM）的影响仍未得到充分探索。与语言模型类似，用于图像理解任务的 MLLM 也会遇到幻觉等挑战。在 MLLMs 中，幻觉不仅可能通过陈述错误的事实而产生，也可能通过产生与图像内容不一致的反应而产生。MLLMs 对齐的一个主要目的是鼓励这些模型将响应与图像信息更紧密地结合起来。

最近，有多项研究为 MLLMs 引入了偏好数据集，并研究了不同的对齐方法，包括直接偏好优化（DPO）和近端策略优化（PPO）。然而，由于数据集、基础模型类型和对齐方法的不同，目前仍不清楚哪些具体要素对这些工作中报告的改进效果更有效。

在这项工作中，来自苹果公司的研究团队分析了 MLLM 中偏好对齐的各个方面。首先，他们将对齐算法分为离线（如 DPO）和在线（如 online-DPO）两类，并说明在某些情况下，结合离线和在线方法可以提高模型的性能。他们回顾了各种已发布的多模态偏好数据集，并讨论了其构建细节如何影响模型性能。基于这些见解，他们介绍了一种创建多模态偏好数据的新方法，称为偏差驱动幻觉采样（BDHS），这种方法既不需要额外的注释，也不需要外部模型，并表明它可以在一系列基准中实现与以前发表的多模态模型对齐工作相媲美的性能。

论文链接：
https://arxiv.org/abs/2407.02477