大模型日报｜16 篇必读的大模型论文

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

清华团队提出歌曲生成模型 SongCreator

虽然此前研究已对歌曲生成的各个方面进行了探索，如歌唱发声、声乐创作和乐器编曲等，但要生成既有歌词又有人声和伴奏的歌曲仍是一项重大挑战，阻碍了音乐生成模型在现实世界中的应用。

有鉴于此，来自清华大学的研究团队及其合作者，提出了一个旨在应对这一挑战的歌曲生成系统 SongCreator。该模型有两个新颖的设计：一个是精心设计的双序列语言模型（DSLM），用于捕捉人声和伴奏信息以生成歌曲；另一个是 DSLM 的附加注意力掩码策略，使模型能够理解、生成和编辑歌曲，从而使其适用于各种与歌曲相关的生成任务。

广泛的实验证明了 SongCreator 的有效性，它在所有八项任务中都取得了 SOTA 或具有竞争力的表现。值得一提的是，它在歌词到歌曲和歌词到人声方面远超过了以前的工作。此外，它还能通过不同的提示独立控制生成歌曲中人声和伴奏的声学条件，显示了其潜在的适用性。

论文链接：
https://arxiv.org/abs/2409.06029
项目地址：
https://songcreator.github.io/

国科大、美团提出视频-音频合成模型 Draw an Audio

音效（Foley），是电影制作中常用的术语，指在无声电影或视频中添加日常音效，从而增强听觉体验。视频到音频（V2A）作为一种特殊的自动音效任务，在视听同步方面面临着固有的挑战。这些挑战包括保持输入视频和生成音频之间的内容一致性，以及视频中时间和响度属性的一致性。

为了解决这些问题，来自中国科学院大学、中国科学院和美团的研究团队构建了一个可控的视频-音频合成模型，称为“Draw an Audio”，该模型通过绘制的掩码和响度信号支持多种输入指令。为确保合成音频与目标视频之间的内容一致性，他们提出了掩码-注意力模块（MAM），该模块采用掩码视频指令，使模型能够关注感兴趣的区域。

另外，他们还实现了时间响度模块（TLM），该模块使用辅助响度信号，确保合成的声音在响度和时间维度上与视频保持一致。此外，他们还通过标注字幕提示扩展了名为 VGGSound-Caption 的大型 V2A 数据集。在两个大规模 V2A 数据集上对具有挑战性的基准进行的广泛实验验证了 Draw an Audio 达到了 SOTA。

论文链接：
https://arxiv.org/abs/2409.06135
项目地址：
https://yannqi.github.io/Draw-an-Audio/

UC 伯克利、MIT 团队：评估人类和图像模型的多视角对象一致性

在这项工作中，来自加州大学伯克利分校和麻省理工学院（MIT）的研究团队提出了一个基准，用于直接评估 3D 形状推断任务中人类观察者与视觉模型之间的一致性。

他们利用认知科学中的一种实验设计，要求对物体形状进行零样本视觉推断：给定一组图像，尽管视角存在很大差异，参与者仍要识别哪些图像包含相同/不同的物体。他们从各种图像中选取了常见物体（如椅子）和抽象形状（即程序生成的“常识”物体）。在构建了 2000 多个独特的图像集后，他们对人类参与者执行了这些任务，收集了来自 500 多名参与者的 35K 次行为数据。其中包括明确的选择行为以及中间测量，如反应时间和注视数据。

然后，他们对常见视觉模型（如 DINOv2、MAE、CLIP）的性能进行了评估。他们发现，人类的表现远远优于所有模型。利用多尺度评估方法，他们发现了模型与人类之间的潜在异同：虽然人类与模型的表现是相关的，但人类在具有挑战性的试验中分配了更多的时间/处理。

论文链接：
https://arxiv.org/abs/2409.05862
项目地址：
https://tzler.github.io/MOCHI/

通过受记忆启发的知识发现实现下一代 RAG

检索增强生成（RAG）利用检索工具访问外部数据库，从而通过优化上下文提高大语言模型（LLM）的生成质量。然而，现有的检索方法受到内在限制，因为它们只能在明确提出的查询和格式化的知识之间进行相关性匹配，而无法处理涉及模糊信息需求或非结构化知识的任务。因此，现有的 RAG 系统主要适用于简单的问题解答任务。

在这项工作中，来自北京智源人工智能研究院和中国人民大学的研究团队提出了一种由长期记忆支持的新型检索增强生成范例——MemoRAG。据介绍，MemoRAG 采用双系统架构。一方面，它采用轻量但长期的 LLM 来形成数据库的全局记忆，一旦提出任务，它就会生成答案草稿，并将检索工具聚类，以便在数据库中找到有用的信息；另一方面，它利用昂贵但具有表现力的 LLM，根据检索到的信息生成最终答案。

在这一总体框架的基础上，他们通过增强聚类机制和记忆能力，进一步优化了 MemoRAG 的性能。在实验中，MemoRAG 在各种评估任务中都取得了优异的性能，包括传统 RAG 失效的复杂任务和 RAG 常用的简单任务。

论文链接：
https://arxiv.org/abs/2409.05591
GitHub 地址：
https://github.com/qhjqhj00/MemoRAG

Robot Utility Models：在新环境中零样本部署机器人模型

机器人模型，特别是那些经过大量数据训练的机器人模型，最近已经在现实世界中展示了足够多的操纵和导航能力。一些独立的研究表明，如果在某一环境中获得足够的训练数据，机器人策略就能适应该环境中的各种变化。然而，需要根据每个新环境对机器人模型进行微调，这与语言或视觉模型形成了鲜明对比。

在这项工作中，来自纽约大学、Hello Robot 和 Meta 的研究团队提出了 Robot Utility Models（RUMs），这是一个用于训练和部署零样本机器人策略的框架，无需任何微调即可直接泛化到新环境中。

为了高效地创建 RUM，他们开发了新的工具来快速收集移动操作任务的数据，通过多模态模仿学习将这些数据整合到策略中，并在机器人 Hello Robot Stretch 上通过外部 mLLM 校验器进行重试，在端侧部署策略。他们针对打开柜门、打开抽屉、捡起餐巾纸、捡起纸袋和调整掉落物体训练了五个实用模型。他们的系统在与未知物体交互的未知新环境中平均成功率达到 90%。

此外，无需进一步的数据、训练或微调，实用模型也能在不同的机器人和摄像头设置中取得成功。他们获得的主要经验包括：训练数据比训练算法和策略类别更重要；关于数据缩放的指导；多样化但高质量演示的必要性；以及机器人自省和重试以提高在个别环境中的性能的秘诀。

论文链接：
https://arxiv.org/abs/2409.05865
项目地址：
https://robotutilitymodels.com/

MMEvol：利用 Evol-Instruct 增强多模态大语言模型

多模态大语言模型（MLLM）的开发取得了重大进展。然而，多模态指令数据的数量和质量已成为制约其发展的重要瓶颈。手动创建多模态指令数据既费时又低效，给制作高复杂度指令带来了挑战。此外，从黑盒商业模型（如 GPT-4o、GPT-4V）中提炼指令数据往往会导致指令数据简单化，从而限制了这些模型的性能。整理多样化和复杂的指令数据仍然是一个巨大的挑战。

来自中国科学院深圳先进技术研究院、阿里巴巴和同济大学的研究团队及其合作者提出了一种多模态指令数据演化框架 MMEvol，其结合了细粒度感知演化、认知推理演化和交互演化。这种迭代方法突破了数据质量瓶颈，生成了复杂多样的图像-文本指令数据集，从而增强了 MLLM 的能力。从初始指令集 SEED-163K 开始，他们利用 MMEvol 系统地扩大了指令类型的多样性，整合了推理步骤以增强认知能力，并从图像中提取详细信息以提高视觉理解能力和鲁棒性。

为了全面评估数据的有效性，他们使用演化数据训练 LLaVA-NeXT，并在 13 个视觉语言任务中进行了实验。与使用种子数据训练的基线相比，这一方法实现了 3.1 分的平均准确率提升，并在其中 9 项任务上达到了 SOTA。

论文链接：
https://arxiv.org/abs/2409.05840

教程：成像与视觉扩散模型

近年来，生成工具取得了惊人的发展，在文本到图像生成和文本到视频生成方面产生了许多令人兴奋的应用。这些生成工具背后的基本原理是扩散概念，这是一种特殊的采样机制，它克服了以往方法难以克服的一些缺点。在本教程中，来自普渡大学的 Stanley Chan 讨论了扩散模型的基本思想，目标受众包括有兴趣从事扩散模型研究或应用这些模型解决其他问题的本科生和研究生。

论文链接：
https://arxiv.org/abs/2403.18103

药物发现和研发中的大语言模型：从疾病机理到临床试验

大语言模型（LLMs）融入药物发现和研发领域标志着模式的重大转变，为理解疾病机制、促进药物发现和优化临床试验过程提供了新方法。

在这一综述中，来自莫纳什大学、格里菲斯大学和哈佛医学院的研究团队，强调了 LLM 在彻底改变药物研发流水线各个阶段中不断扩大的作用。他们研究了这些先进的计算模型如何揭示靶点与疾病的联系、解释复杂的生物医学数据、增强药物分子设计、预测药物疗效和安全性以及促进临床试验过程。该综述旨在为计算生物学、药理学和 AI4Science 领域的研究人员和从业人员提供一个全面的概述，深入探讨 LLM 对药物发现和研发的潜在变革性影响。

论文链接：
https://arxiv.org/abs/2409.04481

Elsevier Arena：化学/生物/健康基础大语言模型的人类评估

大语言模型的质量和能力目前无法通过自动化基准评估进行全面评估。相反，需要对自然语言生成文献中的传统定性技术进行扩展的人工评估。最近的一种做法是使用 A/B 测试框架，该框架可捕捉人类评估者对特定模型的偏好。

在这项工作中，来自爱思唯尔（Elsevier）的研究团队介绍了一项关注生物医学领域（健康、生物、化学/药理学）的人类评估实验。他们将在一个相对较小（1.35 亿个 token）但高度精选的爱思唯尔数据集上训练的大型但并不庞大（88 亿个参数）的纯解码器基础 transformer 与 OpenAI 的 GPT-3.5-turbo 和 Meta 的基础 7B 参数 Llama 2 模型进行了多标准比较。

结果表明，即使 IRR 分数普遍较低，人们更倾向于 GPT-3.5-turbo，因此也更倾向于具有对话能力、规模非常大且在非常大的数据集上训练过的模型。但同时也表明，对于规模较小的模型来说，在规模较小但经过精心筛选的训练集上进行训练有可能在生物医学领域产生可行的替代方案。

论文链接：
https://arxiv.org/abs/2409.05486

Google DeepMind：通过可扩展逆强化学习模仿语言

大多数语言模型训练都建立在模仿学习的基础上。它包括预训练、监督微调，并影响基于人类反馈的强化学习（RLHF）的起始条件。用于下一个 token 预测的最大似然估计（MLE）具有简便性和可扩展性，因此成为主要范例。然而，更广泛的模仿学习领域可以更有效地利用自回归生成的序列结构。

在这项研究中，来自 Google DeepMind 的研究团队重点研究了从逆强化学习（IRL）的角度进行模仿，提取奖励并直接优化序列而不是单个 token 似然，并评估其对微调大语言模型的益处。他们提供了一个新的视角，将逆 soft-Q-learning 重新表述为 MLE 的时差正则化扩展。这就在 MLE 和 IRL 之间建立了原则性的联系，并允许在监督微调（SFT）设置中通过提高性能和世代多样性来权衡增加的复杂性。

他们发现基于 IRL 的模仿具有明显的优势，特别是在最大化任务性能的同时保留了多样性，这使得 IRL 成为固定 SFT 数据集的有力替代方案，即使没有在线数据生成也是如此。他们对 IRL 提取的奖励函数的分析进一步表明，通过更紧密地整合监督和基于偏好的 LLM 后期训练，可以获得更鲁棒的奖励函数。

论文链接：
https://arxiv.org/abs/2409.01369

斯坦福团队：首次NLP专家和LLM智能体创意比较

大语言模型（LLM）的最新进展引发了人们对其加速科学发现潜力的乐观情绪，越来越多的工作提出了可自主生成和验证新想法的研究智能体。尽管如此，还没有任何评估表明 LLM 系统能够迈出产生专家级新想法的第一步，更不用说执行整个研究过程。

为了解决这个问题，来自斯坦福大学的研究团队提出了一个实验设计，在控制混杂因素的同时评估研究创意的生成，并首次在 NLP 专家研究人员和 LLM 创意智能体之间进行比较。通过招募 100 多名 NLP 研究人员撰写新颖的想法，并对 LLM 和人类想法进行盲审，他们首次就当前 LLM 在研究构思方面的能力得出了具有统计学意义的结论：LLM 生成的想法比人类专家的想法更新颖（p < 0.05），而在可行性方面则略逊一筹。

通过仔细研究智能体基线，他们发现了在构建和评估研究智能体方面还存在一些问题，包括 LLM 自评估的失败以及它们在生成过程中缺乏多样性。最后，他们认识到，即使是专家也很难对新颖性做出人类判断，因此他们提出了一种端到端的研究设计，招募研究人员将这些想法转化为完整的项目，从而使他们能够研究这些新颖性和可行性判断是否会导致研究成果出现有意义的差异。

论文链接：
https://arxiv.org/abs/2409.04109

MIT团队提出SciAgents，实现科学发现自动化

人工智能（AI）领域的一个关键挑战是创建能够通过探索新领域、识别复杂模式以及在庞大的科学数据中发现以前从未见过的联系来自主推进科学理解的系统。

在这项工作中，来自麻省理工学院（MIT）的研究团队提出了科学智能体（SciAgents）这一方法，它利用了三个核心概念：（1）使用大规模本体知识图谱来组织和连接不同的科学概念；（2）一套大语言模型（LLM）和数据检索工具；以及（3）具有本地学习能力的多 agent 系统。

应用于受生物启发的材料，SciAgents 能够揭示隐藏的跨学科关系，而这些关系以前被认为是不相关的，其规模、精确度和探索能力超越了传统的人工驱动研究方法。该框架可自主生成和完善研究假设，阐明潜在机制、设计原理和意想不到的材料特性。通过以模块化的方式整合这些功能，该智能系统可以产生材料发现、批判和改进现有假设、检索有关现有研究的最新数据，并突出其优势和局限性。

案例研究展示了将生成式 AI、本体表征和多 agent 建模相结合的可扩展能力，利用了类似于生物系统的“智能群”。这为材料发现提供了新途径，并通过发掘大自然的设计原理加速了先进材料的开发。

论文链接：
https://arxiv.org/abs/2409.05556

清华团队推出可配置基础模型：从模块化角度构建 LLM

由于大语言模型（LLM）需要大量参数，其计算效率和持续可扩展性面临挑战，这使得这些模型在计算资源有限的设备和需要各种能力的场景中的应用和演进变得日益繁琐。受人脑模块化的启发，越来越多的人倾向于将 LLM 分解为众多功能模块，允许使用部分模块进行推理，并动态组装模块以处理复杂任务，如混合专家（MoE）。

为了突出模块化方法的内在效率和可组合性，来自清华大学的研究团队及其合作者创造了一个术语 “砖块”（brick）来表示每个功能模块，并将模块化结构指定为可配置的基础模型。在这项工作中，他们对可配置基础模型的构建、利用和限制进行了全面的概述和研究。他们首先将模块形式化，分为突发模块（在预训练阶段出现的功能神经元分区）和定制模块（通过额外的后训练构建的模块，以提高 LLM 的能力和知识）。基于不同的功能砖，他们进一步提出了四种面向砖的操作：检索和路由、合并、更新和增长。这些操作允许根据指令动态配置 LLM，以处理复杂任务。

为了验证他们的观点，他们对广泛使用的 LLM 进行了实证分析。他们发现，FFN 层遵循神经元功能特化和功能神经元分区的模块化模式。最后，他们强调了几个有待解决的问题和未来的研究方向。总之，该研究旨在为现有的 LLM 研究提供一个全新的模块化视角，并为未来创建更高效、更可扩展的基础模型提供启发。

论文链接：
https://arxiv.org/abs/2409.02877

你的代码 LLM 性能如何？利用高质量数据进行代码指令微调

最近，人们对研究如何构建更好的代码指令微调数据越来越感兴趣。然而，来自北京邮电大学、美团的研究团队发现，使用这些数据集训练的代码模型在 HumanEval 上表现出很高的性能，但在 LiveCodeBench 等其他基准测试中表现较差。经过进一步调查，他们发现许多数据集存在严重的数据泄露问题。在清理了大部分泄漏数据后，一些著名的高质量数据集的性能仍然很差。这一发现揭示了一个新的挑战：识别哪些数据集真正符合高质量代码指令数据的要求。

为了解决这个问题，他们提出了一种高效的代码数据剪枝策略，用于选择优质样本。他们的方法基于三个维度：指令复杂性、响应质量和指令多样性。基于他们选择的数据，他们提出了 XCoder，一个从大语言模型（LLM）LLaMA3 微调的模型系列。

他们的实验表明，XCoder 使用较少的训练数据就取得了新的一流性能，这验证了他们数据策略的有效性。此外，他们还对数据组成进行了全面分析，发现现有代码数据集的构建方法各不相同，这为未来的代码 LLM 提供了新的启示。

论文链接：
https://arxiv.org/abs/2409.03810
GitHub 地址：
https://github.com/banksy23/XCoder

Qihoo-T2X：通过代理token实现文本到任意任务的高效扩散Transformer

由于视觉信息的稀疏性和冗余性，扩散Transformer中的全局自我注意机制涉及冗余计算，而空间窗口内令牌的注意图显示出显著的相似性。

为了解决这一冗余问题，来自中山大学、 360 AI Research 的研究团队提出了代理token扩散Transformer（PT-DiT），它采用稀疏的代表token注意力（代表token的数量远小于token总数）来高效地模拟全局视觉信息。具体来说，在每个Transformer区块中，他们从每个时空窗口中随机抽取一个token作为该区域的代表token。全局语义通过这些代理token的自注意力来捕捉，然后通过交叉注意力注入到所有潜在token中。

与此同时，他们还引入了窗口注意力和移动窗口注意力，以解决稀疏注意力机制在细节建模方面的局限性。在精心设计的 PT-DiT 基础上，他们进一步开发了 Qihoo-T2X 系列，其中包括 T2I、T2V 和 T2MV 任务的各种模型。实验结果表明，PT-DiT 在降低图像和视频生成任务计算复杂度的同时，实现了极具竞争力的性能（例如，与 DiT 相比降低了 48%，与 Pixart-alpha 相比降低了 35%）。

论文链接
https://arxiv.org/abs/2409.04005
GitHub 地址：
https://github.com/360CVGroup/Qihoo-T2X

UC 伯克利、斯坦福团队提出表格增强生成 TAG

通过数据库为自然语言问题提供服务的人工智能（AI）系统有望释放出巨大的价值。此类系统可让用户利用语言模型（LM）的推理和知识能力，以及数据管理系统的可扩展计算能力。这些综合能力将使用户能够通过自定义数据源提出任意的自然语言问题。

然而，现有方法和基准并没有充分探索这种设置。Text2SQL 方法只关注可以用关系代数表达的自然语言问题，只代表了真实用户希望提出的问题的一小部分。同样，检索增强生成（RAG）考虑的是可以通过对数据库中的一条或几条数据记录进行点查询来回答的有限查询子集。

在这项工作中，来自加州大学伯克利分校和斯坦福大学的研究团队提出了表格增强生成（Table-Augmented Generation，TAG），这是一种统一的通用范式，用于回答数据库中的自然语言问题。TAG 模型代表了以前未曾探索过的 LM 与数据库之间的广泛交互，为利用 LM 的世界知识和数据推理能力创造了巨大的研究机会。他们系统地开发了研究 TAG 问题的基准，发现标准方法只能正确回答不超过 20% 的查询，这证明了在这一领域开展进一步研究的必要性。

论文链接：
https://arxiv.org/abs/2408.14717
GitHub 地址：
https://github.com/TAG-Research/TAG-Bench