大模型日报｜10 篇必读的大模型论文

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.斯坦福推出大模型网络安全能力和风险评估框架 Cybench

用于网络安全的语言模型智能体（agent）能够自主识别漏洞并执行漏洞利用，有可能对现实世界造成影响。政策制定者、模型提供者以及人工智能（AI）和网络安全界的其他研究人员都对量化此智能体的能力感兴趣，从而帮助减轻网络风险并调查渗透测试的机会。

在这项工作中，来自斯坦福大学的研究团队推出了 Cybench，这是一个用于指定网络安全任务和评估智能体执行这些任务情况的框架。他们从 4 个不同的专业级夺旗（CTF）竞赛中选取了 40 个 CTF 任务，这些任务都是最新的、有意义的，而且难度跨度很大。每个任务都有自己的描述和启动文件，并在一个环境中初始化，在该环境中，智能体可以执行 bash 命令并观察输出结果。由于许多任务超出了现有智能体的能力范围，他们提出了子任务，将任务分解为中间步骤，以便进行更分级的评估；他们为 40 项任务中的 17 项添加了子任务。

为了评估智能体能力，他们构建了一个网络安全智能体，并对 7 个模型进行了评估：GPT-4o、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。在没有指导的情况下，他们发现智能体只能完成最简单的完整任务，而人类团队需要长达 11 分钟才能完成这些任务，其中 Claude 3.5 Sonnet 和 GPT-4o 的成功率最高。最后，与无引导运行相比，子任务为衡量性能提供了更多信号，有子任务引导的模型在完整任务上的成功率比无子任务引导的高出 3.2%。

论文链接：
https://arxiv.org/abs/2408.08926
项目网站：
https://cybench.github.io/

2.LongVILA：长上下文视觉-语言模型全栈解决方案

长上下文能力对于多模态基础模型至关重要。在这项工作中，来自英伟达和麻省理工学院（MIT）提出了长上下文视觉-语言模型的全栈解决方案 LongVILA，包括系统、模型训练和数据集开发。

在系统方面，他们介绍了首个多模态序列并行（MM-SP）系统，该系统可实现长上下文训练和推理，在 256 个 GPU 上实现 200 万上下文长度的训练。MM-SP 的效率也很高，在纯文本设置下，它比 Ring-Style Sequence Parallelism 快 2.1 - 5.7 倍，比 Megatron-LM 快 1.1 - 1.4 倍。此外，它还能与 Hugging Face Transformers 无缝集成。

在模型训练方面，他们提出了包括对齐、预训练、上下文扩展和长-短联合监督微调在内的五阶段管道。

在数据集方面，他们构建了大规模视觉语言预训练数据集和长视频教学跟踪数据集，从而支持多阶段训练过程。

该全栈解决方案将 VILA 的可行帧数扩大了 128 倍（从 8 帧增加到 1024 帧），并将长视频字幕得分从 2.00 提高到 3.26（1.6 倍），在 1400 帧视频（274k 上下文长度）中实现了 99.5% 的准确率。随着视频帧数的增加，LongVILA-8B 在 VideoMME 基准测试中的长视频性能也得到了持续改善。

论文链接：
https://arxiv.org/abs/2408.10188
GitHub 地址：
https://github.com/NVlabs/VILA/blob/main/LongVILA.md

3.Agent Q：自主 AI 智能体的高级推理和学习

大语言模型（LLMs）在需要复杂推理的自然语言任务中表现出了非凡的能力，但将其应用于交互环境中的智能体（agent）、多步骤推理仍是一项艰巨的挑战。

传统的在静态数据集上进行监督预训练的方法无法实现自主智能体能力，而这种能力是在网络导航等动态环境中执行复杂决策所必需的。以往弥补这一差距的尝试—通过对专家论证进行监督微调—往往会受到复合误差和探索数据有限的影响，从而导致次优的政策结果。

为了克服这些挑战，来自 MultiOn 和斯坦福大学的研究团队提出了一个框架，它将蒙特卡洛树搜索（MCTS）与自批评机制相结合，并使用直接偏好优化（DPO）算法的离策略（off-policy）变体对智能体互动进行迭代微调。这一方法允许 LLM 智能体从成功和不成功的轨迹中有效地学习，从而提高它们在复杂的多步骤推理任务中的通用性。

他们在 WebShop 环境（模拟电子商务平台）中验证了这一方法，其性能始终优于行为克隆和强化微调基线，并在具备在线搜索功能时优于人类的平均性能。在真实世界的预订场景中，在一天的数据收集后，这一方法使 Llama-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%（相对提高 340%），在线搜索成功率进一步提高到 95.4%。

论文链接：
https://arxiv.org/abs/2408.07199

4.Meta 推出个性化图像生成模型 Imagine yourself

在这项研究中，Meta 团队提出了 Imagine yourself，这是一种专为个性化图像生成而设计的模型。与传统的基于微调的个性化技术不同，Imagine yourself 是一种免微调模型，所有用户都能利用共享框架，无需进行个性化微调。此外，以往的工作在平衡身份保持、遵循复杂提示和保持良好视觉质量方面遇到了挑战，导致模型具有很强的参考图像复制粘贴效果，很难根据需要对参考图像做出重大改变的提示生成图像，例如改变面部表情、头部和身体姿势，而且生成图像的多样性也很低。

为了解决这些局限性，他们提出的方法包括：1）一种新的合成配对数据生成机制，以鼓励图像多样性；2）一种完全并行的注意力架构，包含三个文本编码器和一个完全可训练的视觉编码器，以提高文本的忠实性；3）一种新颖的从粗到细的多阶段微调方法，逐步推进视觉质量的边界。

研究表明，Imagine yourself 超越了 SOTA 个性化模型，在身份保持、视觉质量和文本对齐方面表现出卓越的能力。人类评估结果证明，与以前的个性化模型相比，该模型在所有方面（身份保持、文本忠实性和视觉吸引力）都具有 SOTA 优势。

论文链接：
https://ai.meta.com/research/publications/imagine-yourself-tuning-free-personalized-image-generation/

5.通用智能体新进展：自动设计，优于 SOTA 人工设计智能体

研究人员正投入大量精力开发功能强大的通用智能体（agent），其中基础模型被用作智能体系统（如思维链、自我反思、工具成型器）中的模块。然而，机器学习的历史告诉我们，人工设计的解决方案最终会被学习的解决方案所取代。

在这项工作中，来自英属哥伦比亚大学的研究团队提出了一个新的研究领域——智能体系统的自动设计（Automated Design of Agentic Systems，ADAS），旨在自动创建功能强大的智能体系统设计，包括发明新的构建模块和/或以新的方式组合它们。

他们进一步证明，ADAS 中有一种尚未开发但前景广阔的方法，即可以用代码定义智能体，并通过元智能体在代码中编写更好的智能体来自动发现新智能体。鉴于编程语言是图灵完备的，这种方法理论上可以学习任何可能的智能体系统：包括新颖的提示、工具使用、控制流及其组合。他们提出了一种名为“元智能体搜索”（Meta Agent Search）的简单而有效的算法来证明这一想法，在这种算法中，元智能体会根据不断增长的先前发现档案对有创新性的新智能体进行迭代编程。

通过跨编码、科学和数学等多个领域的广泛实验，他们发现这一算法可以逐步发明出具有新颖设计的智能体，其性能大大优于 SOTA 人工设计智能体。重要的是，元智能体搜索发明的智能体即使在跨领域和跨模型时也能保持优异的性能，这证明了它们的鲁棒性和通用性。只要我们能安全地开发它，这一工作说明了一个令人兴奋的新研究方向的潜力，即“自动设计出更强大的智能体系统来造福人类”。

论文链接：
https://arxiv.org/abs/2408.08435
项目地址：
https://www.shengranhu.com/ADAS/

6.JPEG-LM：一种新颖的图像、视频生成模型

由于自回归大语言模型（LLM）架构具有通用性，而且很容易集成到多模态系统中，因此最近在图像和视频生成方面的工作一直在采用这种架构。将语言生成中的自回归训练应用于视觉生成的关键在于离散化——将图像和视频等连续数据表示为离散 token。离散化图像和视频的常见方法包括原始像素值建模或矢量量化，前者过于冗长，后者需要复杂的预设训练。

在这项工作中，来自华盛顿大学和 Meta 的研究团队建议将图像和视频直接建模为通过标准编解码器（如 JPEG、AVC/H.264）保存在计算机上的压缩文件。他们使用了 Llama 架构，不做任何针对视觉的修改，通过直接输出 JPEG 和 AVC 格式的压缩文件字节，从头开始预训练 JPEG-LM 来生成图像（作为概念验证，AVC-LM 生成视频）。

对图像生成的评估表明，这种简单直接的方法比基于像素的建模和复杂的矢量量化基线更有效，该方法可将 FID 降低 31%。分析表明，在生成长尾视觉元素方面，JPEG-LM 比矢量量化模型更具优势。总之，该研究表明，使用规范编解码器表示法有助于降低语言生成和视觉生成之间的障碍，从而促进未来对多模态语言/图像/视频 LLM 的研究。

论文链接：
https://arxiv.org/abs/2408.08459

7.生成式蒙太奇拼图

文本到图像模型是创建图像的强大工具。然而，生成过程就像掷骰子一样，很难生成一张能捕捉到用户想要的所有内容的图像。

在这项工作中，来自卡内基梅隆大学和赖赫曼大学的研究团队提出了一个框架，通过合成已生成图像的各个部分来创建所需的图像，其实质就是形成生成式蒙太奇拼图（Generative Photomontage）。对于 ControlNet 使用相同的输入条件和不同的种子生成的一叠图像，他们让用户使用笔触界面从生成的结果中选择所需的部分。他们提出了一种新颖的技术，其能接收用户的笔触，在扩散特征空间中使用基于图的优化方法分割生成的图像，然后通过一种新的特征空间混合方法合成分割区域。这一方法忠实地保留了用户选择的区域，同时将它们合成在一起。

研究证明，这一灵活的框架可用于多种应用，包括生成新的外观组合、修复不正确的形状和人工痕迹，以及改进及时对齐；该方法优于现有的图像混合方法和各种基线。

论文链接：
https://arxiv.org/abs/2408.07116
项目地址：
https://lseancs.github.io/generativephotomontage/

8.清华、智谱AI 团队推出 10000 字长文本输出模型 LongWriter

目前的长上下文大语言模型（LLM）可以处理多达 10 万个 token 的输入，但很难生成长度超过 2000 个 token 的输出。

通过对照实验，来自清华大学和智谱AI 的研究团队发现，模型的有效生成长度受到其在监督微调（SFT）过程中所见样本的内在限制。换句话说，它们的输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。

为了解决这个问题，他们提出了一种基于智能体的管道——AgentWrite，其可以将超长生成任务分解为子任务，使得现有可用的 LLM 能够生成超过 20000 字的连贯输出。利用 AgentWrite，他们构建了 LongWriter-6k，这是一个包含 6000 个 SFT 数据的数据集，输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练，他们成功地将现有模型的输出长度扩展到了 10000 字以上，同时保证了输出质量。

他们还开发了用于评估超长生成能力的综合基准 LongBench-Write。9B 参数模型经过 DPO 的进一步改进，在该基准测试中取得了 SOTA，甚至超过了更大的专有模型。总的来说，这项工作表明，现有的长上下文 LLM 已经具备了更大输出窗口的潜力——只需要在模型对齐过程中提供扩展输出数据，就能释放这种能力。

论文链接：
https://arxiv.org/abs/2408.07055
GitHub 地址：
https://github.com/THUDM/LongWriter

9.谷歌推出文生图模型 Imagen 3

在这项工作中，Google DeepMind 提出了 Imagen 3，这是一种可根据文本提示生成高质量图像的潜在扩散模型。他们介绍了质量和责任评估。在评估时，Imagen 3 优于其他 SOTA 模型。此外，他们还讨论了与安全性和表示有关的问题，以及用来尽量减少模型潜在危害的方法。

论文链接：
https://arxiv.org/abs/2408.07009

10.OpenResearcher：利用人工智能加速科学研究

科学文献的快速增长给研究人员带来了巨大的挑战，他们必须努力了解各自领域的最新进展，并深入研究新的领域。

来自 GAIR lab 的研究团队及其合作者提出了一个利用人工智能（AI）技术加快研究进程的创新平台—— OpenResearcher，其可以回答研究人员提出的各种问题。OpenResearcher 基于检索增强生成（RAG）技术构建，将大语言模型（LLM）与最新的特定领域知识整合在一起。

此外，他们还开发了各种工具，用于理解研究人员的查询、从科学文献中搜索、过滤检索到的信息、提供准确而全面的答案并自我完善这些答案。OpenResearcher 可以灵活使用这些工具，同时兼顾效率和效果。因此，OpenResearcher 使研究人员能够节省时间，提高发现新见解和推动科学突破的潜力。

论文链接：
https://arxiv.org/abs/2408.06941
GitHub 地址：
https://github.com/GAIR-NLP/OpenResearcher