大模型日报｜今日必读的 8 篇大模型论文

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.清华、智谱AI 团队推出代码评测基准 NaturalCodeBench

大型语言模型（LLM）在为生产活动生成代码方面表现出强大的能力。然而，目前的代码合成基准，如 HumanEval、MBPP 和 DS-1000，主要面向算法和数据科学的入门任务，不能充分满足现实世界中普遍存在的编码挑战要求。

为了填补这一空白，来自清华大学和智谱AI 的研究团队提出了自然代码基准（NaturalCodeBench，简称 NCB），这是一个具有挑战性的代码基准，旨在反映真实编码任务的复杂性和场景的多样性。

据介绍，NCB 由 402 个 Python 和 Java 中的高质量问题组成，这些问题都是从在线编码服务的自然用户查询中精心挑选出来的，涵盖 6 个不同的领域。考虑到为真实世界的查询创建测试用例异常困难，他们还提出了一个半自动化管道，从而提高测试用例构建的效率。与人工解决方案相比，其效率提高了 4 倍多。

他们在 39 个 LLM 上进行的系统实验发现，HumanEval 分数接近的模型之间在 NCB 上的性能差距仍然很大，这表明我们对实际代码合成场景缺乏关注，或者对 HumanEval 进行了过度优化。另一方面，即使是性能最好的 GPT-4 在 NCB 上的表现也远远不能令人满意。

论文链接：
https://arxiv.org/abs/2405.04520
GitHub 地址：
https://github.com/THUDM/NaturalCodeBench

2.“文生视频”新研究：多场景文生视频的时间对齐字幕

文生视频（T2V）模型可以在文本提示的条件下生成高质量的视频。这些 T2V 模型通常产生单场景视频片段，描述执行特定动作的实体（比如，一只小熊猫爬树）。然而，生成多场景视频是非常重要的，因为它们在现实世界中无处不在（比如，一只小熊猫爬上树，然后睡在树顶上）。

为了从预训练的 T2V 模型生成多场景视频，来自加州大学洛杉矶分校和谷歌的研究团队提出了时间对齐字幕（TALC）框架，增强了 T2V 模型中的文本条件作用机制，从而识别视频场景和场景描述之间的时间对齐。例如，他们用第一个场景描述（一只小熊猫在爬树）和第二个场景描述（小熊猫睡在树顶上）的表示对生成视频的早期和后期场景的视觉特征进行条件约束。T2V 模型可以生成符合多场景文本描述的多场景视频，并在视觉上保持一致（如实体和背景）。

此外，他们使用 TALC 框架用多场景视频-文本数据对预训练的 T2V 模型进行微调。研究表明，用 TALC 微调的模型在总分数上比基线方法高出 15.5 分。

论文链接：
https://arxiv.org/abs/2405.04682
GitHub 地址：
https://talc-mst2v.github.io/

3.StyleMamba：高效文本驱动图像风格迁移的状态空间模型

来自帝国理工学院、芬兰奥卢理工大学和戴尔的研究团队提出了一种有效的图像风格迁移框架——StyleMamba，其能够将文本提示翻译为相应的视觉风格，同时保留原始图像的内容完整性。

现有的文本引导样式化需要数百次训练迭代，并且需要大量的计算资源。为加快这一过程，他们提出了一种条件状态空间模型 StyleMamba，用于有效的文本驱动图像风格迁移，按顺序将图像特征与目标文本提示对齐。为了增强文本和图像之间的局部和全局风格一致性，他们提出了掩码和二阶方向损失来优化风格化方向，将训练迭代次数显著减少5次，推理时间显著减少3次。

广泛的实验和定性评估证实，与现有的基线相比，所提出方法达到了 SOTA。

论文链接：
https://arxiv.org/abs/2405.05027

4.注意力驱动的无训练扩散模型效率提升

扩散模型（DMs）在生成高质量和多样化的图像方面表现出优越的性能。

然而，这种卓越的性能以昂贵的架构设计为代价，特别是在领先模型中大量使用了 attention 模块。现有工作主要采用再训练流程来提高数据挖掘效率。这在计算上是昂贵的，且不太可扩展。

为此，来自普林斯顿大学和 Adobe 的研究团队提出了注意力驱动的免训练高校扩散模型（AT-EDM）框架，其利用注意力图来执行冗余 Token 的运行时修剪，而不需要任何再训练。具体来说，对于单步去噪修剪，他们开发了一种新的排序算法—— 通用加权页面排序（G-WPR），从而识别冗余的 Token，以及一种基于相似性的方法去恢复卷积操作的 Token。此外，他们还提出了一种去噪步骤感知的剪枝（DSAP）方法，来调整不同去噪时间步的剪枝预算，从而获得更好的生成质量。

广泛的评估表明，AT-EDM 在效率方面优于现有技术（例如，与 Stable Diffusion XL 相比，节省了 38.8% 的 FLOPs 和高达 1.53 倍的加速），同时保持与完整模型几乎相同的 FID 和 CLIP 分数。

论文链接：
https://arxiv.org/abs/2405.05252
GitHub 地址：
https://atedm.github.io/

5.VisionGraph：利用大型多模态模型解决视觉背景下的图论问题

大型多模态模型（LMM）在视觉理解和推理方面取得了令人瞩目的成就，显著提高了视觉背景下的数学推理能力。然而，多模态图论问题是一种极具挑战性的视觉数学类型，它要求大型多模态模型准确理解图形结构，并对视觉图形进行多步推理。此外，探索多模态图论问题将为生物、交通和机器人规划等领域带来更有效的策略。

为了朝这个方向迈进，来自哈尔滨工业大学和中山大学的研究团队，首次设计了一个名为 VisionGraph 的基准，用于探索高级 LMM 解决多模态图论问题的能力。从连通性问题到最短路径问题，这一基准包括八个复杂的图问题任务。随后，他们提出了描述-程序-推理（DPR）链，通过图形结构描述生成和算法感知多步推理来提高推理过程的逻辑准确性。

大量研究表明：1）GPT-4V 在多步图推理方面优于 Gemini Pro；2）无论是在零/少样本设置还是在有监督微调（SFT）的情况下，所有 LMM 对图形结构的感知精度都较差，这进一步影响了解决问题的性能；3）DPR 显著提高了 LMM 的多步图推理能力，GPT-4V（DPR）智能体实现了 SOTA 性能。

论文链接：
https://arxiv.org/abs/2405.04950

6.综述：用于网络安全的大型语言模型

随着网络威胁的数量和复杂程度不断增加，人们越来越需要能够自动检测漏洞、分析恶意软件和应对攻击的智能系统。

在这项工作中，来自华中科技大学的研究团队及其合作者，对网络安全领域应用 LLM（LLM4Security）的文献进行了全面回顾。通过全面收集 3万多篇相关论文，并系统分析来自顶级安全和软件工程领域的 127 篇论文，他们旨在提供一个整体视图，说明 LLM 如何用于解决网络安全领域的各种问题。

通过分析，他们得到了几个重要发现。首先，LLM 被广泛应用于各种网络安全任务，包括漏洞检测、恶意软件分析、网络入侵检测和网络钓鱼检测；其次，在这些任务中用于训练和评估 LLM 的数据集在规模和多样性上往往有限，这突出表明需要更全面和更具代表性的数据集；第三，他们发现了几种将 LLMs 用于特定网络安全领域的可行技术，如微调、迁移学习和特定领域的预训练；最后，他们讨论了 LLM4Security 未来研究的主要挑战和机遇，包括需要更多可解释和可说明的模型、解决数据隐私和安全问题的重要性，以及利用 LLMs 进行主动防御和威胁捕猎的潜力。

论文链接：
https://arxiv.org/abs/2405.04760

7.AWS 团队提出基于目标的幻觉基准 THRONE

在大型视觉语言模型（LVLM）中减少幻觉仍然是一个未解决的问题。目前的基准并没有解决开放式自由回答中的幻觉问题，即“第一类幻觉”，相反，其关注的是对非常具体的问题格式做出反应的幻觉——通常是关于特定对象或属性的多项选择反应——即“第二类幻觉”。此外，此类基准通常需要外部 API 调用模型，而这些模型可能会发生变化。

在实践中，来自 AWS 和牛津大学的研究团队发现，减少第二类幻觉并不会导致第一类幻觉的减少，相反，这两种形式的幻觉往往互不相关。为了解决这个问题，他们提出了 THRONE，这是一个基于对象的新型自动框架，用于定量评估 LVLM 自由形式输出中的第一类幻觉。

他们使用公共语言模型来识别 LVLM 反应中的幻觉，并计算相关指标。通过使用公共数据集对大量最新的 LVLM 进行评估，他们发现，现有指标的改进并不会导致第一类幻觉的减少，而且现有的第一类幻觉测量基准并不完整。最后，他们提供了一种简单有效的数据增强方法，从而减少第一类和第二类幻觉，并以此作为强有力的基准。

论文链接：
https://arxiv.org/abs/2405.05256

8.上交大团队提出一致性大型语言模型（CLLMs）

雅可比解码等并行解码方法打破了 LLM 解码过程的顺序性，将其转化为可并行计算，因此有望提高 LLM 推理的效率。然而，在实践中，与传统的自回归（AR）解码相比，雅可比解码的速度几乎没有提高，这主要是因为雅可比解码很少能在一个定点迭代步骤中准确预测一个以上的标记。

为了解决这个问题，来自上海交通大学、加州大学圣地亚哥分校的研究团队提出了一种新方法，旨在实现从任何状态到雅可比轨迹上的定点的快速收敛。为此，他们改进了目标 LLM，以便在输入任何状态时都能持续预测定点。

广泛的实验证明了这一方法的有效性，在特定领域和开放领域基准测试中，生成速度提高了 2.4 到 3.4 倍，同时保持了生成质量。

论文链接：
https://arxiv.org/abs/2403.00835