大模型日报|今日必读的 13 篇大模型论文

news2025/1/24 22:29:51

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.MIT新研究:并非所有语言模型特征都是线性的

最近的研究提出了线性表征假说:语言模型通过操作激活空间中概念(“特征”)的一维表征来执行计算。与此相反,来自麻省理工学院(MIT)的研究团队探讨了某些语言模型表征是否可能本质上是多维的。

他们首先为不可还原的多维特征下了一个严格的定义,该定义基于这些特征是否可以分解为独立或不共存的低维特征。受这些定义的启发,他们设计了一种可扩展的方法,利用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征。这些自动发现的特征包括可解释示例,例如代表星期和月份的 circular 特征。他们确定了一些任务,在这些任务中,这些精确的 circular 被用来解决涉及一周中的天数和一年中的月份的模块运算问题。最后,通过对 Mistral 7B 和 Llama 3 8B 的干预实验,他们证明这些 circular 特征确实是这些任务中的基本计算单元。

论文链接:
https://arxiv.org/abs/2405.14860
GitHub 地址:
https://github.com/JoshEngels/MultiDimensionalFeatures

2.Google DeepMind 推出图像条件扩散模型 Semantica

Google DeepMind 团队研究了在不进行微调的情况下将图像生成模型适应不同数据集的任务。为此,他们提出了一种图像条件扩散模型——Semantica,其能够根据条件图像的语义生成图像。Semantica 完全是在网络规模的图像对上进行训练的,也就是说,它接收网页中的随机图像作为条件输入,并对同一网页中的另一张随机图像进行建模。他们的实验凸显了预训练图像编码器的表现力,以及基于语义的数据过滤对实现高质量图像生成的必要性。一旦经过训练,只需使用数据集中的图像作为输入,它就能自适应地从该数据集中生成新图像。

论文链接:
https://arxiv.org/abs/2405.14857

3.Visual Echoes:用于音频-视觉生成的简单统一 Transformer

近年来,随着逼真的生成结果和广泛的个性化应用,基于扩散的生成模型在视觉和音频生成领域都获得了极大的关注。与文本-图像生成或文本-音频生成的巨大进步相比,音频-视觉生成或视觉-音频生成的研究相对缓慢。近期的音频-视觉生成方法通常采用大型语言模型或可组合扩散模型。

在这项工作中,来自索尼的研究团队没有为音频-视觉生成设计另一个大型模型,而是退后一步,展示了一个在多模态生成中尚未得到充分研究的简单轻量级生成 Transformer,可以在图像-音频生成中取得优异的效果。Transformer 在离散的音频和视觉矢量量化 GAN 空间中运行,并以掩码去噪方式进行训练。训练完成后,无需额外的训练或修改,即可部署现成的无分类器引导,从而获得更好的性能。由于 Transformer 模型是模态对称的,因此也可直接用于音频-图像生成和协同生成。在实验中,他们发现这一简单方法超越了最近的图像-音频生成方法。

论文链接:
https://arxiv.org/abs/2405.14598

4.大型语言模型的分布式推测

加速大型语言模型(LLM)的推理是人工智能领域的一项重要挑战。

来自魏茨曼科学研究所、英特尔和麻省理工学院(MIT)的研究团队提出了一种新颖的分布式推理算法——分布式推测推理(DSI),与推测推理(SI)和传统的自回归推理(non-SI)相比,其推理速度更快。与其他自回归推理算法一样,DSI 在冻结的 LLM 上工作,不需要训练或架构修改,并能保留目标分布。

之前关于 SI 的研究表明,与 non-SI 相比,DSI 算法的经验速度有所提高,但这需要快速、准确的起草 LLM。在实践中,现成的 LLM 通常不具备足够快速和准确的匹配起草器。他们发现:当使用速度较慢或准确度较低的起草员时,SI 的速度会比非 SI 慢。他们通过证明 DSI 在使用任何起草器的情况下都比 SI 和 non-SI 更快,弥补了这一差距。通过协调目标和起草器的多个实例,DSI 不仅比 SI 更快,而且还支持 SI 无法加速的 LLM。

仿真显示,在现实环境中,现成的 LLMs 的速度都有所提高:DSI 比 SI 快 1.29-1.92 倍。

论文链接:
https://arxiv.org/abs/2405.14105

5.改进分布匹配蒸馏,实现快速图像合成

最近的一些方法表明,将扩散模型提炼成高效的一步生成器大有可为。其中,分布匹配蒸馏法(DMD)可以生成在分布上与其“教师”模型相匹配的一步生成器,而无需强制与“教师”的采样轨迹一一对应。然而,为了确保稳定的训练,DMD 需要额外的回归损耗,该损耗是使用由“教师”通过多步确定性采样器生成的大量噪声图像对计算得出的。这对于大规模文本到图像的合成来说成本很高,而且限制了“学生”模型的质量,使其与“教师”的原始采样路径过于紧密地联系在一起。

来自麻省理工学院(MIT)和 Adobe 的研究团队提出了一套能解除这一限制并改进 DMD 训练的技术——DMD2。首先,他们消除了回归损失和昂贵的数据集构建需求。他们证明了由此产生的不稳定性是由于假批评家没有准确估计生成样本的分布,并提出了一种双时间尺度更新规则作为补救措施。其次,他们将 GAN 损失集成到蒸馏过程中,以区分生成样本和真实图像。这样,他们就能在真实数据上训练“学生”模型,减轻“教师”模型对真实分数估计的不完美,提高质量。最后,他们修改了训练程序,以实现多步采样。在这种情况下,他们通过在训练期间模拟推理时间生成器采样,发现并解决了训练-推理输入不匹配的问题。

综合来看,他们的改进为一步图像生成设定了新的基准,在 ImageNet-64x64 上的 FID 分数为 1.28,在零样本 COCO 2014 上的 FID 分数为 8.35,尽管推理成本降低了 500 倍,但仍超过了原来的“教师”。此外,他们还展示了这一方法可以通过提炼 SDXL 生成百万像素图像,在几步法中展示了卓越的视觉质量。

论文链接:
https://arxiv.org/abs/2405.14867
项目地址:
https://tianweiy.github.io/dmd/

6.ReVideo:通过运动和内容控制重塑视频

尽管在利用扩散模型生成和编辑视频方面取得了重大进展,但实现精确的本地化视频编辑仍是一项巨大挑战。此外,现有的大多数视频编辑方法主要集中在改变视觉内容上,对动作编辑的研究十分有限。

在这项研究中,来自北京大学和腾讯的研究团队及其合作者,提出了一种新颖的“重塑视频”(ReVideo)尝试,通过指定内容和动作,在特定区域进行精确的视频编辑。内容编辑通过修改第一帧来实现,而基于轨迹的运动控制则提供了直观的用户交互体验。ReVideo 解决了内容和运动控制之间的耦合和训练不平衡问题。为了解决这个问题,他们开发了一种三阶段训练策略,从粗到细逐步解耦这两个方面。此外,他们还提出了一个时空自适应融合模块,以整合不同采样步骤和空间位置的内容和运动控制。

广泛的实验证明,ReVideo 在几种精确的视频编辑应用中具有良好的性能,即:1)局部改变视频内容,同时保持运动不变;2)保持内容不变,同时定制新的运动轨迹;3)同时修改内容和运动轨迹。该方法还可以无缝地将这些应用扩展到多区域编辑,而无需特定的训练,这证明了它的灵活性和鲁棒性。

论文链接:
https://arxiv.org/abs/2405.13865
项目地址:
https://mc-e.github.io/project/ReVideo/

7.360智脑技术报告

360智脑团队提出的 360Zhinao 模型具有 7B 参数大小和包括 4K、32K 和 360K 的上下文长度。为了实现预训练的快速发展,他们建立了一个稳定而灵敏的消融环境,以最小的模型规模对实验运行进行评估和比较。在这样的指导下,他们完善了数据清洗和合成策略,在 3.4T token 上对 360Zhinao-7B-Base 进行预训练。他们还主要强调对齐过程中的数据,通过过滤和重新格式化,努力平衡数量和质量。有了量身定制的数据,360Zhinao-7B 的上下文窗口很容易扩展到 32K 和 360K。RM 和 RLHF 根据 SFT 进行训练,并可靠地应用于特定任务。所有这些贡献使得 360Zhinao-7B 的性能在类似规模的模型中具有竞争力。

论文链接:
https://arxiv.org/abs/2405.13386
GitHub 地址:
https://github.com/Qihoo360/360zhinao

8.GameVLM:基于视觉语言模型和零和博弈的机器人任务规划决策框架

GPT-4V 等预训练视觉语言模型(VLM)具有突出的场景理解和推理能力,因此在机器人任务规划中受到越来越多的关注。与传统的任务规划策略相比,视觉语言模型在多模态信息解析和代码生成方面具有很强的优势,并显示出显著的效率。虽然 VLM 在机器人任务规划中展现出巨大潜力,但它也面临着幻觉、语义复杂性和上下文有限等挑战。

为了解决这些问题,来自复旦大学的研究团队提出了一种多智能体框架——GameVLM,从而增强机器人任务规划中的决策过程。该研究提出了基于 VLM 的决策智能体和专家智能体来执行任务规划。具体来说,决策智能体用于规划任务,专家智能体用于评估这些任务计划。研究引入了零和博弈理论来解决不同智能体之间的不一致性,并确定最佳解决方案。在真实机器人上进行的实验结果表明,所提出的框架非常有效,平均成功率高达 83.3%。

论文链接:
https://arxiv.org/abs/2405.13751

9.AlignGPT:具有自适应对齐功能的多模态大型语言模型

多模态大型语言模型(MLLM)被广泛认为是探索通用人工智能(AGI)的关键。MLLM 的核心在于其实现跨模态对齐的能力。为了实现这一目标,目前的 MLLM 通常采用两阶段训练模式:预训练阶段和指令微调阶段。

尽管这些模型取得了成功,但在对齐能力建模方面仍存在不足。首先,在预训练阶段,模型通常假定所有图像-文本对都是统一对齐的,但实际上不同图像-文本对之间的对齐程度并不一致。其次,目前用于微调的指令包含多种任务,不同任务的指令通常需要不同程度的对齐能力,但以往的 MLLM 忽视了这些差异化的对齐需求。

为了解决这些问题,来自南京大学的研究团队提出了一种新的多模态大型语言模型——AlignGPT。在预训练阶段,他们并不是对所有图像-文本对一视同仁,而是为不同的图像-文本对分配不同级别的对齐能力。然后,在指令微调阶段,他们自适应地组合这些不同级别的对齐能力,以满足不同指令的动态对齐需求。广泛的实验结果表明,AlignGPT 在 12 个基准测试中取得了具有竞争力的性能。

论文链接:
https://arxiv.org/abs/2405.14129
项目地址:
https://aligngpt-vl.github.io/

10.JiuZhang3.0:通过训练小型数据合成模型有效提高数学推理能力

数学推理是大型语言模型(LLMs)在实际应用中的一项重要能力。为了增强这一能力,现有的工作要么是收集大规模数学相关文本进行预训练,要么是依靠更强大的 LLM(如 GPT-4)来合成大规模数学问题。这两类工作通常都会导致训练或合成方面的巨大成本。

为了降低成本,来自中国人民大学的研究团队及其合作者,提出了一种基于开源文本的高效方法,即训练一个小型 LLM 来合成数学问题,从而有效地生成足够的高质量预训练数据。

为此,他们使用 GPT-4 创建了一个数据集,将其数据合成能力提炼到小型 LLM 中。具体来说,他们根据人类教育阶段精心设计了一套提示语,引导 GPT-4 归纳出涵盖不同数学知识和难度水平的问题。此外,让他们还采用了基于梯度的影响估计方法来选择最有价值的数学相关文本。这两者都被输入到 GPT-4 中,用于创建知识提炼数据集,训练小型 LLM。他们利用它合成了 600 万个数学问题,用于预训练 JiuZhang3.0 模型,该模型只需调用 GPT-4 API 9.3k 次,并在 4.6B 数据上进行预训练。实验结果表明,在自然语言推理和工具操作设置下,JiuZhang3.0 在多个数学推理数据集上都取得了 SOTA。

论文链接:
https://arxiv.org/abs/2405.14365

11.DeepSeek-Prover:通过大规模合成数据推进 LLM 中的定理证明

Lean 等证明助手彻底改变了数学证明验证,确保了高准确性和可靠性。尽管大型语言模型(LLM)在数学推理中大有可为,但由于缺乏训练数据,它们在形式定理证明中的发展受到了阻碍。

为了解决这个问题,来自 DeepSeek 和中山大学的研究团队及其合作者,提出了一种从高中和本科生水平的数学竞赛题中生成大量 Lean 4 证明数据的方法。这种方法包括将自然语言问题转化为形式化语句,过滤掉低质量语句,并生成证明以创建合成数据。

DeepSeekMath 7B 模型由 800 万条带有证明的形式化语句组成,在该合成数据集上对该模型进行微调后,模型在 Lean 4 miniF2F 测试中的整体证明生成准确率在 64 个样本中达到了 46.3%,累计达到了 52%,超过了基线 GPT-4 在 64 个样本中的 23.0%,以及树搜索强化学习方法的 41.0%。此外,模型还成功证明了 Lean 4 形式化国际数学奥林匹克(FIMO)基准测试 148 个问题中的 5 个问题,而 GPT-4 则未能证明任何问题。

这些结果证明了利用大规模合成数据提高 LLM 中定理证明能力的潜力。

论文链接:
https://arxiv.org/abs/2405.14333

12.将具身多智能体协作与高效 LLM 结合

由于物理世界的复杂性,将大型语言模型(LLMs)的推理能力与具身任务相结合是具有挑战性的。特别是多机器人协作的 LLM 规划需要机器人之间的交流或信用分配作为反馈,从而重新调整所提出的计划并实现有效协调。然而,现有方法过度依赖物理验证或自我反思,导致对 LLM 的查询过多且效率低下。

在这项工作中,来自清华大学、上海 AI Lab 和西北工业大学的研究团队及其合作者,提出了一种新颖的多机器人协作框架,该框架结合了强化优势反馈(ReAd)来实现计划的高效自我完善。具体来说,他们通过批判回归从 LLM 计划的数据中学习顺序优势函数,然后将 LLM 计划器视为优化器,生成优势函数最大化的行动。它赋予了 LLM 判断行动是否有助于完成最终任务的前瞻性。他们通过将强化学习中的优势加权回归扩展到多智能体系统,提供了理论分析。

在 Overcooked-AI 和 RoCoBench 的一个高难度变体上进行的实验表明,ReAd 在成功率上超过了基线,而且还显著减少了智能体的交互步骤和LLM的查询轮数,证明了它在为LLM打基础方面的高效率。

论文链接:
https://arxiv.org/abs/2405.14314
项目地址:
https://read-llm.github.io/

13.HippoRAG:神经生物学启发的大型语言模型长期记忆法

为了在恶劣和不断变化的自然环境中茁壮成长,哺乳动物的大脑在进化过程中存储了大量有关世界的知识,并不断整合新信息,同时避免灾难性遗忘。尽管取得了令人瞩目的成就,但大型语言模型(LLMs)即使采用了检索增强生成(RAG)技术,仍难以在预训练后高效地整合大量新经验。

在这项工作中,来自俄亥俄州立大学和斯坦福大学的研究团队提出了一种新颖的检索框架——HippoRAG,其灵感来自于人类长期记忆的海马索引理论,能够对新经验进行更深入、更高效的知识整合。HippoRAG 协同协调了 LLM、知识图谱和个性化 PageRank 算法,从而模拟新皮层和海马体在人类记忆中的不同作用。

他们将 HippoRAG 与现有的多跳问题解答 RAG 方法进行了比较,结果表明,这一方法明显优于其他方法,最高可达 20%。与 IRCoT 等迭代检索法相比,使用 HippoRAG 的单步检索法取得了相当或更好的性能,同时成本降低了 10-30 倍,速度提高了 6-13 倍。最后,他们展示了这一方法可以解决现有方法无法解决的新型场景。

论文链接:
https://arxiv.org/abs/2405.14831
GitHub 地址:
https://github.com/OSU-NLP-Group/HippoRAG

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1689021.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

现代密码学——消息认证和哈希函数

1.概述 1.加密-->被动攻击(获取消息内容、业务流分析) 消息认证和数字签名-->主动攻击(假冒、重放、篡改、业务拒绝) 2.消息认证作用: 验证消息源的真实性, 消息的完整性(未被篡改…

Redis篇 有关Redis的认识和Redis的特性应用场景

Redis 一. Redis的基本概念1.1 应用/系统1.2 模块/组件1.3 分布式1.4 集群1.5 主/从1.6 中间件1.7 可用性1.8 响应时长1.9 吞吐 二.Redis的特性三.使用场景 一. Redis的基本概念 1.1 应用/系统 一个应用就是一个组,一个服务器程序 1.2 模块/组件 一个应用,里面有很多功能,每个…

spring boot打的包直接运行

Spring Boot 提供了一个插件 spring-boot-maven-plugin 把程序打包成一个可执行的jar包&#xff0c;直接执行java -jar xxx.jar即可以启动程序 1、引用 spring-boot-maven-plugin插件 <build><plugins><plugin><groupId>org.springframework.boot<…

2024年顶级算法-黑翅鸢优化算法(BKA)-详细原理(附matlab代码)

黑翅鸢是一种上半身蓝灰色&#xff0c;下半身白色的小型鸟类。它们的显著特征包括迁徙和捕食行为。它们以小型哺乳动物、爬行动物、鸟类和昆虫为食&#xff0c;具有很强的悬停能力&#xff0c;能够取得非凡的狩猎成功。受其狩猎技能和迁徙习惯的启发&#xff0c;该算法作者建立…

转运机器人负载最高可达 1000kg,重复精度高达±5mm

转运机器人&#xff0c;内部搭载ICD系列核心控制器&#xff0c;拥有不同的移载平台&#xff0c;负载最高可达 1000kg;重复精度高达5mm;支持 Wi-Fi漫游&#xff0c;实现更稳健的网络数据交互;无轨化激光 SLAM 导航&#xff0c;配合 3D 避障相机等多传感器进行安全防护。转运器人…

FreeRTOS_同步互斥与通信_环形buffer、队列_学习笔记

FreeRTOS_同步互斥与通信_概念_学习笔记 信号量、互斥量的本质是队列&#xff0c;队列的本质是加强版环形缓冲区 5 FreeRTOS数据传输的方法-环形buffer、队列 如果我有两个任务TaskA和TaskB&#xff0c;他俩可以同时运行。想要在他们之间传递数据&#xff0c;可以用一个全局变…

深入解析kube-scheduler的算法自定义插件

目录 ​编辑 一、问题引入 二、自定义步骤 三、最佳实践考虑 一、问题引入 当涉及到 Kubernetes 集群的调度和资源分配时&#xff0c;kube-scheduler 是一个关键组件。kube-scheduler 负责根据集群的调度策略&#xff0c;将 Pod 分配到适当的节点上。kube-scheduler 默认使…

YTM32的flash应用答疑-详解写保护功能

YTM32的flash应用答疑-详解写保护功能 文章目录 YTM32的flash应用答疑-详解写保护功能IntroductionPrincipleOperation & DemonstrationDemo #1 验证基本的写保护功能Demo #2 编程CUS_NVR设定EFM_ADDR_PROT初值Demo #3 启用写保护后试试块擦除操作 Conclusion Introduction…

HarmonyOS之ArkUI布局设计常见细节

这里写目录标题 1. Button设置带有渐变色的背景图片无效1.1 问题分析1.2 成功案例 2. 路由跳转失败2.1 问题分析 1. Button设置带有渐变色的背景图片无效 1.1 问题分析 说明&#xff1a;设置颜色渐变需先设置backgroundColor为透明色。 Button($r(app.string.login), { type…

python实现对应分析的随笔记

文档来源&#xff1a; Correspondence analysis 1 对应分析 参考&#xff1a; SPSS&#xff08;十二&#xff09;SPSS对应分析&#xff08;图文数据集&#xff09;案例6&#xff1a;SPSS–对应分析10 对应分析 对应分析的实质&#xff08;理论很复杂&#xff0c;但是结果很明…

春秋CVE-2022-23906

简介 CMS Made Simple v2.2.15 被发现包含通过上传图片功能的远程命令执行 (RCE) 漏洞。此漏洞通过精心制作的图像文件被利用。 正文 1.进入靶场2.进入登录界面&#xff0c;弱口令admin/123456 3.进入后台&#xff0c;文件上传点 4.上传一句话木马图片 5.复制图片&#xf…

爬虫基础1

一、爬虫的基本概念 1.什么是爬虫&#xff1f; 请求网站并提取数据的自动化程序 2.爬虫的分类 2.1 通用爬虫&#xff08;大而全&#xff09; 功能强大&#xff0c;采集面广&#xff0c;通常用于搜索引擎&#xff1a;百度&#xff0c;360&#xff0c;谷歌 2.2 聚焦爬虫&#x…

人工智能应用-实验4-蚁群算法求解 TSP

文章目录 &#x1f9e1;&#x1f9e1;实验内容&#x1f9e1;&#x1f9e1;&#x1f9e1;&#x1f9e1;代码&#x1f9e1;&#x1f9e1;&#x1f9e1;&#x1f9e1;分析结果&#x1f9e1;&#x1f9e1;&#x1f9e1;&#x1f9e1;实验总结&#x1f9e1;&#x1f9e1; &#x1f9…

【GO基础】1. Go语言环境搭建

Go语言环境搭建 Go的三种安装方式Go标准包安装Windows 安装验证是否安装成功 4.Go的第一个程序 Hello World.go Go的三种安装方式 Go有多种安装方式&#xff0c;可以选择自己适合的。这里介绍三种最常见的安装方式&#xff1a; Go源码安装&#xff1a;这是一种标准的软件安装…

【NumPy】NumPy实战入门:统计与聚合(histogram、percentile、corrcoef、cov)详解

&#x1f9d1; 博主简介&#xff1a;阿里巴巴嵌入式技术专家&#xff0c;深耕嵌入式人工智能领域&#xff0c;具备多年的嵌入式硬件产品研发管理经验。 &#x1f4d2; 博客介绍&#xff1a;分享嵌入式开发领域的相关知识、经验、思考和感悟&#xff0c;欢迎关注。提供嵌入式方向…

如何解决vcruntime140.dll丢失问题,详细介绍5种靠谱的解决方法

vcruntime140.dll是Microsoft Visual C Redistributable Package的一部分&#xff0c;它为使用Visual C编译器开发的应用程序提供必要的运行时环境。该DLL文件包含了大量应用程序运行时需要调用的库函数&#xff0c;这些函数是实现C标准库、异常处理机制、RTTI&#xff08;运行…

IO端口编址

统一编址 特点 独立编址 特点 内存地址分配 区别 应用 IO端口地址译码 硬件上的实现 示例1&#xff1a; 示例2&#xff1a; IO指令 软件上的实现 示例

golang通过go-aci适配神通数据库

1. go-aci简介 go-aci是神通数据库基于ACI(兼容Oracle的OCI)开发的go语言开发接口&#xff0c;因此运行时需要依赖ACI驱动和ACI库的头文件。支持各种数据类型的读写、支持参数绑定、支持游标范围等操作。 2. Linux部署步骤 2.1. Go安装&#xff1a; 版本&#xff1a;1.9以上…

CleanMyMac X2024垃圾清理神器,让你的Mac保持飞速运行

在数字时代的浪潮中&#xff0c;我们的苹果电脑扮演了至关重要的角色。然而&#xff0c;随着数据的增长和存储需求的不断上升&#xff0c;不合理的文件管理往往会导致系统性能逐渐下降&#xff0c;影响我们的工作效率。为了有效应对这一挑战&#xff0c;许多用户转向使用专为Ma…

抖音运营_抖音电商介绍

截止20年8月&#xff0c;抖音的日活跃数高达6亿。 20年6月&#xff0c;上线抖店 &#xff08;抖音官方电商&#xff09; 一 抖店的定位和特色 1 一站式经营 帮助商家进行 商品交易、店铺管理、客户服务 等全链路的生意经营 2 多渠道拓展 抖音、今日头条、西瓜、抖音火山版…