Kimi“撞车”DeepSeek!新一代注意力机制的极限突破!

news2025/4/7 20:46:17

近期,各方大佬在注意力机制上又“打起来了”。首先登场的是顶流DeepSeek,新论文梁文锋署名,提出了一种新的注意力机制NSA。同天,Kimi杨植麟署名的新注意力架构MoBA开源。紧接着,华为诺亚提出高效选择注意力架构ESA。

这神仙打架的场面太震撼(论文解析在下文),同时也证明注意力机制依然是2025最受追捧的研究热点之一,仍处于快速发展期,深度学习搞创新少不了。

这方向现有主流方法包括稀疏注意力优化(NSA和MoBA都属这类),多尺度与跨层融合、硬件与算法协同优化(如NSA的Triton内核)、注意力机制变体扩展。未来搞创新就需要结合跨学科理论和实际场景需求,可考虑动态稀疏性的深度探索、认知科学与类脑机制结合、可解释性与可控性增强等。

本文整理了11种新型注意力机制,以及40+即插即用注意力模块,方便各位复现找灵感改模型,需要的速领。

全部论文+开源代码需要的同学看文末

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

方法:论文研究了长上下文建模中稀疏注意力机制的设计,提出了一种名为NSA的原生可训练稀疏注意力机制,通过动态分层稀疏策略和硬件优化实现高效计算,在保留模型性能的同时减少了预训练开销。

创新点:

  • NSA通过动态分层稀疏策略结合粗粒度的token压缩和细粒度的token选择,提升了模型的全局上下文感知能力和局部精度。

  • 通过算术强度平衡的算法设计和现代硬件的实现优化,NSA在64k长度序列上的解码、前向传播和后向传播过程中,显著提高了计算速度。

  • NSA采用空间连续块的选择策略,基于硬件效率和注意力分数的固有分布模式进行设计。

MoBA: Mixture of Block Attention for Long-Context LLMs

方法:本文介绍了一种新型注意力机制MoBA,通过将上下文分块并采用动态门控机制,有效降低了大规模语言模型处理长序列任务的计算复杂性,同时保持模型性能,显著提高了计算效率,并可无缝集成到现有模型中,成为增强长上下文处理能力的实用解决方案。

创新点:

  • MoBA 引入了一种新的注意力机制,将专家混合(MoE)的原则应用于注意力机制,而非传统的前馈网络层。

  • MoBA 架构中,作者探索了将上下文分割为更细粒度块的优势。

  • MoBA 的设计允许在全注意力与稀疏注意力之间进行平滑转换。在模型初始化阶段,每个注意力层可以选择使用全注意力或 MoBA,并在训练中根据需要动态调整。

Unshackling Context Length: An Efficient Selective Attention Approach through Query-Key Compression

方法:本文提出了一种高效的令牌级选择性注意力方法ESA,通过在每个步骤中选择固定数量的重要令牌来扩展大型语言模型的上下文长度,无需增量训练模型参数,显著提高了在长序列任务中的推理效率。

创新点:

  • ESA 提出了一种新颖的令牌级选择性注意机制,通过在令牌级别选择最重要的令牌来计算注意力,从而有效地扩展上下文长度。

  • 通过对查询和关键向量进行降维,ESA 降低了令牌选择的计算复杂度。

  • 引入邻近影响距离,通过选择具有语义连续性的令牌,改进了某些任务中直接选择排名靠前令牌导致的性能下降问题。

Demystify mamba in vision: A linear attention perspective

方法:论文提出了一种新型的注意力机制——MILA。这种机制结合了Mamba模型和线性注意力的优点,旨在解决传统线性注意力在视觉任务中表现不佳的问题,同时保持高效的计算复杂度和并行化能力。

创新点:

  • 忘记门和块设计显著提升了模型的性能,其中忘记门在选择性状态空间模型中扮演了重要角色,并且可以通过适当的位置信息编码来替代,以适应视觉任务中的并行计算。

  • 通过整合Mamba的关键设计到线性注意力Transformer中,提出了Mamba启发的线性注意力(MILA)模型。

  • MILA模型通过替换忘记门为位置信息编码,实现了更高的推理速度。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“注意力全新”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2310142.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络---SYN Blood(洪泛攻击)

文章目录 三次握手过程SYN Flood攻击原理防御措施协议层优化网络层拦截系统配置调整 TCP协议是 TCP/IP 协议栈中一个重要的协议,平时我们使用的浏览器,APP等大多使用 TCP 协议通讯的,可见 TCP 协议在网络中扮演的角色是多么的重要。 TCP 协议…

Ollama存在安全风险的情况通报及解决方案

据清华大学网络空间测绘联合研究中心分析,开源跨平台大模型工具Ollama默认配置存在未授权访问与模型窃取等安全隐患。鉴于目前DeepSeek等大模型的研究部署和应用非常广泛,多数用户使用Ollama私有化部署且未修改默认配置,存在数据泄露、算力盗…

健康医疗大数据——医疗影像

一、 项目概述 1.1 项目概述 1.2 项目框架 1.3 项目环境 1.4 项目需求 二、项目调试与运行 2.1需求分析 2.2具体实现 三、项目总结 项目概述 项目概述 本项目旨在应用大数据技术于医疗影像领域,通过实训培养团队成员对医疗大数据处理和分析的实际…

学生管理信息系统的需求分析与设计

伴随教育的迅猛演进以及学生规模的不断扩增,学生管理信息系统已然成为学校管理的关键利器。此系统能够助力学校管控学生的课程成绩、考勤记载、个人资讯等诸多数据,提升学校的管理效能与服务品质。 一.需求分析 1.1 学生信息管理 学生信息在学校管理体…

基于微信小程序的停车场管理系统的设计与实现

第1章 绪论 1.1 课题背景 随着移动互联形式的不断发展,各行各业都在摸索移动互联对本行业的改变,不断的尝试开发出适合于本行业或者本公司的APP。但是这样一来用户的手机上就需要安装各种软件,但是APP作为一个只为某个公司服务的一个软件&a…

前端小案例——520表白信封

前言:我们在学习完了HTML和CSS之后,就会想着使用这两个东西去做一些小案例,不过又没有什么好的案例让我们去练手,本篇文章就提供里一个案例——520表白信封 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要了解更多内容可以访问我的主…

【最后203篇系列】010 关于矩阵的一点思考

说明 今天拿起一本矩阵的书又翻了翻,毕竟AI搞到最后还得是数学。 我是感觉自己高数始终有点学的迷迷糊糊的,就打算这一年慢慢把矩阵部分扫一遍,毕竟这快肯定是实打实有用的。其他高级部分就等我发财之后再说了,哈哈。 内容 今…

Python快捷手册

Python快捷手册 后续会陆续更新Python对应的依赖或者工具使用方法 文章目录 Python快捷手册[toc]1-依赖1-词云小工具2-图片添加文字3-BeautifulSoup网络爬虫4-Tkinter界面绘制5-PDF转Word 2-开发1-多线程和队列 3-运维1-Requirement依赖2-波尔实验室3-Anaconda3使用教程4-CentO…

DeepSeek崛起:如何在云端快速部署你的专属AI助手

在2025年春节的科技盛宴上,DeepSeek因其在AI领域的卓越表现成为焦点,其开源的推理模型DeepSeek-R1擅长处理多种复杂任务,支持多语言处理,并通过搜索引擎获取实时信息。DeepSeek因其先进的自然语言处理技术、广泛的知识库和高性价比…

Linux的用户与权限--第二天

认知root用户(超级管理员) root用户用于最大的系统操作权限 普通用户的权限,一般在HOME目录内部不受限制 su与exit命令 su命令: su [-] 用户名 -符号是可选的,表示切换用户后加载环境变量 参数为用户名&#xff0c…

Zookeeper 及 基于ZooKeeper实现的分布式锁

1 ZooKeeper 1.1 ZooKeeper 介绍 ZooKeeper是一个开源的分布式协调服务,它的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来,构成一个高效可靠的原语集,并以一系列简单易用的接口提供给用户使用。 原语:操作系统或…

Ubuntu20.04双系统安装及软件安装(五):VSCode

Ubuntu20.04双系统安装及软件安装(五):VSCode 打开VScode官网,点击中间左侧的deb文件下载: 系统会弹出下载框,确定即可。 在文件夹的**“下载”目录**,可看到下载的安装包,在该目录下…

【计算机网络入门】初学计算机网络(十一)重要

目录 1. CIDR无分类编址 1.1 CIDR的子网划分 1.1.1 定长子网划分 1.1.2 变长子网划分 2. 路由聚合 2.1 最长前缀匹配原则 3. 网络地址转换NAT 3.1 端口号 3.2 IP地址不够用? 3.3 公网IP和内网IP 3.4 NAT作用 4. ARP协议 4.1 如何利用IP地址找到MAC地址…

经验分享:用一张表解决并发冲突!数据库事务锁的核心实现逻辑

背景 对于一些内部使用的管理系统来说,可能没有引入Redis,又想基于现有的基础设施处理并发问题,而数据库是每个应用都避不开的基础设施之一,因此分享个我曾经维护过的一个系统中,使用数据库表来实现事务锁的方式。 之…

C++-第二十章:智能指针

目录 第一节:std::auto_ptr 第二节:std::unique_ptr 第三节:std::shared_ptr 第四节:std::shared_ptr的缺陷 4-1.循环引用 4-2.删除器 下期预告: 智能指针的作用是防止指针出作用域时忘记释放内存而造成内存泄漏&…

chrome Vue.js devtools 提示不支持该扩展组件,移除

可能是版本不兼容,可以重新安装,推荐网址极简插件官网_Chrome插件下载_Chrome浏览器应用商店 直接搜索vue,下载旧版,vue2、vue3都支持,上面那个最新版本试了下,vue2的肯定是不能用

C# 中的Action和Func是什么?Unity 中的UnityAction是什么? 他们有什么区别?

所属范围:Action 和 Func 是 C# 语言标准库中的委托类型,可在任何 C# 项目里使用;UnityAction 是 Unity 引擎专门定义的委托类型,只能在 Unity 项目中使用。 返回值:Action 和 UnityAction 封装的方法没有返回值&…

Versal - XRT(CPP) 2024.1

目录 1.简介 2. XRT 2.1 XRT vs OpenCL 2.2 Takeways 2.3 XRT C APIs 2.4 Device and XCLBIN 2.5 Buffers 2.5.1 Buffer 创建 2.5.1.1 普通 Buffer 2.5.1.2 特殊 Buffer 2.5.1.3 用户指针 Buffer 2.5.2 Data Transfer 2.5.2.1 read/write API 2.5.2.2 map API 2…

windows下安装Open Web UI

windows下安装openwebui有三种方式,docker,pythonnode.js,整合包. 这里我选择的是第二种,非docker. 非Docker方式安装 1. 安装Python: 下载并安装Python 3.11,建议安装路径中不要包含中文字符,并勾选“Add python 3.11 to Path”选项。 安…