(icml2024)SLAattention,基于原文时序模型进行改进

news2025/1/1 21:10:51

#代码: https://github.com/xinghaochen/SLAB
#论文:https://arxiv.org/pdf/2405.11582

相关工作

1. 高效Transformer架构

背景: Transformer从最初的自然语言处理扩展到计算机视觉领域(例如ViT),但由于计算复杂度高,尤其是Attention机制的二次复杂度,难以部署在资源受限的设备上。

Transformer在自然语言处理和计算机视觉领域得到了广泛应用,但其计算复杂度较高,尤其是Attention模块的二次复杂度,成为部署在资源受限设备上的主要瓶颈。为此,研究者提出了多种优化方案:

降低Attention计算开销:通过限制Token的交互范围(如局部窗口计算)或引入近似线性Attention的策略,将计算复杂度从二次降低到线性。
优化Token处理模式:通过下采样、稀疏Attention模式等方法提高效率,同时尽量减少对性能的影响。

方法对比:
在这里插入图片描述

2. Transformer中的归一化

Transformer中归一化层对于稳定训练和提升性能至关重要。LayerNorm是Transformer中默认使用的归一化方法,但其在推理阶段的统计计算开销较高,限制了模型的效率。研究者尝试将BatchNorm等效率更高的归一化技术引入Transformer,但因BatchNorm对训练的敏感性和稳定性问题,其效果往往不如LayerNorm。

为解决这一问题,部分研究提出在训练过程中调整归一化策略,或结合多种归一化方法,以兼顾训练稳定性和推理效率。然而,在实际应用中仍存在性能下降或训练不稳定的问题
现有方法对比
在这里插入图片描述

模型结构

本文的方法是针对于cv进行的操作,所以用于nlp 的话会有点匹配不上,但是原文中还是说过可以把这个注意力用到时序任务上,
所以基于原文的思路,本人进行了一些改进。

原文注意力结构

使用ReLU代替传统的Softmax作为Attention权重的核函数:
在这里插入图片描述
在这里插入图片描述

不再需要复杂的Softmax操作,计算复杂度从 O(N²C)降低到O(NC²)
Depth-wise卷积增强特征:

在这里插入图片描述

在计算Attention输出后,加入Depth-wise卷积提升局部特征表达能力:
好吧揭穿一下就是Conv2d这个是dwc卷积hhhhhh。原文代码如下

class SimplifiedLinearAttention(nn.Module):
    def __init__(self, dim, num_heads=8, qkv_bias=True, qk_scale=None, attn_drop=0., proj_drop=0.1,
                 focusing_factor=3, kernel_size=5):
        super().__init__()
        assert dim % num_heads == 0, "dim must be divisible by num_heads."
        self.dim = dim
        self.num_heads = num_heads
        head_dim = dim // num_heads

        self.q = nn.Linear(dim, dim, bias=qkv_bias)
        self.kv = nn.Linear(dim, dim * 2, bias=qkv_bias)
        self.attn_drop = nn.Dropout(attn_drop)
        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)

        # Depthwise convolution for local feature enhancement  Depth-wise卷积
        self.dwc = nn.Conv1d(head_dim, head_dim, kernel_size=kernel_size, groups=head_dim, padding=kernel_size // 2)
        self.focusing_factor = focusing_factor

    def forward(self, x):
        B, N, C = x.shape  # Batch size, sequence length, feature dimension
        q = self.q(x)  # Query projection
        kv = self.kv(x).reshape(B, N, 2, C).permute(2, 0, 1, 3)  # Key and Value projection
        k, v = kv[0], kv[1]

        # Apply ReLU as the kernel function
        kernel_function = nn.ReLU()
        q = kernel_function(q)
        k = kernel_function(k)
        q, k, v = (rearrange(t, "b n (h c) -> b h n c", h=self.num_heads) for t in [q, k, v])

        # Linear attention mechanism
        z = 1 / (torch.einsum("b h n c, b h c -> b h n", q, k.sum(dim=2)) + 1e-6)
        kv_product = torch.einsum("b h m c, b h m d -> b h c d", k, v)
        x = torch.einsum("b h n c, b h c d, b h n -> b h n d", q, kv_product, z)

        # Combine heads and apply depthwise convolution
        x = rearrange(x, "b h n c -> (b h) c n")  # Reshape for depthwise convolution
        x = self.dwc(x) * self.focusing_factor  # Apply depthwise convolution
        x = rearrange(x, "(b h) c n -> b n (h c)", h=self.num_heads)  # Combine heads back

        # Final projection
        x = self.proj(x)
        x = self.proj_drop(x)

        return x

个人改进

我个人改进是基于时序任务的,这个是没有在原文中进行体现的一方面,并且原文代码中只用于图像,我想自己尝试一下能不能用到时序的地方。
4.1 改进优势
局部特征建模增强:
在原始全局建模的基础上,加入了对局部模式的感知能力,使模型更适用于局部显著性任务。
例如,在时间序列中捕获局部峰值模式,在图像任务中对局部区域的特征建模。

a.保留原始复杂度:
深度卷积的引入并未显著增加计算复杂度,仍然保持原文的线性复杂度。

b.增强灵活性:
用户可以通过 kernel_size 和 focusing_factor 调整局部增强的强度,适应不同任务需求。

4.2 潜在问题
可能偏离原文目标的纯粹性:

原文章的目标是简化注意力机制,而改进版本引入了深度卷积,可能略微增加模块复杂度。
如果应用场景仅需要全局特征建模,局部卷积可能是多余的。
额外参数:
深度卷积引入了额外的超参数(如卷积核大小、卷积强度等),可能需要更多的超参调优。

在这里插入图片描述

代码会更新到群里

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2267717.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日小题打卡

目录 幂次方 手机键盘 简单排序 校庆 性感素数 幂次方 题目描述 对任意正整数 N,计算 X^Nmod233333 的值。 输入格式 共一行,两个整数 X 和 N。 输出格式 共一行,一个整数,表示 X^Nmod233333 的值。 数据范围 1≤…

【Spring】 Bean 注入 HttpServletRequest 能保证线程安全的原理

文章目录 前言1. 图示2. 源码坐标后记 前言 今天看了一段老业务代码,HttpServletRequest 被注入后直接用于业务逻辑。 好奇Spring是如何解决线程安全问题。 Controller public class TestController {ResourceHttpServletRequest request;ResponseBodyGetMapping(…

iOS Masonry对包体积的影响

01 Masonry介绍 Masonry是iOS在控件布局中经常使用的一个轻量级框架,Masonry让NSLayoutConstraint使用起来更为简洁。Masonry简化了NSLayoutConstraint的使用方式,让我们可以以链式的方式为我们的控件指定约束。 常用接口声明与实现: 使用方式…

C 实现植物大战僵尸(二)

C 实现植物大战僵尸(二) 前文链接,C 实现植物大战僵尸(一) 五 制作启动菜单 启动菜单函数 void startUI() {IMAGE imageBg, imgMenu1, imgMenu2;loadimage(&imageBg, "res/menu.png");loadimage(&am…

sqlserver镜像设置

本案例是双机热备,只设置主体服务器(主)和镜像服务器(从),不设置见证服务器 设置镜像前先检查是否启用了 主从服务器数据库的 TCP/IP协议 和 RemoteDAC (1)打开SQL Server配置管理器…

springboot503基于Sringboot+Vue个人驾校预约管理系统(论文+源码)_kaic

摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装个人驾校预约管理系统软件来发挥其高效地信息处理的作用&am…

游戏引擎学习第61天

回顾并计划接下来的事情 我们现在的目标是通过创建一个占位符版本的游戏来展示我们所做的工作。这个版本的游戏包含了许多基本要素,目的是快速构建一些东西,进行测试,并观察代码结构的形成。这些代码的实施是为了理解系统如何工作&#xff0…

探索PyTorch:从入门到实践的demo全解析

探索PyTorch:从入门到实践的demo全解析 一、环境搭建:PyTorch的基石(一)选择你的“利器”:安装方式解析(二)步步为营:详细安装步骤指南二、基础入门demo:点亮第一盏灯(一)张量操作:深度学习的“积木”(二)自动求导:模型学习的“幕后英雄”三、数据处理demo:喂饱…

hiprint结合vue2项目实现静默打印详细使用步骤

代码地址是:vue-plugin-hiprint: hiprint for Vue2/Vue3 ⚡打印、打印设计、可视化设计器、报表设计、元素编辑、可视化打印编辑 本地安装包地址:electron-hiprint 发行版 - Gitee.com 1、先安装hipint安装包在本地 2、项目运行npm(socket.…

Docker Container 可观测性最佳实践

Docker Container 介绍 Docker Container( Docker 容器)是一种轻量级、可移植的、自给自足的软件运行环境,它在 Docker 引擎的宿主机上运行。容器在许多方面类似于虚拟机,但它们更轻量,因为它们不需要模拟整个操作系统…

GXUOJ-算法-第二次作业

1.矩阵连&#xff08;链&#xff09;乘 问题描述 GXUOJ | 矩阵连乘 代码解答 #include<bits/stdc.h> using namespace std;const int N50; int m[N][N]; int p[N]; int n;int main(){cin>>n;//m[i][j] 存储的是从第 i 个矩阵到第 j 个矩阵这一段矩阵链相乘的最小…

OpenCV计算机视觉 02 图片修改 图像运算 边缘填充 阈值处理

目录 图片修改&#xff08;打码、组合、缩放&#xff09; 图像运算 边缘填充 ​阈值处理 上一篇文章&#xff1a; OpenCV计算机视觉 01 图像与视频的读取操作&颜色通道 图片修改&#xff08;打码、组合、缩放&#xff09; # 图片打码 import numpy as np a cv2.imre…

不修改内核镜像的情况下,使用内核模块实现“及时”的调度时间片超时事件上报

一、背景 之前的博客 不修改内核镜像的情况下&#xff0c;使用内核模块实现高效监控调度时延-CSDN博客 里&#xff0c;我们讲了不修改内核镜像高效监控每次的调度时延的方法。这篇博客里&#xff0c;我们对于调度时间片也做这么一个不修改内核镜像的改进。关于调度时间片过长的…

Flink定时器

flink的定时器都是基于事件时间&#xff08;event time&#xff09;或事件处理时间&#xff08;processing time&#xff09;的变化来触发响应的。对一部分新手玩家来说&#xff0c;可能不清楚事件时间和事件处理时间的区别。我这里先说一下我的理解&#xff0c;防止下面懵逼。…

使用 OpenCV 绘制线条和矩形

OpenCV 是一个功能强大的计算机视觉库&#xff0c;它不仅提供了丰富的图像处理功能&#xff0c;还支持图像的绘制。绘制简单的几何图形&#xff08;如线条和矩形&#xff09;是 OpenCV 中常见的操作。在本篇文章中&#xff0c;我们将介绍如何使用 OpenCV 在图像上绘制线条和矩形…

【Artificial Intelligence篇】AI 前沿探秘:开启智能学习的超维征程

目录 一、人工智能的蓬勃发展与智能学习的重要性: 二、数据的表示与处理 —— 智能学习的基石: 三、构建一个简单的感知机模型 —— 智能学习的初步探索: 四、神经网络 —— 开启超维征程的关键一步: 五、超维挑战与优化 —— 探索智能学习的深度: 六、可视化与交互 —— …

大数据的尽头是数据中台吗?

大数据的尽头是数据中台吗&#xff1f; 2018年末开始&#xff0c;原市场上各种关于大数据平台的招标突然不见&#xff0c;取而代之的是数据中台项目&#xff0c;建设数据中台俨然成为传统企业数字化转型首选&#xff0c;甚至不少大数据领域的专家都认为&#xff0c;数据中台是…

珞珈一号夜光遥感数据地理配准,栅格数据地理配准

目录 一、夜光数据下载&#xff1a; 二、夜光遥感数据地理配准 三、计算夜光数据值 四、辐射定标 五、以表格显示分区统计 五、结果验证 夜光数据位置和路网位置不匹配&#xff0c;虽然都是WGS84坐标系&#xff0c;不匹配&#xff01;&#xff01;&#xff01;不要看到就直接…

3.若依前端项目拉取、部署、访问

因为默认RuoYi-Vue是使用的Vue2,所以需要另外去下载vue3来部署。 拉取代码 git clone https://gitee.com/ys-gitee/RuoYi-Vue3.git 安装node才能执行npm相关的命令 执行命令npm install 如果npm install比较慢的话&#xff0c;需要添加上国内镜像 npm install --registrhttp…

【Java】线程相关面试题 (基础)

文章目录 线程与进程区别并行与并发区别解析概念含义资源利用执行方式应用场景 创建线程线程状态如何保证新建的三个线程按顺序执行wait方法和sleep方法的不同所属类和使用场景方法签名和参数说明调用wait方法的前提条件被唤醒的方式与notify/notifyAll方法的协作使用示例注意事…