细粒度视觉分类的注意内核编码网络

news2025/1/12 15:56:21

Attentional Kernel Encoding Networks for Fine-Grained Visual Categorization

  • 1、介绍
  • 2、方法
    • 2.1 卷积模块
    • 2.2 级联注意力模块
    • 2.3 内核编码模块
    • 2.4 整体
  • 3、结论

在本文中,我们提出了一种用于细粒度视觉分类的注意核编码网络(AKEN)。具体来说,AKEN聚合了上一卷积层的特征特征图,得到了一个整体的特征表示。 通过傅里叶嵌入,对纵向和横向的特征进行编码,在很大程度上保留了空间布局信息。此外,我们结合了 级联注意力(Cas-Attention)模块来突出显示区分从属类别的局部区域,使 AKEN 能够提取最具辨别力的特征。该方法结合注意机制,将卷积神经网络和核函数的优势结合起来,用于非线性特征学习,可以为细粒度图像分类建立判别性和描述性的特征表示。
贡献:
1、我们提出了一种新的学习架构,称为注意内核编码网络(AKEN),用于细粒度的图像分类。它结合了卷积神经网络和核函数在特征提取和非线性学习方面的各自优势。
2、我们提出了从 纵向横向两个方向对特征特征图进行编码的方法,既能 捕获局部的鉴别特征,又能 保留空间布局信息,从而得到全面的表征。
3、我们设计了== Cas-Attention 模块 来突出显示特征图中的重要区域,这使得网络能够在不同尺度上编码最具辨别力的特征==。

1、介绍

在本文中,我们提出了一种新的深度学习体系结构,名为注意核编码网络(AKEN),用于细粒度图像分类,如图2所示。AKEN将上一卷积层的特征特征图聚合为一个整体的特征表示。具体来说,我们建议应用傅里叶嵌入将特征特征图编码成图像的整体表示。傅里叶嵌入利用核函数强大的非线性学习能力,可以捕获更多有区别的特征进行分类,从而得到高质量的特征表示。
在这里插入图片描述
图二。这是我们提出的注意核心编码网络(AKEN)的流程图。在对原始图像进行特征提取后,应用级联注意(Cas-Attention)模块对有区别的区域进行高亮显示。然后对特征特征图进行编码,得到全局特征表示。与常规编码方法只专注于纵向方向(黄色显示)不同,我们也在横向方向编码(橙色显示)。最后,将两个方向编码产生的两个向量连接起来,得到最终的特征表示。
与以往的编码方法相反,我们提出沿特征特征图的纵向和横向两个方向进行编码。如图2所示,两个编码模块分别命名为纵向核编码和横向核编码。纵向向量可以看作是描述每个空间位置局部响应的一批局部特征向量。如果我们把每个过滤器看作一个特征检测器,那么每个特征图中的响应可以看作是一个特殊特征范式的分布。因此,纵向编码提供了每个空间位置的特征范式。在横向上,每个feature map携带了整个图像中不同方面的特征。在这个方向进行编码,可以得到原始图像中各个特定特征范式的特征分布,与纵向方向的信息互补。因此,我们的AKEN可以很好地保存这两个分类互补的信息源。此外,通过非线性核编码的特征编码可以无缝地注入到卷积学习体系结构中,而不需要放弃端到端训练。更重要的是,AKEN利用ConvNets的优势进行特征提取,利用核函数进行非线性学习,这有助于从输入图像中充分提取有区别的特征。
此外,为了从最具判别性的区域提取特征,我们在特征编码前引入了注意机制。具体来说,我们设计了级联注意(Cas-Attention)模块来突出显示反映不同类别之间视觉差异的区域。此外,我们将剩余学习策略纳入注意模块。更重要的是,我们还加入了一个级联结构。它从感受域的不同尺度生成注意特征图,并以不同尺度定位识别特征。该多尺度机制在特征提取[20]-[22]中被证明是有效的,在我们的AKEN中也发挥了重要作用。
结合注意机制,提出的注意核编码网络不仅能识别最具鉴别性的特征,而且在压缩整体表示的同时实现了高非线性的细粒度图像分类

2、方法

在本节中,我们提出了我们提出的注意力核编码网络(AKEN),如图3所示。端到端框架AKEN由三部分组成:
1)一个基本的特征提取模块,从原始输入图像中提取特征
2)一个注意力模块,帮助网络关注特征的信息区域
3)两个并行的内核编码模块,分别考虑纵向和横向信息

在这里插入图片描述
图 3.AKEN 示意图。主要包含三个部分:特征提取、Cas-Attention模块、同时考虑纵向和横向的方向核编码模块。我们还在该图中说明了一些模块的详细信息。正如我们所看到的,在横向核编码中,我们首先重塑特征图并交换横向和经度的维度。然后我们在重塑的特征图上进行卷积和傅里叶嵌入来对横向点进行编码。

2.1 卷积模块

我们的 AKEN 不依赖于任何特定的卷积架构来进行特征提取。我们部署通用的卷积神经网络作为计算效率的骨干。具体来说,我们保留原始神经网络的卷积模块并删除剩余部分。该模块的输出是 N×C × W×H 维度的特征图,其中 N 表示批量大小,W、H 和 C 分别表示特征图的宽度、高度和通道数。由于细粒度数据集的规模相对较小,我们在 ImageNet 上预训练主干网络以获得更好的参数初始化。这里VGG19效果不错。

2.2 级联注意力模块

为了突出对分类有区分性的区域,我们设计了一个 Cas-Attention 模块来在编码之前细化特征图。具体来说,如图 3 中的 Cas-Attention 模块所示,给定卷积网络输出的最终特征图(表示为 X),我们通过两个基本分支生成两个 3D 注意力图 M1(X) 和 M2(X)。每个基本分支通过残差策略生成具有特定过滤器大小的注意力图。**通过这些基本分支的级联连接,我们获得了注意力模块中的多尺度信息。**同时,获得的3D注意力图与X的大小相同。3D注意力图确保每个像素都有自己对应的权重。
我们首先使用原始特征图的 1 × 1 卷积运算生成 M1(X)。然后,我们使用逐元素乘法将注意力图作为 3D 掩模强加在输出特征图上。我们借鉴残差学习的思想并使用逐元素求和,而不是直接将衰减特征图 M1(X) ⊗ X 作为下一层的输入。
然后,我们使用原始特征图的 3×3 卷积运算扩展感受野并生成 M2(X)。通过填充过程,3D 注意力图的大小也与 X 相同。然后,​​我们使用逐元素乘法将 M2(X) 作为最后一个输出特征图的 3D 掩模。我们使用逐元素求和将其与原始特征图合并。
整体流程可以表示为:
在这里插入图片描述
其中 ⊗ 表示逐元素乘法。由于单一注意力仅查看一个尺度的特征图,因此它将忽略更大尺度的重要信息。考虑到这一点,我们的 Cas-Attention 模块通过两个基本分支生成的两个注意力图来突出显示判别区域。同时,残差策略有助于反向传播中梯度的传播[25]并带来更好的性能。

2.3 内核编码模块

我们首先简要介绍核方法,基于给定的理论,我们设计了一个方向核编码模块,结合了纵向核编码和横向核编码
1)傅里叶嵌入:核方法在机器学习中得到了广泛的探索,在学习数据的非线性方面表现出很高的有效性。在卷积神经网络的场景中,内核的强大功能还没有得到很好的探索。因此,我们通过傅里叶变换将内核引入神经网络,将特征图编码为整体表示。
**内核是一个函数,它在原始空间中获取两个输入向量并返回向量的点积。**形式上,给定输入数据 x,y ∈ X,以及映射函数 φ(·): X →RN,核函数可以表示为:
在这里插入图片描述
对于简单的情况,很容易得到提升φ(·),例如线性变换。然而,为了获得非线性信息,φ(·)在大多数情况下是非线性的,并且具有高维甚至无限维,这使得很难找到精确的表示。为了解决这个问题,核方法提供了一种捷径,即跳过φ(x)、φ(y)的过程,直接计算核函数k(x,y)。核机(例如支持向量机)利用核方法,其中提升的数据点之间的内积可以计算为 k(x, y)。然而,这种机制的代价是算法只能通过每个数据对之间的 k(x, y) 评估来访问数据,当训练集很大时,这会带来巨大的计算和存储成本。
最近,核近似引起了越来越多的关注,它用于使用随机特征图 z:Rd →RL 将数据显式映射到低维内积空间,使得
在这里插入图片描述
其中 L 是近似内积空间的维数。
最广泛使用的核近似方法之一是基于随机傅里叶特征的方法,该方法源自博赫纳定理。
定理 1(Bochner [40]):连续函数 g : Rd → C 仅当它是 Rd 上有限非负 Borel 测量 μ(ω) 的傅立叶变换时,在 Rd 上才是正定的,即:
在这里插入图片描述
其中 j 表示虚数单位。
命题1:对于平移不变核k(x − y),x ∈ Rd 的随机傅立叶特征可以表示为
在这里插入图片描述
其中 ω 是从 k(x − y) 的傅里叶变换中采样的,bi 是从 [0, 2π] [41] 中统一得出的。
命题1保证了z(x)Tz(y)的期望等于k(x,y)。但是,这个命题并不能保证所采用的核近似的收敛性,我们因此提出如下命题来从理论上保证收敛性。
命题2(收敛):对于命题1中的特征映射z(·),z(x) z(y)收敛到k(x,y),其中较大的L导致更快的收敛。具体来说
在这里插入图片描述
命题6保证了近似的收敛性。有了这两个命题,我们就可以将核解耦为z(x)和z(y)的内积,并将z(·)视为原始提升φ(·)的替代。
令 φ(·)。然而,命题6仅保证L→∞时的无偏估计,这意味着计算开销和存储成本随着维数的增加而大幅增加。幸运的是,在 ConvNet 中实现核近似解决了这个问题。卷积网络是完全数据驱动的,它在训练过程中动态调整参数以达到最小偏差,以减少内核与其相应近似值之间的差距。从这个角度来看,将核近似集成到ConvNets中可以减轻计算和存储负担的问题,而无需放弃端到端的训练。
正如之前所讨论的,我们需要一个整体表示来区分细粒度任务中的不同下属类别。从技术上讲,我们需要将注意力模块细化的特征图转换为单个向量。因此,我们建议在ConvNets中应用从Bochner定理导出的傅立叶嵌入,通过利用内核强大的非线性学习能力,将特征图编码为图像的整体表示。
出于上述动机,我们开始设计我们的编码模块。为了从不同视角提取特征,我们在两个方向上实现傅里叶嵌入。**从纵向角度来看,特征图是一批局部特征向量,描述与每个空间位置相关的局部响应。从横向角度来看,如果我们将每个滤波器视为特征检测器,则每个特征图都承载了整个图像的某个方面。**因此,为了在特征图中很好地保留这两个互补的信息源,我们沿纵向和横向应用核编码。
2) 纵向核编码:如图3中的纵向核编码模块所示,X∼ ∈ RW×H×C 包含输入特征图,从X∼中提取的每个纵向向量表示为xi ∈ RC,其中1 ≤ i ≤ W × H。根据命题 1,我们现在通过傅立叶嵌入构造 z(xi ),从而得到
在这里插入图片描述
其中 W ∈ RC×L1 包含可训练的权重参数。我们最初从高斯分布中采样 W,高斯分布是高斯核的傅立叶变换,作为典型的平移不变核。偏置参数通过从[0, 2π]均匀绘制来初始化。事实证明,这是一个具有余弦激活的非线性层,可以无缝注入神经网络,而无需放弃端到端训练。将所有纵向向量嵌入到更紧凑的低维空间后,我们通过平均池化将它们聚合成L1维单特征向量vL。
3)横向核编码:纵向向量包含局部语义特征,不包含空间信息。因此,我们设计了横向内核编码模块来聚合每个通道中的整个图。如图3中的横向核编码模块所示,我们首先将X中的每个特征图X~j∈RW×H重塑为长度为W×H的向量yj,其中1≤j≤C。然后,类似地对于纵向编码,我们应用命题 1 并将 yi 嵌入到低维空间中,从而得到
在这里插入图片描述
其中 W ∈ RWH×L2 包含训练阶段要学习的参数。嵌入后,我们还使用卷积层来缩小特征图。然后我们应用平均池化将它们聚合成 L2 维单特征向量 vT 。

2.4 整体

通过上面介绍的三个模块,我们得到了整个框架,如图3所示。卷积模块首先从输入图像中提取特征并生成基本特征图。然后,Cas-Attention 模块突出显示先前特征图的判别区域。之后,特征图分别经过纵向和横向内核编码模块。纵向核编码模块输出长度为L1的向量,横向核编码模块输出长度为L2的向量。然后我们将这两个向量连接在一起形成 L1 + L2 维度的向量。最后,我们采用带有 softmax 运算的全连接层来获得分类的概率分布 。

3、结论

在这项工作中,我们提出了注意力内核编码网络(AKEN),它提供了一种新的深度特征编码架构,可以为细粒度视觉分类生成高度辨别性的特征表示。
我们将核近似引入到用于非线性特征编码的深度卷积网络中,该编码在纵向和横向上均实现。
为了增强特征编码模块,我们进一步设计了一个带有残差机制的Cas-Attention模块来突出可以区分不同类别的局部区域。
我们的 AKEN 利用了用于特征提取的 ConvNet 和用于非线性学习的内核的优势。
三个基准数据集的实验结果表明,我们提出的 AKEN 提供了极具竞争力的性能,超越了大多数以前的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1276145.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【性能测试】性能分析和调优——步骤及案例

文章目录 性能测试瓶颈分析常见的性能瓶颈分析性能调优性能调优步骤 性能调优案例案例一——CPU案例二——网络案例三——SQL查询案例四——JVM内存溢出 阅读前建议先了解前一篇文章:【性能测试】性能测试监控关键指标 性能测试瓶颈分析 常见的性能瓶颈分析 1、服…

qemu网络通信

TAP(官网参考地址) TAP,即Tunneling traffic access point,是一种在Linux上使用的虚拟网卡技术,它可以为应用程序提供安全的网络连接。可以利用TAP搭建桥接网络,bridge两端分别为host和qemu虚拟机。 安装…

带删除的并查集

Almost Union-Find 支持三种操作 合并 x x x和 y y y所在的集合把 x x x移到 y y y所在的集合求 x x x所在的集合的元素个数和元素之和 操作1和3是基本的并查集的操作. 关键在于操作 2 2 2: 若使用朴素的并查集,把节点 1 1 1合并到 3 3 3所在的集合,会…

人机协同

人机协同是指人和机器之间进行合作和协同工作的方式,人机协同是人工智能技术发展的一个重要方向,通过人机协同的方式,可以充分利用机器的智能和人的智慧,共同实现更高效、更智能的工作和生活方式。人机协同可以应用于各种领域和场…

CGAL中2D三角剖分的数据结构

1、定义 三角剖分数据结构是一种设计用于处理二维三角剖分表示的数据结构。三角剖分数据结构的概念主要是设计用作CGAL2D三角剖分类的数据结构,这些类是嵌入平面中的三角剖分。然而,这个概念似乎更一般,可以用于任何可定向的无边界三角剖分曲…

Robotframework自动化常见问题总结

Robotframework自动化新手常见问题总结 1. 经常有人问这个元素找不到,一般先排除这两个地方,再自己找找 A:是否等待了足够的时间让元素加载 (增加sleep xx, wait Until xxx) B: 仔细查查,这个元素是否进入到另一个frame了 (sel…

从订阅式需求发展,透视凌雄科技DaaS模式增长潜力

订阅制,C端消费者早已耳熟能详,如今也凭借灵活、服务更新稳定的特点,逐渐成为B端企业服务的新热点。 比如对中小企业而言,办公IT设备等配套支出都必不可少,但收入本身并不稳定,购置大堆固定资产&#xff0…

uniapp实现文件预览过程

H5实现预览 <template><iframe :src"_url" style"width:100vw; height: 100vh;" frameborder"0"></iframe> </template> <script lang"ts"> export default {data() {return {_url: ,}},onLoad(option…

激光SLAM:Faster-Lio 算法编译与测试

激光SLAM&#xff1a;Faster-Lio 算法编译与测试 前言编译测试离线测试在线测试 前言 Faster-LIO是基于FastLIO2开发的。FastLIO2是开源LIO中比较优秀的一个&#xff0c;前端用了增量的kdtree&#xff08;ikd-tree&#xff09;&#xff0c;后端用了迭代ESKF&#xff08;IEKF&a…

7、单片机与W25Q128(FLASH)的通讯(SPI)实验(STM32F407)

SPI接口简介 SPI 是英语Serial Peripheral interface的缩写&#xff0c;顾名思义就是串行外围设备接口。是Motorola首先在其MC68HCXX系列处理器上定义的。 SPI&#xff0c;是一种高速的&#xff0c;全双工&#xff0c;同步的通信总线&#xff0c;并且在芯片的管脚上只占用四根…

【学习记录】从0开始的Linux学习之旅——应用开发(helloworld)

一、概述 Linux操作系统通常是基于Linux内核&#xff0c;并结合GNU项目中的工具和应用程序而成。Linux操作系统支持多用户、多任务和多线程&#xff0c;具有强大的网络功能和良好的兼容性。本文主要讲述如何在linux系统上进行应用开发。 二、概念及原理 应用程序通过系统调用与…

理解BatchNormalization层的作用

深度学习 文章目录 深度学习前言一、“Internal Covariate Shift”问题二、BatchNorm的本质思想三、训练阶段如何做BatchNorm四、BatchNorm的推理(Inference)过程五、BatchNorm的好处六、机器学习中mini-batch和batch有什么区别 前言 Batch Normalization作为最近一年来DL的重…

漏洞复现--Tenda路由器DownloadCfg信息泄露

免责声明&#xff1a; 文章中涉及的漏洞均已修复&#xff0c;敏感信息均已做打码处理&#xff0c;文章仅做经验分享用途&#xff0c;切勿当真&#xff0c;未授权的攻击属于非法行为&#xff01;文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直…

IntelliJ IDEA创建springboot项目时不能选择java8的问题解决方案

最近博主也有创建springboot项目&#xff0c;发现了IntelliJ IDEA在通过Spring Initilizer初始化项目的时候已经没有java8版本的选项了。 基于这个问题&#xff0c;有了这篇文章的分享&#xff0c;希望能够帮助大家克服这个困难。 如图&#xff0c;现在创建springboot项目的时…

BLIoTLink工业协议转换软件功能和使用教程

1.功能简介 BLIoTLink 是一款各种 PLC 协议、Modbus RTU 、Modbus TCP、DL/T645 等多 种协议转换为 Modbus TCP、OPC UA、MQTT、BACnet IP、华为云 IoT、亚 马逊云 IoT、阿里云 IoT、ThingsBoard、钡铼云 IoT 等协议的软件。 BLIoTLink 下行支持&#xff1a;各种 PLC 协议、Mod…

ES6知识

作用域 局部作用域 局部作用域分为函数作用域和块作用域 函数作用域 在函数内部声明的变量只能在函数内部被访问&#xff0c;外部无法直接访问。函数的参数也是函数内部的局部变量。不同函数内部声明的变量无法互相访问。函数执行完毕后&#xff0c;函数内部的变量实际被清空…

【代码】考虑差异性充电模式的电动汽车充放电优化调度matlab-yalmip-cplex/gurobi

程序名称&#xff1a;考虑差异性充电模式的电动汽车充放电优化调度 实现平台&#xff1a;matlab-yalmip-cplex/gurobi 代码简介&#xff1a;提出了一种微电网中电动汽车的协调充电调度方法&#xff0c;以将负荷需求从高峰期转移到低谷期。在所提出的方法中&#xff0c;基于充…

(一)Tiki-taka算法(TTA)求解无人机三维路径规划研究(MATLAB)

一、无人机模型简介&#xff1a; 单个无人机三维路径规划问题及其建模_IT猿手的博客-CSDN博客 参考文献&#xff1a; [1]胡观凯,钟建华,李永正,黎万洪.基于IPSO-GA算法的无人机三维路径规划[J].现代电子技术,2023,46(07):115-120 二、Tiki-taka算法&#xff08;TTA&#xf…

AutoDL 使用记录

AutoDL 使用记录 1.租用新实例 创建实例需要依次选择&#xff1a;计费方式 → \to → 地区 → \to → GPU型号与数量 → \to → 主机 注意事项&#xff1a; 主机 ID&#xff1a;一个吉利的机号有助于炼丹成功价格&#xff1a;哪个便宜选哪个最高 CUDA 版本&#xff1a;影响…

操作系统-输入输出管理

I/O设备的基本概念和分类 I/O就是输入/输出 I/O设备就是可以将数据输入到计算机&#xff0c;或者可以接收计算机输出数据的外部设备&#xff0c;属于计算机中的硬件部件。 I/O设备按使用特性分类 人机交互类外部设备存储设备网络通信设备 I/O设备按传输速率分类 低速设备中…