助你疯狂涨点!16种注意力机制魔改模型!

news2024/11/17 23:26:56

【注意力机制模型】是近年来在深度学习领域中备受关注的一项技术。它通过为输入数据中的重要部分分配更高的权重,从而增强模型对关键特征的识别能力。注意力机制在神经网络的不同层次上应用,可以动态调整注意力权重,从而提高模型的性能。该技术已经在图像处理、自然语言处理和语音识别等多个领域取得了显著成果,其独特的方法和有效的表现使其成为研究热点之一。

为了帮助大家全面掌握注意力机制模型的方法并寻找创新点,本文总结了最近两年注意力机制模型相关的16篇顶会顶刊的研究成果。这些论文的文章、来源以及代码都整理好了,希望能为各位的研究工作提供有价值的参考。

需要的同学扫码添加我

回复“注意力机制模型16”即可全部领取

图片

1、Attention Guided CAM: Visual Explanations of Vision Transformer Guided by Self-Attention

图片

-文章首先介绍了ViT作为计算机视觉领域中广泛使用的一种模型,因其在各种任务上的优秀表现而受到关注。然而,由于ViT独特的结构,如使用[class] token和自注意力机制,导致传统的基于CNN的可视化方法并不适用于ViT。为了在各种应用中充分利用基于ViT的架构,需要适当的可视化方法来提供合理的定位性能。

-作者提出了一种新的注意力引导的可视化方法,用于解释ViT的决策过程。该方法通过选择性聚合直接从分类输出传播到每个自注意力的梯度,收集输入图像中每个位置提取的图像特征的贡献。这些梯度由标准化的自注意力分数引导,这些分数是成对的patch相关性分数,用于有效补充自注意力机制检测到的patch级上下文信息。

-文章详细描述了如何生成类激活映射(CAM),这是一种高语义解释的可视化技术。具体来说,作者关注了从分类输出到每个编码器块的梯度,这些梯度通过跳跃连接的反向路径传播。此外,这些关键梯度由自注意力分数矩阵的新标准化特征图引导,这些特征图通过sigmoid操作进行归一化。文章还解释了为何选择自注意力块中的梯度和特征图,以及如何通过自注意力机制保持输入图像的空间位置信息。

-作者在ImageNet ILSVRC 2012、Pascal VOC 2012和Caltech-UCSD Birds-200-2011(CUB 200)数据集上进行了实验,与现有的ViT可解释性方法(如Attention Rollout和基于LRP的方法)进行了比较。结果表明,新方法在弱监督定位任务中的表现优于先前的方法,并且在捕获目标类别对象的全部实例方面展现出了强大的能力。此外,通过像素扰动实验,作者还展示了新方法在提高可视化可靠性方面的优势。

-文章最后总结了所提出方法的优势,即通过注意力引导的梯度分析,实现了更好的弱监督定位性能。新方法不仅提供了ViT的高语义解释,而且在捕获给定类别对象的多个实例方面表现出色,为模型提供了可靠的解释,并使ViT能够更好地适应涉及计算机视觉领域目标定位的多种任务。

2、Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition

图片

文章的核心研究是关于人类视觉注意力的预测,特别是在人类观察者理解人与物体之间交互时产生的复杂交互导向注意力。这种注意力对于推动人机交互和以人为中心的人工智能发展至关重要,但目前尚未得到充分研究。

-为了填补这一空白,作者首先收集了一个名为IG(Interactive Gaze)的新注视点数据集,包含530,000个注视点,涵盖740种不同的交互类别,记录了人类观察者在认知交互过程中的视觉注意力。接着,作者引入了零样本交互导向注意力预测任务(ZeroIA),挑战模型在训练过程中未遇到的交互的视觉线索预测。此外,作者提出了一种交互注意力模型(IA),旨在模拟人类观察者的认知过程,解决ZeroIA问题。通过大量实验,证明所提出的IA模型在ZeroIA和全监督设置中的性能都超过了其他最先进的方法。

-最后,作者尝试将交互导向注意力应用于交互识别任务本身,进一步的实验结果显示,通过结合来自IG的真实人类注意力数据和IA生成的注意力标签,有潜力提升现有最先进HOI(Human-Object Interaction)模型的性能和可解释性。

-文章首先介绍了人类视觉注意力对理解人类如何感知、理解和与世界交互的重要性。然后,作者指出大多数现有的注意力预测研究都集中在显著的实例上,如人类和物体,而对由人类观察者理解实例间交互产生的更复杂的交互导向注意力的研究却很少。为了解决这个问题,作者创建了IG数据集,收集了32名人类观察者在740种交互类别中的注视点,这些类别包括80个物体和132个动作。IG数据集的创建,为视觉注意力和动作理解的研究提供了重要的桥梁。

-接着,文章介绍了交互注意力模型(IA)。该模型的设计灵感来源于人类观察者的认知过程,通过交互导向的提示块(PB)激活CLIP强大的知识表示能力,并通过两个小型可学习的适配器来模拟HOI认知任务,生成场景自适应的知识原型(KPs)和鲁棒的视觉特征。IA模型首先感知和理解单个实例,即人类和物体,然后进一步理解实例之间展开的交互,最终生成交互导向的注意力图。

-在实验部分,作者展示了IA模型在ZeroIA和全监督设置中的性能,并与其他10种最先进方法进行了比较。结果表明,IA模型在所有评估指标上均优于其他方法。此外,作者还探讨了如何将目标导向注意力反馈给目标本身,特别是建立了一个连接目标导向注意力和动作理解的双向路径,并提出了一种通用且有效的HOI训练策略。这种策略可以通过额外的交互导向注意力监督来补充大多数现有模型的损失,从而提升性能。

-文章最后总结了所提出的工作的贡献,包括引入ZeroIA问题和IG数据集,提出模拟人类认知过程预测高质量交互导向注意力的IA模型,以及引入一种通用简单的HOI训练策略,通过注意力对现有HOI模型进行增强。作者认为这项工作不仅对目标导向注意力的研究和应用具有启发性,而且在DNNs的可解释性评估、人工智能协作和价值观对齐研究等领域也具有潜在应用。

需要的同学扫码添加我

回复“注意力机制模型16”即可全部领取

图片

3、HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention

图片

-HPNet旨在提高自动驾驶系统中道路参与者轨迹预测的稳定性和准确性。与现有主流方法不同,HPNet采用了一种动态的轨迹预测范式,不仅利用历史帧信息,还考虑了历史预测。

-文章指出,先前的轨迹预测方法通常独立地在相邻时间步进行预测,这可能导致潜在的不稳定性问题和时间上的不一致性。为了解决这些问题,HPNet引入了一个名为Historical Prediction Attention(历史预测注意力)的模块,该模块能够自动编码连续预测之间的动态关系。此外,HPNet还将注意力范围扩展到当前可见窗口之外,利用历史预测信息。

-HPNet由三个主要部分组成:时空上下文编码、三因素分解注意力和多模态输出。首先,通过模式查询聚合时空上下文,形成初步的预测嵌入。然后,三因素分解注意力(包括代理注意力、历史预测注意力和模式注意力)分别对代理、预测和模式之间的交互进行建模,以获得更丰富的预测嵌入。最后,嵌入被解码为多模态未来轨迹。

-文章通过在Argoverse和INTERACTION数据集上的实验表明,HPNet实现了最先进的性能,生成了准确和稳定的未来轨迹。HPNet的代码已在GitHub上公开。

-具体来说,HPNet利用图神经网络对代理和地图的特征进行编码,并采用相对时空位置编码。它通过两层MLP对代理的独立于位置的特征进行编码,并使用类似的MLP对地图特征进行编码。HPNet还采用了时空注意力机制,包括时间注意力和空间注意力,分别聚合代理的历史嵌入和模拟代理-车道交互。

-在三因素分解注意力中,代理注意力模块通过自注意力机制在每个模式和时间步骤上跨代理进行操作,以模拟代理之间的交互。历史预测注意力模块则通过自注意力机制将当前预测嵌入与历史预测嵌入相结合,动态地建模连续预测之间的内在相关性。模式注意力进一步在不同模式之间应用自注意力,增强多模态输出。

-最后,预测嵌入通过两层MLP解码为多个未来位置,并通过整个流程再次输入以进一步细化预测轨迹。训练目标采用winner-takes-all策略,优化模型。

-文章还进行了消融研究,分析了三因素分解注意力中各个注意力模块的重要性,并探讨了历史预测注意力对预测准确性和稳定性的影响。此外,还研究了历史预测注意力对反应及时性的影响。

-总之,HPNet通过引入历史预测注意力,显著提高了轨迹预测的准确性和稳定性,对自动驾驶系统的决策和安全性具有重要意义。

需要的同学扫码添加我

回复“注意力机制模型16”即可全部领取

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1882692.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端学习二(JavaScript上)

JavaScript的学习笔记分享,帮助我自己和大家一起建立对JavaScript的了解和学习。Life need to share. ##文章内容:JavaScript 定义和的实现 ##编写内容:1.html实现平台 2.HTML简介 3.HTML语言解析 ##编写人:贾雯爽 ##最后更新…

TikTok直播限流与网络的关系及解决方法

TikTok作为一款热门的社交平台,其直播功能吸引了大量用户。然而,一些用户可能会遇到TikTok直播限流的问题,例如直播过程中出现播放量低、直播画面质量差等情况。那么,TikTok直播限流与所使用的网络线路是否有关系?是否…

如何使用命令提示符查询电脑相关序列号等信息的操作方法

如何使用命令提示符查询硬盘的序列号? 如果出于保修或其他目的,你想知道硬盘驱动器的序列号,你不想使用第三方应用程序,或者如果你更喜欢命令行方法,则可以使用带有命令提示符的命令来显示硬盘驱动器的序列号。 1. 按…

AutoHotKey自动热键(二)中文版帮助手册下载和自定义一般键盘快捷键

所有的操作其实在开发者手册中已经交待完了,所以我们要使用中文的手册来进行使用 autohotkey1.1.15中文手册下载 好了,为什么有了中文手册,这里还要进行一些具体的介绍呢,就是为了让大家少踩坑,能够快速形成生产力 这里先讲一下自定义快捷键WIN键和ALT键和CTRL键和SHIFT键的组…

Linux系统编程:信号

目录 1.信号概念 2.信号产生 2.1 终端 2.2 系统调用 2.3 硬件异常 2.4 软件条件 2.5 小结 3. 进程退出时的核心转储问题 4. 信号捕捉初识 5. 阻塞信号 5.1 相关概念 5.2 在内核中的表示 6. 信号捕捉 6.1 知识铺垫 6.2 信号捕捉流程 6.3 sigset_t 6.4 信号集操…

VaRest插件常用节点以及Http请求数据

1.解析json (1)Construct Json Object:构建json对象 (2)Decode Json:解析json 将string转换为json (3)Encode json:将json转换为string (4)Get S…

麒麟v10-sp3安装kkfileview

1、上传包到服务器 执行:/bin/startup.sh 会自动安装LibreOffice,因为/bin/install.sh判断了不是redhat-release就是ubuntu,导致麒麟系统会走ubuntu,所以会失败,这里改一下如果是麒麟也走install_redhat就可以了 也…

HarmonyOS Next开发学习手册——显示图片 (Image)

开发者经常需要在应用中显示一些图片,例如:按钮中的icon、网络图片、本地图片等。在应用中显示图片需要使用Image组件实现,Image支持多种图片格式,包括png、jpg、bmp、svg和gif,具体用法请参考 Image 组件。 Image通过…

亚马逊广告如何设置关键词竞价获取最优广告投入产出比 (ACOS)

在投放亚马逊商品广告的时候,从我们通常的理解来说,关键词竞价CPC设置的越高,广告投入产出比 (ACOS)越高,所以我们通常希望CPC越低越好,但是从我们实际投放广告来看,CPC与ACOS并不是线性相关。有时候CPC设定…

大数据开发助手:Coze平台上一款致力于高效解决大数据开发问题的智能Bot!

大数据开发助手:Coze平台上一款致力于高效解决大数据开发问题的智能Bot 核心技术揭秘1. **自然语言处理(NLP)**2. **知识图谱构建**3. **个性化推荐算法** 功能特色概览1. **即时问题解答**2. **最佳实践分享**3. **个性化学习路径**4. **社区…

“蓝潮卫士“水位雨量监测一体机,重塑城市防洪新防线!

​ 6月24日,湖南长沙遭遇了一场突如其来的特大暴雨侵袭。天空像破了个口子,雨水倾盆而下,仅仅1小时,就下了54个西湖,降水量突破了历史同期极值。这场暴雨直接导致了严重的城市内涝问题,部分地区瞬间变成一…

DataWhaleAI Tsak1 运行Baseline

题目背景 在当今数字化时代,企业积累了丰富的对话数据,这些数据不仅是客户与企业之间交流的记录,更是隐藏着宝贵信息的宝库。在这个背景下,群聊对话分角色要素提取成为了企业营销和服务的一项重要策略。 群聊对话分角色要素提取…

CAS服务端部署

部署CAS Cas服务端其实就是一个war包。 在资源\cas\source\cas-server-4.0.0-release\cas-server-4.0.0\modules目录下cas-server-webapp-4.0.0.war 将其改名为cas.war放入tomcat目录下的webapps下。启动tomcat自动解压war包。浏览器输入 登录页面 http://localhost:8080/ca…

前端:多服务端接口资源整合与zip打包下载

项目需求 前端项目开发中,有一个页面需要去整合多个服务接口返回的数据资源,并且需要将这多个服务接口接口返回的数据进行资源压缩,最终打包成zip压缩包,并在客户端完成下载。 基本需求梳理如下, 实现思路 这个需求点其实本质上还是传统的“文件下载”功能需求,常见的例如…

昇思25天学习打卡营第6天|网络构建

网络构建 概念模型模型参数 概念 神经网络模型是由神经网络层和Tensor操作构成的,mindspore.nn提供了常见神经网络层的实现,在MindSpore中,Cell类是构建所有网络的基类,也是网络的基本单元。一个神经网络模型表示为一个Cell&…

【AI大模型】在健康睡眠监测中的深度融合与实践案例

文章目录 1. 应用方案2. 技术实现2.1 数据采集与预处理2.2 构建与训练模型2.3 个性化建议生成 3. 优化策略4. 应用示例:多模态数据融合与实时监测4.1 数据采集4.2 实时监测与反馈 5. 深入分析模型选择和优化5.1 LSTM模型的优势和优化策略5.2 CNN模型的优势和优化策略…

软考:软件设计师 知识点整理 1

一. 计算机组成与体系结构 1. 数据的表示 (1)进制转换 进制数码基数位权十进制(D)0,1,2,3,4,5,6,7,8,910二进制(B)0,12十六进制(H)0~9,A,B,C,D,E,F16 按权展开法: 二…

【深入浅出 】——【Python 字典】——【详解】

目录 1. 什么是 Python 字典? 1.1 字典的基本概念 1.2 字典的用途 1.3 字典的优势 2. 字典的基本特点 2.1 键的唯一性 2.2 可变性 2.3 无序性 3. 如何创建字典? 3.1 使用 {} 符号 3.2 使用 dict() 工厂方法 3.3 使用 fromkeys() 方法 4. 字…

js修改scss变量

style.scss $color : var(--color,#ccc); // 默认值 #ccc .color{background: $color; } 定义了一个scss变量($color),用普通的css变量(--color)给他赋值,这里需要一个默认值,此时css变量(--co…

线性图标设计

创建图标区域 按键A,创建一个24x24的背景。 图标绘制包含几个点 矢量图形绘制:箭头、圆、三角...... 绘制箭头和矩形 1.下载图标 双击矩形选中要删除的点 调整一下即可得到下载的图标。 2.时间图标 按快捷键O画个圆,L加两条线变成一个时钟…