DGMamba: Domain Generalization via Generalized State Space Model论文笔记

news2025/1/12 15:42:47

文章目录

  • DGMamba: Domain Generalization via Generalized State Space Model
    • 摘要
    • 动机
    • DGMamba设计
      • 隐藏状态抑制(HSS)
      • 语义感知补丁细化(SPR)
        • 免先验扫描
        • 域上下文交换
        • 上下文patch识别
    • 实验结果

DGMamba: Domain Generalization via Generalized State Space Model

paper: https://arxiv.org/abs/2404.07794
code: https://github.com/longshaocong/DGMamba(暂时没有可用代码)

摘要

  • 领域泛化(DG)旨在解决各种场景下的分布转移问题。
  • 现有的方法基于卷积神经网络(CNN)或视觉transformer(ViT), 它们存在接受域有限或二次复杂度的问题。
  • Mamba作为一种新兴的状态空间模型(SSM),具有优越的线性复杂度和全局感受野。尽管如此,由于隐藏状态问题和不适当的扫描机制,它很难应用于DG来解决分布变化。
  • 作者提出了一种新的DG框架(DGMamba),它具有对未见领域的强泛化性,同时具有全局感受野和高效线性复杂度的优点。
  • DGMamba包含两个核心组件: 隐藏状态抑制(HSS)和语义感知补丁细化(SPR)。HSS是为了减轻输出预测期间与特定领域相关的隐藏状态的影响。SPR是为了让模型更多地关注对象而不是上下文,由免先验扫描(PFS)和域上下文交换(DGI)。
  • PFS的目标是打乱图像中的非语义补丁,从图像中创建更灵活、更有效的序列。DGI的目的是通过融合域之间的补丁,结合不匹配的非语义和语义信息来正则化Mamba。

动机

0

  • 目标是增强Mamba模型对未知领域的通用性。
  • 作者观察到隐藏状态作为Mamba的重要组成部分,通过记录序列数据中的历史信息,促进全局感受野,在长期相关性建模中发挥着重要作用。然而,当处理包含来自不同领域的不同特定信息的看不见的图像时,这种隐藏状态可能会产生不良效果。如上图(a)所示,特定领域的信息可能会在传播过程中在隐藏状态中累积甚至放大,从而降低泛化性能。
  • 如何有效地将2D图像扫描成适合DG中Mamba的1D序列数据仍然是一个悬而未决的问题,因为图像的像素或斑块不表现出序列数据中存在的必要因果关系。尽管最近的工作已经探索了视觉任务的各种扫描策略,但这种简单的一维遍历策略可能会导致生成的序列数据中出现意外的特定领域信息(上图c), 从而削弱了Mamba解决分布变化的能力。此外,这些固定扫描策略很大程度上忽略了与领域无关的扫描,并且对各种不同的场景高度敏感,因此很难应用于DG。

DGMamba设计

DGMamba是一种新颖的基于状态空间模型的领域泛化框架,它擅长对未见领域的强泛化性,同时具有全局感受野和高效线性复杂度的优势。
1

隐藏状态抑制(HSS)

HSS通过在输出预测期间选择地抑制相应的隐藏状态来消除隐藏状态中包含的非语义信息的有害影响。通过减少SSM层中的非语义信息,DGMamba学习域不变特征。

为了抑制隐藏状态中传达的意外的特定领域信息,最初的任务是识别包含不利因素的隐藏状态。在隐藏状态的传播过程中,与真实标签显示出更强相关性的隐藏状态应该被保留。因此,他需要SSM中(SSM相关可以查看Mamba) A ˉ \bar{\mathbf{A}} Aˉ中较大的传播系数,而关联较少的隐藏状态需要 A ˉ \bar{\mathbf{A}} Aˉ中相对较小的洗漱。因此, Δ A \Delta A ΔA的值用于确定哪些隐藏状态将受到抑制。从数学上讲,隐藏状态抑制的策略为
y t = C ˉ h t m a t h b f C ˉ = C ⊙ M M = ( Δ > α ) + ( 1 − ( Δ A > α ) ⊙ Δ A ) \begin{aligned} y_t&=\bar{\mathbf{C}}h_t\\ \bar{mathbf{C}}&=\mathbf{C}\odot \mathbf{M}\\ \mathbf{M}&=(\Delta>\alpha)+(1-(\Delta A>\alpha)\odot\Delta A) \end{aligned} ytmathbfCˉM=Cˉht=CM=(Δ>α)+(1(ΔA>α)ΔA)
其中, α ∈ [ 0 , 0.5 ] \alpha\in[0,0.5] α[0,0.5]表示确定是否应抑制隐藏状态的阈值。这样,系数参数 Δ A < = α \Delta A<=\alpha ΔA<=α的隐藏状态将被 Δ A \Delta A ΔA抑制,而其余隐藏状态保持不变。

语义感知补丁细化(SPR)

SPR的作用是鼓励模型更多地关注对象而不是上下文,它包含免先验扫描(PES)和域上下文交换(DCI)。

PES旨在对图像内的上下文补丁进行打乱,并减少对标签预测的贡献。它提供了一种有效地2D扫描机制,将2D图像遍历成1D序列数据。因此,PFS具有将模型的注意力从上下文转移到对象的能力。

为了减轻跨不同域的不同上下文信息和局部纹理细节的影响,DCI将图像的上下文补丁替换为来自不同域的上下文补丁。所提出的DCI引入了局部纹理噪声,并根据不匹配的上下文和对象的组合对模型进行了正则化。通过利用线性复杂性和异构上下文标记,DCI可以有效地学习更稳健的表示。

从领域不变角度来看,上下文和对象是两个基本元素。对象对应前景,对分类结果贡献最大,在不同场景中保持静止。上下文与特定域的信息相关,例如背景和图像样式,这些信息在不同域之间差异很大。因此,将模型的焦点转向对象可以帮助减少特定于领域的信息。

免先验扫描

尽管基于SSM的模型在视觉任务中表现出了出色的性能,但多样化和随机的上下文环境对于在DG中部署Mamba仍然至关重要。这一结论表明,仍然需要一种有效的扫描机制来应对图像像素或块之间的非因果相关性带来的挑战。合适的扫描机制应该能够打破由手动创建的图像序列引起的意外的虚假相关性。然而,现有的基于SSM的方法仅限于以固定的展开方式将图像扫描成patch。这些助管遍历策略可能会在生成的序列中产生域特定信息,从而使这些模型难以解决DG中的分布变化。

为了打破patch之间的虚假相关性并为DG任务提供有效的扫描机制,作者提出了PFS来解决Mamba中的方向敏感问题。如主图所示,PFS尝试随机打乱上下文补丁,这可能有助于展开序列中的域特定信息,同时保留对象patch。特别是,对于表示 z = z c + z o ∈ R H × W × C z=z_c+z_o\in\mathbb{R}^{H\times W\times C} z=zc+zoRH×W×C, 其中 z c z_c zc z o z_o zo表示上下文信息和对象信息,PFS策略后的 z p f s z_{pfs} zpfs可以表示为:
z p f s = z c s + z o z c s = S h u f f l e ( z c ) \begin{aligned} z_{pfs}&=z_c^s+z_o\\ z^s_c&=Shuffle(z_c) \end{aligned} zpfszcs=zcs+zo=Shuffle(zc)
其中 z c s z^s_c zcs表示在空间维度上使用 S h u f f l e ( ⋅ ) Shuffle(·) Shuffle()函数打乱的上下文信息。该操作可以通过生成上下文干扰或噪声,同时保持一致的对象信息,为Mamba提供展现灵活扫描方向的序列数据。因此,它减轻了手动固定扁平化策略带来的域特定信息,并打破了虚假的相关性。

域上下文交换

DG中不同域的上下文信息是异构的。PFS中的上下文patch在给定场景中受到限制,不足以提供足够多样化的上下文信息来删除域特定信息。此外,来自不同域的异构上下文patch不仅表现出不同的上下文信息,而且还包含不同的局部纹理特征。

为了充分解决异构上下文和不同局部纹理细节的不利影响,作者建议创建充足的上下文场景并通过域上下文交换(DCI)引入局部纹理噪声。DCI将图像上下文patch替换为来自不同域的补丁。该操作在反制样本上对模型进行正则化,即一个域中的语义信息和来自不同域的非语义特征的组合。这种策略进一步迫使模型专注于可概括的特征,同时丢弃文本细节或其他特定的领域特征。

上下文patch识别

为了区分文本和目标patch, 利用Grad-CAM作为度量来衡量不同域的贡献图像。由于包含对象的区域会极大地激活Grad-CAM, 而表现出上下文patch在Grad-CAM中具有较低的值。因此,图像patch根据Grad-CAM生成的激活图中的值分为context和object。具体的说,将小于 25 25% 25的Grad-CAM值的patch确定为上下文信息 z c z_c zc, 其余的则为对象信息 z o z_o zo

实验结果

遵循 DG中的标准协议,作者评估了我们提出的 DGMamba 的有效性,并在五个常用基准上将其与 DG 中最先进的方法进行比较:(1)PACS 包含 9991 张图像,分为 7 个类别,展示 4 种风格。 (2)VLCS涉及4个数据集,共10729张图像,分布在5个类别。 (3) OfficeHome 包含来自 4 个数据集的 65 个类别的 15588 张图像。 (4) TerraIncognita包含在 4 个不同地点拍摄的 10 种动物的 24330 张照片。 (5) DomainNet包含 586575 张图像,分为来自 6 个域的 345 个类别。
2
3
4
5
6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1888863.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java到底是值传递还是引用传递

1、一定是值传递&#xff0c;给你的表象也有引用传递是因为对象传递的引用地址&#xff0c;我们在堆里更改了对象的属性值&#xff0c;但是地址没有变更&#xff0c;所以是值传递&#xff0c;可以参考方法的堆栈。 2、本质点看是否new一个新对象&#xff0c;如果new新对象&…

使用 llamaIndex 快速实现智能体

AI 智能体就是可以根据当前环境进行推理&#xff0c;并根据处理结果进行下一步的操作。简单来说 AI 智能体可以与外界环境进行交互&#xff0c;并根据结果执行更复杂的操作。本文将通过llamaIndex 实现一个简单的 Agent 实时获取数据&#xff0c;由于大模型是通过静态数据进行训…

Nginx 1.26.1最新版部署笔记

Nginx是一个高性能的 HTTP 和反向代理服务器&#xff0c;也是一个 IMAP/POP3/SMTP 代理服务器。 以下是 Nginx 的一些核心功能和特点&#xff1a; 高性能的 Web 服务器&#xff1a; Nginx 被设计为处理高并发连接&#xff0c;具有非常高的性能和稳定性。反向代理&#xff1a; …

买华为智驾,晚了肯定要后悔

文 | AUTO芯球 作者 | 雷慢 晚了就来不及了&#xff01; 你买华为系的车&#xff0c;薅羊毛真的要趁早。 华为ADS2.0高阶智驾正在慢慢恢复原价&#xff0c; 你看啊&#xff0c;就在昨天&#xff0c;华为宣布ADS智驾优惠后价格调到3万元&#xff0c; 只有6000元的优惠了。…

音视频开发35 FFmpeg 编码- 将YUV 和 pcm合成一个mp4文件

一 程序的目的 /*** *该程序的目的是: * 将 一个pcm文件 和 一个 yuv文件&#xff0c;合成为一个 0804_out.mp4文件 * pcm文件和yuv文件是从哪里来的呢&#xff1f;是从 sound_in_sync_test.mp4 文件中&#xff0c;使用ffmpeg命令 抽取出来的。 * 这样做的目的是为了对比前…

Zombie Voices Audio Pack(僵尸游戏音频包)

僵尸声音音频包是600多个高质量声波的集合。 它提供了僵尸主题游戏所需的一切&#xff0c;这要归功于它的20多个类别&#xff1a; 攻击、咬、呼吸、窒息、损坏、死亡、进食、血腥、咕噜、大笑、疼痛、反应、尖叫、喉咙、呕吐、单词和句子。 我们的僵尸动画包带来的额外奖励&am…

HarmonyOS Next系列之Echarts图表组件(折线图、柱状图、饼图等)实现(八)

系列文章目录 HarmonyOS Next 系列之省市区弹窗选择器实现&#xff08;一&#xff09; HarmonyOS Next 系列之验证码输入组件实现&#xff08;二&#xff09; HarmonyOS Next 系列之底部标签栏TabBar实现&#xff08;三&#xff09; HarmonyOS Next 系列之HTTP请求封装和Token…

【List】判断集合相等、集合拷贝

【List】判断集合相等、集合拷贝 【一】判断集合是否相等【1】☆使用list中的containAll【2】使用for循环遍历contains方法【3】将list先排序再转为String进行比较【4】使用list.retainAll()方法【5】使用MD5加密方式【6】转换为Java8中的新特性steam流再进行排序来进行比较 【…

2024 MWC上海:创新力量驱动未来先行,移远智慧点亮数字蓝海

6月26日&#xff0c;2024年世界移动通信大会&#xff08;MWC上海&#xff09;如期举行&#xff0c;今年的展会以“未来先行”为主题&#xff0c;涵盖“超越 5G、数智制造和人工智能经济”三大技术主题。移远通信作为全球物联网行业的引领者之一&#xff0c;今年不仅在展示内容上…

快速上手文心一言指令:解锁AI对话新纪元

快速上手文心一言指令 一、引言&#xff1a;文心一言的魅力所在二、准备工作&#xff1a;了解文心一言平台2.1 轻松注册&#xff0c;开启智能对话之旅2.2 深度探索&#xff0c;掌握界面布局奥秘2.2.1 输入框&#xff1a;智慧交流的起点2.2.2 回复区&#xff1a;即时反馈的窗口2…

初识Java(复习版)

一. 什么是Java Java是一种面向对象的编程语言&#xff0c;和C语言有所不同&#xff0c;C语言是一门面向过程的语言。偏底层实现&#xff0c;比较注重底层的逻辑实现。不能一味的说某一种语言特别好&#xff0c;每一种语言都是在特定的情况下有自己的优势。 二.Java语言发展史…

反射--通俗易懂

一、反射(Reflection) 反射就是:加载类&#xff0c;并允许以编程的方式解剖类中的各种成分(成员变量、方法、构造器等) 动态语言&#xff0c;是一类在运行时可以改变其结构的语言&#xff1a;例如新的函数、对象、甚至代码可以被引进&#xff0c;已有的函数可以被删除或是其他…

9.(vue3.x+vite)修改el-input,el-data-picker样式

效果预览 二:相关代码 <template><div style="padding: 50px"><el-input placeholder="请输入模型名称" style="width: 260px" /><br /

OpenELM:开启开放训练和推理框架的高效语言模型家族

随着大模型模型规模的增长&#xff0c;这些强大工具的透明度、可复现性和对数据偏见的敏感性也引起了人们的关注。这些问题不仅关系到研究的开放性和公平性&#xff0c;也关系到模型输出的可信度和安全性。为了应对这些挑战&#xff0c;Apple的研究团队发布了名为OpenELM的新一…

Real-Time 3D Graphics with WebGL2

WebGL渲染管线 下图是WebGL渲染管线的示意图: Vertex Buffer Objects (VBOs) VBOS中包含了用于描述几何体的信息。如&#xff0c;几何体的顶点坐标&#xff0c;法线坐标&#xff0c;颜色&#xff0c;纹理坐标等。 Index Buffer Objects (IBOs) IBOs中包含了描述顶点关系的信…

【Python机器学习】模型评估与改进——二分类指标

目录 1、错误类型 2、不平衡数据集 3、混淆矩阵 与精度的关系。 准确率、召回率与f-分数 分类报告 4、考虑不确定性 5、准确率-召回率曲线 6、受试者工作特征&#xff08;ROC&#xff09;与AUC 二分类可能是实践中最常见的机器学习应用&#xff0c;也是概念最简单的应…

Python | Leetcode Python题解之第206题反转链表

题目&#xff1a; 题解&#xff1a; # Definition for singly-linked list. # class ListNode: # def __init__(self, val0, nextNone): # self.val val # self.next next class Solution:def reverseList(self, head: Optional[ListNode]) -> Optio…

开源之夏|祝贺MatrixOne开源社区项目中选同学!

在本届「开源之夏 2024」活动中&#xff0c;MatrixOne开源社区共计上线3个项目任务&#xff0c;最终有 3位同学成功突围。接下来让我们看看每个项目的详细中选情况&#xff1a; 中选学生公示 项目名称&#xff1a;基于大语言模型的操作系统任务自动识别&#xff0c;拆解&#…

Seal^_^【送书活动第8期】——《ChatGLM3大模型本地化部署、应用开发与微调》

Seal^_^【送书活动第8期】——《ChatGLM3大模型本地化部署、应用开发与微调》 一、参与方式二、本期推荐图书2.1 作者建语2.2 编辑推建2.3 图书简介2.4 前 言2.5 目 录 三、正版购买 大模型领域 既是繁星点点的未知宇宙&#xff0c;也是蕴含无数可能的广阔天地&#xff0c; 正…

【Linux】—Hadoop运行环境搭建(完全分布式)

文章目录 前言一、模板虚拟机环境准备二、克隆虚拟机&#xff08;以hadoop102为例&#xff09;三、修改克隆机的IP四、安装JDK五、安装Hadoop&#xff08;完全分布式&#xff09;六、集群常用命令七、配置集群八、群起并测试集群九、配置历史服务器十、配置日志的聚集十一、集群…