【前沿 热点 顶会】NIPS/NeurIPS 2024中与Mamba/状态空间模型有关的论文

news2024/10/9 18:17:53

Hybrid Mamba:一种有前途的背景下 RL,用于长期决策

最近的研究表明,变压器模型在强化学习(RL)中具有显著的优势,在强化学习中,决策问题被描述为序列生成。基于转换器的代理可以通过提供任务上下文,例如称为 In-Context RL 的多个轨迹,在在线环境中实现自我改进。然而,由于注意在变压器中的二次计算复杂性,当前的上下文 RL 方法随着任务范围的增加而遭受巨大的计算代价。相比之下,Mamba 模型以其处理长期依赖关系的高效能力而闻名,这为上下文中的 RL 提供了解决需要长期记忆的任务的机会。为此,我们提出了一种结合了变压器和 Mamba 在高质量预测和长期记忆方面的优点的混合Mamba(HM)。具体地说,HM 首先通过 Mamba 模型从长期记忆中生成高价值的子目标。然后,我们使用子目标来提示转换器,建立高质量的预测。实验结果表明,HM 在 D4RL、网格世界和 Tmaze 基准测试等长期和短期任务中都达到了最先进的水平。

多尺度 VMamba:分层视觉状态空间模型中的分层

尽管视觉变形器(VITS)在各种视觉任务中取得了显著的成就,但它们受到二次复杂性的限制。最近,状态空间模型(SSM)由于其全局接受域和关于输入长度的线性复杂性而受到广泛关注,在自然语言处理和计算机视觉等领域显示出巨大的潜力。为了提高 SSMS 在视觉任务中的性能,广泛采用了多扫描策略,这导致 SSMS 存在显著的冗余。为了更好地权衡效率和性能,我们分析了多扫描策略成功的潜在原因,其中远程依赖起着重要作用。在此基础上,我们引入了多尺度视觉Mamba(MSVMamba)来保持 SSMS 在有限参数视觉任务中的优势。它在原始和下采样的特征图上都采用了多尺度 2D 扫描技术,这不仅有利于远程依赖学习,而且降低了计算成本。此外,我们还集成了卷积前馈网络(ConvFFN)来解决信道混合的不足。实验表明,MSVMamba 模型具有很强的竞争力,在 ImageNet 上达到了 82.8%的 TOP-1 精度,在 MASK R-CNN 框架下达到了 46.9%的盒图和 42.2%的实例图,在 COCO 上达到了 1 倍的训练进度,在 ADE20K 上达到了 47.6%的单尺度测试。

Hamba:利用图形引导双扫描 Mamba 进行单视图 3D 手部重建

由于手的灵活性、不同的姿势、截断和物体交互过程中的遮挡,从一幅 RGB 图像重建 3D 手是一项具有挑战性的任务。现有的方法使用基于注意力的变换来学习 3D 手势和形状,但这些方法不能捕捉不同关节之间的语义关系。此外,单纯依靠注意力机制进行 3D 手部网格重建并不能充分利用关节空间序列。为了解决这些问题,我们提出了一种新的图引导的 Mamba 框架,称为 Hamba,它将图学习和状态空间建模联系起来。我们的核心思想是将 Mamba 的扫描重新定义为图形引导的双向扫描,使用一些有效的标记进行 3D 重建。这使得我们能够学习关节关系和空间序列,以提高 3D 手部重建的性能。具体地说,我们设计了一个图引导状态空间(GSS)块来学习关节的图结构关系和空间序列。与基于注意力的方法相比,GSS 模块在改进语义关系学习的同时减少了 88.5%的令牌,并且可以作为其他任务的即插即用模块。此外,我们还通过一个融合模块将全局空间标记与局部图结构特征相结合。通过使用 GSS 和融合模块,Hamba 有效地利用了图引导的状态空间建模特征,并同时考虑了全局和局部特征,共同提高了性能。多基准测试和野外测试的广泛实验表明,HAMBA 的性能明显优于最先进的方法,在 FreiHAND 基准上获得了 5.3mm 的 PA-MPVPE 和 0.992 的 F@15 mm。Hamba 还在两项具有挑战性的 3D 手重建比赛中获得第一名。

ECMamba:利用 Retinex 指导整合选择性状态空间模型,以实现高效的多次曝光纠正

曝光校正(EC)旨在恢复在曝光过多或曝光不足的情况下拍摄的图像的适当曝光条件。虽然现有的深度学习模型显示出了令人振奋的结果,但很少有人将 Retinex 理论完全嵌入到他们的体系结构中,这突显了当前方法的差距。此外,高性能和效率之间的平衡仍然是曝光校正任务中未被探索的问题。受 Mamba 强大而高效的序列建模的启发,我们提出了一种新的基于 Textbf{Mamba}的双通道校正框架ECMamba,每条通道分别用于恢复反射率和照度图。具体地说,我们首先推导了 Retinex 理论,并训练了一个 Retinex 估值器,该估值器能够将输入映射到两个中间空间,每个中间空间分别近似目标的反射率和照度图。

MambaLLIE:利用全球后局部状态空间进行隐式视网膜感知弱光增强

微光图像增强的最新进展主要是基于 Retinex 的学习框架,该框架利用卷积神经网络(CNN)和 Transformers。然而,Vanilla Retinex 理论主要解决了全局照明退化问题,而忽略了黑暗条件下的噪声和模糊等局部问题。此外,由于 CNN 和 Transformers的接受范围有限,它们很难捕捉到全球退化。虽然状态空间模型(SSM)在长序列建模中显示出了良好的前景,但它们在结合视觉数据中的局部不变量和全局上下文方面面临着挑战。在本文中,我们介绍了 MambaLLIE,一种隐式 Retinex 感知的微光增强器,其特点是全局然后局部状态空间设计。我们首先提出了一种局部增强状态空间模块(LESSM),它在 2D 选择性扫描机制中加入了增强的局部偏置,通过保持局部 2D 依赖来增强原始 SSM。此外,隐式 Retinex 感知选择内核模块(IRSK)使用空间变化的操作动态选择特征,通过自适应内核选择过程适应不同的输入。我们的全局然后局部状态空间块(GLSSB)集成了 LESSM 和 IRSK,并以层归一化(LN)为核心。这种设计使 MambaLLIE 能够实现全面的全局远程建模和灵活的局部特征聚合。广泛的实验表明,MambaLLIE 的性能明显优于最先进的 CNN 和基于Transformer的方法。

3DET-Mamba:端到端 3D 对象检测的因果序列建模

基于Transformer的体系结构已被证明在从点云中检测 3D 对象方面取得了成功。然而,随着点云分辨率的提高,注意机制的二次方复杂性难以编码丰富的信息。近年来,Mamba 等状态空间模型因其线性复杂性和对语言理解的长序列建模能力而备受关注。为了挖掘 MAMBA 在 3D 场景级感知方面的潜力,我们首次提出了一种新的基于 SSM 的室内 3D 目标检测模型 3DET-MAMBA。具体地说,我们将点云分成不同的块,并使用轻量级但有效的内 Mamba 来捕获局部几何信息。为了从全局的角度观察场景,我们引入了一种新的双 Mamba 模块,该模块从空间分布和连续性的角度对点云进行建模。此外,我们还设计了一个查询感知的 Mamba 模块,在排序查询的指导下将上下文特征解码为对象集。大量的实验表明,我们提出的3DET-MAMBA 在室内 3D 检测基准(如ScanNet)上优于以前的 3DETR,将 AP25/AP50 分别从 65.0/47.0 提高到 70.4/54.4%。

Decision Mamba:离线 RL 具有自进化规则化的多粒度状态空间模型

虽然基于Transformer结构的条件序列建模在处理离线强化学习(RL)任务方面已经证明了其有效性,但它很难处理分布外的状态和动作,现有的工作试图通过使用学习的策略来增加数据或使用基于值的 RL 算法来添加额外的约束来解决这一问题。然而,这些研究仍然未能克服以下挑战:(1)没有充分利用步间的历史时间信息,(2)忽略了状态、动作和返回到 GO(Return-to-Go,RTG)之间的局部步内关系,(3)用噪声标签过度拟合次最优轨迹。为了应对这些挑战,我们提出了一种新的多粒度状态空间模型(SSM),该模型采用一种自进化的策略学习策略,对历史隐藏状态进行显式建模,并利用 MANBA 体系结构来提取时间信息。为了捕捉状态-动作-RTG 三元组之间的关系,设计了一个细粒度的 SSM 模块,并将其集成到原始的粗粒度 SSM 中,从而形成了一种新的适合离线 RL 的 MANBA 体系结构。最后,为了缓解噪声轨迹的过拟合问题,提出了一种基于渐进正则化的自进化策略。该策略通过使用自身过去的知识来改进次优操作,从而增强了其对噪声演示的稳健性。在不同任务上的广泛实验表明,DM 的性能大大优于其他基线。

VMamba:视觉状态空间模型

设计计算高效的网络架构仍然是计算机视觉中持续的必需品。在本文中,我们将状态空间语言模型 Mamba 移植到 VMamba 中,VMamba 是一种在线性时间复杂性下工作的视觉主干。VMamba 的核心是具有 2D 选择性扫描(SS 2D)模块的视觉状态空间(VID)块堆栈。通过沿着四条扫描路线穿越,SS 2D 有助于弥合 1D 选择性扫描的有序性质和 2D 视觉数据的非顺序结构之间的差距,从而促进了从各种来源和角度收集上下文信息。基于 NV 块,我们开发了一系列 VMamba 架构,并通过一系列架构和实施增强来加速它们。大量实验展示了 VMamba 在各种视觉感知任务中的良好性能,凸显了与现有基准模型相比其在输入扩展效率方面的优势。

QuadMamba:学习基于四叉树的选择性扫描视觉状态空间模型

状态空间模型的最新进展,特别是 MAMBA,已经显示出比主要的变压器模型更优越的性能,特别是在将计算复杂性从二次降低到线性方面。然而,由于视觉数据的独特特征,例如图像中的空间局部性和邻接性,以及视觉标记之间信息粒度的巨大差异,使 Mamba 从语言适应视觉任务出现了困难。现有的 VISION Mamba 方法要么以栅格扫描的方式将标记平整成序列,打破图像的局部邻接,要么手动将标记分割成窗口,这限制了它们的远程建模和泛化能力。为了解决这些局限性,我们提出了一种新的视觉 Mamba 模型 QuadMamba,该模型通过基于四叉树的图像分割和扫描来有效地捕获不同粒度的局部依赖关系。具体地说,我们的基于四叉树的轻量级扫描模块学习在学习的窗口象限内保持空间区域的 2D 局部性。在自适应地将令牌划分为窗口象限之前,该模块根据每个令牌的特征来估计每个令牌的局部性分数。还引入了全方位的窗口移动方案,以获取不同局部区域之间更完整和更丰富的特征。为了使离散化的四叉树划分端到端可训练,我们进一步设计了一种基于 Gumbel-Softmax 及其直通梯度估计器的序列掩蔽策略。大量的实验表明,QuadMamba 在
图像分类、目标检测、实例分割和语义分割等各种视觉任务中都取得了最好的性能。

NIPS 2024论文合集PDF版

由于关注点的不同,这篇博客可能无法包含所有该方向的论文。NIPS 2024 论文题目与摘要这份资料收录了NIPS 2024所有论文的标题和摘要,总共有3547页,而且是中英文对照的,读起来方便多了。
如果你对人工智能领域感兴趣,或者想找找灵感,这绝对是个好资源。翻一翻最新的研究,说不定就能找到一些新的想法或思路。平时闲下来的时候看看,既增长知识又能跟上最新的技术趋势,挺实用的。有空的话不妨看看,应该会有收获的。

NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v

CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2199667.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

头戴式耳机性价比推荐有哪些?头戴式耳机性价比之王推荐

这不是马上就要双十一了?对于环境比较吵的人来说,趁着最近双11开始,是购买耳机的好时机。即将入冬,佩戴头戴式耳机频率越来越多,包裹着耳朵很舒适保暖。有的人入耳式已经非常多了,而且同样的价格&#xff0…

地图箭头方向检测系统源码分享

地图箭头方向检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

哈佛大学俩学生开发出一种 AI 眼镜,看你一眼就能扒光所有个人信息

最近,科幻场景中的一个设想变成了现实:一副眼镜能够一瞥便获取人的全部信息! 两位来自哈佛大学的学生开发了一个名为I-XRAY的项目,该项目利用智能眼镜结合面部识别技术,能够实时分析并获取被捕捉者的个人信息。这些信…

ChatTTS使用demo示例(包含长文本生成语音、固定音色pt文件)

ChatTTS使用demo示例(包含长文本生成语音、固定音色pt文件) 一、配置开发环境 安装anaconda,安装参考文章:https://blog.csdn.net/Q_fairy/article/details/129158178 建议anaconda最新版:https://mirrors.tuna.tsi…

windows11下面使用Pyinstaller打包python程序

文章目录 一、安装Python二、安装pip三、通过pip安装pyinstaller四、使用pyinstaller打包python为二进制程序参考 一、安装Python 我这里直接下载的是Python的可执行程序包,打开即用的版本, 也可以按照以下的教程安装python工具到windows上面 &#…

海洋鱼类图像分类分割系统源码&数据集分享

海洋鱼类图像分类分割系统源码&数据集分享 [yolov8-seg-slimneck&yolov8-seg-attention等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI Globa…

MySQL联合索引、索引下推Demo

1.联合索引 测试SQL语句如下:表test中共有4个字段(id, a, b, c),id为主键 drop table test;#建表 create table test(id bigint primary key auto_increment,a int,b int,c int )#表中插入数据 insert into test(a, b, c) values(1,2,3),(2,3,4),(4,5,…

数据分析Power BI设置万为单位的数据

玩过Power BI的同学都知道,power BI在度量值设置单位里,唯独没有万这个单位,但是我们可以自定义,操作过程如下: 1.用DAX新建单位表 单位 SELECTCOLUMNS( { ( "元", 1), ("万",10000), ("千…

清华大学经管学院朱武祥教授:五步构建高效的数据飞轮,提升企业核心竞争力

面对AI时代的到来,企业应积极拥抱这一变革,构建和优化自身的数据飞轮,让飞轮高速转动起来,为企业的创新发展持续赋能。 近期,清华管理评论发表了一篇名为《AI时代如何构建数据飞轮》的文章,引起了我们的重点…

Java 根据字符生成背景透明的图片

上代码 package com.example.demotest.controller;/*** Author shaolin* Date 2024-10-08 10:11**/import javax.imageio.ImageIO; import java.awt.*; import java.awt.image.BufferedImage; import java.awt.image.ColorModel; import java.awt.image.WritableRaster; impor…

手机 电脑 Pad 是如何得到IP地址的呢? 如何让你的设备自动获取IP地址?DHCP :给你 IP 地址的隐形人

我们每天都是用手机 电脑 Pad 一系列电子设备连接到网络中,然后网络中的每一个设备都有一个独一无二的IP地址,用来作为网络中的唯一标识,那这些设备上的IP地址是如何得到的呢? 在现代网络中,每一台设备都需要一个唯一的…

Kubernetes----基础命令合集

目录 一、命令概述 1.1命令分类 1.2 基本语法 二、查看基本信息 2.1 环境指令 2.1.1 查看版本信息 2.1.2 查看资源对象简写 2.1.3 添加补全信息 2.1.4 查看日志 2.1.5 查看集群信息 2.2 查看资源信息 2.2.1 获取资源相关信息 ① 查看集群组件状态 ② 查看命名空间…

7个维度点剖析地图投影 第6个最重要

摘要: 地图投影在制图学和地理信息系统 (GIS) 中发挥着至关重要的作用。然而,即使是地理空间行业中经验最丰富的专业人士,它们也常常令人们感到困惑。在大多数情况下,也许必须返回参考文档和材料来重新检查这些问题。 因此有许多令人费解的现象,例如您是否曾经看过世界地..…

nginx代理,nginx301跳转,nginx地址重写

ngin代理 假如你的地址是:http://192.168.1.2:8282 你的域名是:www.jjycheng.com 你想访问域名www.jjycheng.com时,实际请求的地址是http://192.168.1.2:8282,但浏览器上的地址不变。 此时,你用到的技术就是请求代理 代理.conf配置 http {server {listen 80; server_na…

【Parsec】一款安全高效的远程桌面软件

Parsec 是一款远程桌面软件,它允许用户通过P2P(点对点)技术远程访问和控制另一台计算机。以下是Parsec的一些主要作用、安全私密性特点以及优缺点: 作用: 远程游戏:用户可以远程访问高性能PC进行游戏&am…

Centos7.5 安装和配置jdk17

目录 一、下载JDK17包 二、将安装包放入服务器 三、解压jdk包到/usr/lib/jvm 四、修改JDK环境配置 1、打开配置文件 2、最后一行插入 3、立即生效 4、检查版本 一、下载JDK17包 访问网址:Java Downloads | Oraclehttps://www.oracle.com/java/technologies/downloads…

新硬盘第一次使用需要怎样做?

无论是组装新电脑,还是给现有电脑增加存储空间,我们需要进行一些安装硬盘和设置硬盘的操作。对于没有相关经验的用户来说,对于拿到手的新硬盘会感到手足无措,不知道应该从哪里开始。今天小编详细介绍一下新硬盘第一次使用时的流程…

中国内地高校2023年度捐赠收入排名更新 | 浙大领跑,宁波东方理工成最大黑马!

社会捐赠是世界一流大学办学经费的重要来源之一,也是评价世界一流大学的核心指标之一。 9月21日,支持湘潭大学建设捐赠与合作签约仪式暨“校友回湘”推进会议举行。株洲华锐精密工具股份有限公司向学校捐赠湘潭大学“华锐精密”研究院以及现金人民币&am…

基于springboot+vue的协同过滤电影推荐系统

一、系统架构 前端:vue2 | element-ui | html 后端:springboot | mybatis 环境:jdk1.8 | mysql | maven | node 二、代码及数据库 三、功能介绍 01. web端-首页1 02. web端-首页2 03. web端-注册 04. web端-登录 05…

GC9008为什么能替代MX6208应用于红外开关,电流开关上

GC9008作为一种新型集成电路,具备了多个方面的优势,使其能够有效替代MX6208。以下是GC9008替代MX6208的主要原因及其优势: 1. 更低的功耗 优势:GC9008在设计上进行了优化,能够在更低的电压下运行,从而显著…