Multimodal Dynamics:用于多模态融合背景下的分类

news2025/1/23 15:11:42

Multimodal Dynamics(MD)是可信赖的多模态分类算法,该算法动态评估不同样本的特征级和模态级信息量,从而可信赖地对多模态进行融合。

来自:Multimodal Dynamics: Dynamical Fusion for Trustworthy Multimodal Classification

问题
假设有一个包含 N N N个数据的 M M M模态带标签数据集 { { x n m } m = 1 M , y n } n = 1 N \left\{\left\{x_{n}^{m}\right\}_{m=1}^{M},y_{n}\right\}_{n=1}^{N} {{xnm}m=1M,yn}n=1N,多模态分类的目标是构建多模态数据到标签的映射 f f f

特征维度动态信息
对于高维特征向量 x m ∈ R d m x^{m}\in R^{d_{m}} xmRdm,通常存在与类别相关的特征子集,反映分类任务中不同特征的信息量,且特征的具体信息量在不同的样本中是动态变化的。因此,在多模态融合时应该:

  • 保留重要特征,去除冗余和噪声
  • 增强多模态融合的可解释性

MD中引入了动态特征信息量编码网络,在不同模态下保留信息特征,抑制非信息特征。特征信息量编码网络通过对特征进行加权以分离信息特征和非信息特征: w m = σ ( E m ( x m ) ) = [ w 1 m , . . . , w d m m ] w^{m}=\sigma(E^{m}(x^{m}))=[w_{1}^{m},...,w_{d_{m}}^{m}] wm=σ(Em(xm))=[w1m,...,wdmm]其中, w m ∈ R d m w^{m}\in R^{d_{m}} wmRdm是特征信息向量,对于高维数据,引入 l 1 l_{1} l1-norm 寻找特征的信息子集: L l 1 s = ∑ m = 1 M ∣ ∣ w m ∣ ∣ 1 L_{l_{1}}^{s}=\sum_{m=1}^{M}||w^{m}||_{1} Ll1s=m=1M∣∣wm1

模态维度动态信息
作者使用真实类概率来量化不同模态的分类置信度。在分类任务中,最终结果通常由最大类概率(MCP)来决定。这种方式虽然能给出预测分类,但会导致模型过度自信。不同于MCP使用最大概率同时表示预测和置信度,真实类概率(TCP)使用真实标签对应的softmax输出概率作为置信度。具体的,给定预测分布 p m ( y ∣ x m ) = [ p 1 m , . . . , p k m ] p^{m}(y|x^{m})=[p_{1}^{m},...,p_{k}^{m}] pm(yxm)=[p1m,...,pkm]和相应的标签 y y y T C P m TCP^{m} TCPm表示为: T C P m = y ⋅ p m ( y ∣ x m ) = ∑ k = 1 K y k p k m TCP^{m}=y\cdot p^{m}(y|x^{m})=\sum_{k=1}^{K}y_{k} p_{k}^{m} TCPm=ypm(yxm)=k=1Kykpkm当样本分类正确时,TCP等于MCP,当分类错误时,TCP更有可能是一个很低的值,为了在预测时给出TCP,每个模态 m m m训练一个置信度网络 g m : x m → T C P m g^{m}:x^{m}\rightarrow TCP^{m} gm:xmTCPm来逼近训练集上的 T C P m TCP^{m} TCPm L c o n f = ∑ m = 1 M ( g m ( x m ) − T C P m ) 2 + L c l s L^{conf}=\sum_{m=1}^{M}(g^{m}(x^{m})-TCP^{m})^{2}+L^{cls} Lconf=m=1M(gm(xm)TCPm)2+Lcls

多模态融合
MD的整体架构如下图,门控用于保留信息特征: x ~ m = x m ⊙ w m \widetilde{x}^{m}=x^{m}\odot w^{m} x m=xmwm ⊙ \odot 表示元素相乘,预测置信度用于多模态融合: h = [ g 1 ( h 1 ) , . . . , g M ( h M ) ] h=[g^{1}(h^{1}),...,g^{M}(h^{M})] h=[g1(h1),...,gM(hM)]其中 h m = f 1 m ( x ~ m ) h^{m}=f^{m}_{1}(\widetilde{x}^{m}) hm=f1m(x m) [ , ] [,] [,]是拼接操作, f 1 m f_{1}^{m} f1m是去掉最后一个全连接层的分类器。额外的分类器 f : h → y f:h\rightarrow y f:hy通过交叉熵损失训练。

fig1
总结
MD特征维度是用可学习的网络输出特征权重,模态维度则通过每个模态设置一个置信度网络,输出分类置信度。注意这是处理联合数据的,因为每个模态下的样本都是匹配的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1816174.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代理模式与静态代理、动态代理的实现(Proxy.newProxyInstance、InvocationHandler)

代理模式 代理模式是23种设计模式中比较常用的一种,属于结构型设计模式。在 Android 领域中,有大量的库都使用了代理模式,例如 Retrofit 使用动态代理来实现 API 接口的调用,Dagger 使用代码生成和反射机制来创建依赖注入的代理对…

Bybatis动态SQL的绑定和公共sql语句片段

Mybatis除了大部分动态标签,最后还有三个标签,分别是bind,sql和include: ①bind:这个标签作用就是将OGNL标签里的值,进行二次加工,在绑定到另一个变量里,供其他标签使用 调用getUse…

RocketMQ集群搭建(1)

1.1 各角色介绍 Producer:消息的发送者;举例:发信者Consumer:消息接收者;举例:收信者Broker:暂存和传输消息;举例:邮局NameServer:管理Broker;举…

【CH32V305FBP6】USBD HS 描述符修改

文章目录 前言设备描述符完整描述符配置描述符CDC 描述符接口关联描述符接口描述符功能描述符端点描述符接口描述符端点描述符 HID 描述符接口描述符 新增一个 HID 设备 前言 USB HS 复合设备,CDCHID 功能:串口、DAP、CAN-HID、RS485 设备描述符 htt…

DockerCompose+Jenkins+Pipeline流水线打包SpringBoot项目(解压安装配置JDK、Maven等)入门

场景 DockerCompose中部署Jenkins(Docker Desktop在windows上数据卷映射): DockerCompose中部署Jenkins(Docker Desktop在windows上数据卷映射)-CSDN博客 DockerJenkinsGiteeMaven项目配置jdk、maven、gitee等拉取代…

[12] 使用 CUDA 进行图像处理

使用 CUDA 进行图像处理 当下生活在高清摄像头的时代,这种摄像头能捕获高达1920*1920像素的高解析度画幅。想要实施的处理这么多的数据,往往需要几个TFlops地浮点处理性能,这些要求CPU也无法满足通过在代码中使用CUDA,可以利用GP…

【网络安全的神秘世界】磁盘空间告急?如何解决“no space left on device”的困扰

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 磁盘空间告急?如何解决“no space left on device”的困扰 🙋‍♂️问题描述 错误信息 "write /var/lib/docker/tmp/GetIma…

计算机组成原理-流水CPU-指令流水

一、指令流水的定义 指令流水线是计算机处理器中的一种设计,用于提高指令执行的效率。考虑到执行指令的每个阶段用到的硬件不同,它将处理指令的各个步骤分解为若干个阶段,并允许多个指令在同一时刻在不同的阶段执行,从而实现指令…

InfiniBand网络内计算架构指南

InfiniBand网络内计算知多少? InfiniBand在高性能计算和人工智能领域占据核心地位,其高速、低延迟的网络通信能力支持大规模数据传输与复杂计算。在网络内计算领域,InfiniBand的应用日益广泛,通过内部计算降低延迟,提升…

【霸王餐系统】搭建部署,可设置二级分销

前言: 霸王餐项目通常是由外卖平台或商家发起的一种营销策略,旨在通过提供低成本甚至免费的外卖来吸引消费者,从而增加销量、优化评价并扩大市场影响力。这种项目往往能够实现平台、商家、推广者和消费者四方共赢的局面。 一、项目优势 市…

GPT-4o更易越狱?北航南洋理工上万次测试详解!

GPT-4o,比上一代更容易遭受越狱攻击? 北航和南洋理工的研究人员通过上万次API查询,对GPT-4o的各种模态安全性进行了详细测试。 结果发现,GPT-4o新引入的语音模态带来了新的攻击面,多模态整体安全性不如GPT-4V。 GPT-4o…

海洋气象期刊 | 个人统计

写在前面 这周末两天闲着无聊,统计了一些zotero中自己常看的期刊数量,少于5篇的未进行统计 Journal of the Atmospheric Sciences - (JAS) https://www.ametsoc.org/index.cfm/ams/publications/journals/journal-of-the-atmospheric-sciences/ 73篇 …

用教育邮箱在官网安装origin2024中文版教程

打开origin官网,点击learning Edition,教育版只能维持六个月,但是过期之后可以在官网更新,能够免费使用六次,也就是三年。 OriginLab - Origin and OriginPro - Data Analysis and Graphing Software 填写学校信息&…

鸿蒙开发文件管理:【@ohos.statfs (statfs)】

statfs 该模块提供文件系统相关存储信息的功能,向应用程序提供获取文件系统总字节数、空闲字节数的JS接口。 说明: 本模块首批接口从API version 8开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 导入模块 import stat…

技术干货分享:初识分布式版本控制系统Git

初识Git版本控制 自动化测试代码反复执行,如果借用持续集成工具会提高测试效率,那么需要我们把自动化测试代码发布到正式环境中,这时候用Git版本控制工具高效、稳定、便捷。 分布式版本控制 Git可以把代码仓库完整地镜像下来,有…

每日一练——有效的括号

20. 有效的括号 - 力扣&#xff08;LeetCode&#xff09; 错误记录 #include<stddef.h> #include<stdlib.h> #include<assert.h> #include<stdbool.h>typedef char STDataType;typedef struct Stack {STDataType* a;int capacity;int top; } Stack;vo…

Unity 实现WebSocket 简单通信——客户端

创建连接 ClientWebSocket socket new ClientWebSocket(); string url $"ws://{ip}:{port}"; bool createUri Uri.TryCreate(url, UriKind.RelativeOrAbsolute, out Uri uri); if (createUri) {var task socket.ConnectAsync(uri, CancellationToken.None);task…

Nginx学习笔记(九)location转发后,proxy_pass结尾带 / 和不带 / 的区别

目录 一、知识回顾二、proxy_pass 结尾带 / 和不带 / 的区别2.1 场景假设2.2 实战验证验证1&#xff1a;结尾带/的场景验证2&#xff1a;不带/的场景 2.3 结论 一、知识回顾 之前使用过 Nginx 的小伙伴或许都了解&#xff0c;Nginx 是一款用于请求转发的高性能中间件&#xff…

C++|哈希应用->位图

目录 一、概念 1.1原理分析&#xff1a; 1.2效率分析&#xff1a; 二、模拟实现 2.1位图框架初始化空间 2.2映射 2.3清零 2.4判断 2.5测试代码 三、位图扩展应用 一、概念 位图&#xff0c;本质上也是一个数组&#xff0c;通过哈希思想构造的一种数据结构&#xff0c…

unity开发Hololens编辑器运行 按空格没有手

选择DictationMixedRealityInputSystemProfile 如果自定义配置文件 需要可能需要手动设置 手部模型和材质球