STFT:解决音频-视频零样本学习 (ZSL) 中的挑战

news2025/1/12 16:00:44

       传统的监督学习方法需要大量的标记训练实例来进行训练,视听零样本学习的任务是利用音频和视频模态对对象或场景进行分类,即使在没有可用标记数据的情况下。为了解决传统监督方法的限制,提出了广义零样本学习(Generalized Zero-Shot Learning, GZSL)的设置。GZSL方法允许模型识别和分类来自已见过和未见过类别的实例,从而为视听分类和识别任务提供了更实用和可扩展的解决方案。

     尽管深度学习在最近几年取得了发展,视听零样本学习因其在多个领域的潜在应用而受到了显著关注,例如暴力检测、航空场景识别、语音识别和视频分类等。现有的大多数方法分别对输入的视听和文本模态进行建模和对齐,以获得更健壮的视听特征表示。然而,将SNNs(尖峰神经网络)与变换器(Transformers)结合起来,仍然面临着几个挑战:

  • 时间步长:现有 SNN 通常使用固定时间步长来平均神经元输出,忽略了不同层在编码时间序列中的重要性,导致性能波动。
  • 尖峰冗余:SNN 输出存在时间维度和空间维度上的冗余,与尖峰发射频率和神经元位置高度相关。
  • 输出异质性:SNN 和 Transformer 的输出数据分布存在显著差异,SNN 为二进制尖峰序列,Transformer 为浮点特征,难以高效融合。

     本文提出一种新的Spiking Tucker Fusion Transformer(STFT)用于视听零样本学习。STFT模型通过以下方式来提高性能:

  • 时间步长因子(TSF): 动态衡量每个时间步对 SNN 输出的影响,指导后续推理信息的合成。
  • 全局-局部池化(GLP): 结合最大池化和平均池化操作,引导输入膜电位的形成,减少尖峰噪声。
  • 动态阈值调整: 根据语义和时序信息动态调整神经元阈值,提高模型鲁棒性。
  • 时序-语义 Tucker 融合: 以低成本实现 SNN 和 Transformer 输出的多尺度融合,同时保持完全的二阶交互。

1 方法

STFT的架构由四个主要部分组成:空间-时间尖峰神经网络(SNN)、潜在语义推理模块、时序-语义Tucker融合和联合推理模块。在训练阶段,训练集由标记的嵌入向量组成,目标是学习一个投影函数,将音频和视觉特征映射到类别级文本嵌入。在测试阶段,使用相同的函数将未见过的测试样本投影到嵌入空间。

1.1  空间-时间尖峰神经网络(SNN)

  • 卷积 SNN 块: 使用卷积操作和 LIF 模型构建 SNN 网络,每个 SNN 块包含卷积层和 LIF 层。
  • 全局-局部池化 (GLP): 将最大池化和平均池化操作相结合,提取全局和局部特征,并指导 LIF 神经元的输入特征分布。
  • 时间步长因子 (TSF): 动态调整不同时间步长 SNN 输出的权重,使模型能够有效地利用时间信息并编码不同时间尺度的相关特征。
  • 动态阈值调整: 根据当前 SNN 输出和 GLP 的信息含量动态调整 LIF 神经元的阈值,从而减少脉冲噪声并提高模型的鲁棒性。

1.2 潜在语义推理模块

  • 音频和视觉编码器: 使用预训练的 SeLaVi 模型提取音频和视觉特征,并进行进一步的特征提取和降维。
  • 潜在语义推理模块: 引入潜在知识组合器 (LKC) 来动态更新和融合音频和视觉特征的潜在语义信息,从而获得更鲁棒的跨模态特征表示。
  • LKC 通过学习一组潜在知识槽来捕获不同模态之间的潜在语义特征,并使用门控函数选择性地保留融合特征。
  • LKC 会根据输入向量和之前的潜在知识槽 Kt-1 动态更新,并通过自注意力机制进一步推断音频和视觉特征之间的内在关系。

1.3 时序-语义 Tucker 融合

  • 特征投影: 将音频和视觉特征分别投影到嵌入向量,并进行二线性交互。
  • Tucker 分解: 将二线性交互后的特征张量分解为多个因子矩阵,以降低模型参数数量并提高计算效率。
  • 多尺度融合: 利用 Tucker 分解后的因子矩阵进行多尺度融合,同时保留二阶交互信息。

1.4 联合推理模块

  • 跨模态 Transformer: 使用共享权重的跨模态 Transformer 进一步推理不同模态之间的特征对应关系,并捕获互补信息。
  • 投影和重建层: 将联合音频-视觉特征投影到与文本特征相同的嵌入空间,并进行重建以保留相关信息。

1.5 训练策略

STFT使用Nvidia V100S GPU进行训练。音频和视觉嵌入是使用预训练的SeLaVi提取的。设置了特定的参数,并选择了Adam作为训练优化器。STFT训练了60个周期,学习率为0.0001。为了更有效地更新参数,STFT使用了三元组损失、投影损失和重建损失的组合。

2 实验

在ZSL和GZSL设置下评估了所提出的模型。使用平均类别准确率来衡量模型在分类任务中的有效性。对于ZSL评估,特别关注模型在未见测试类别子集上的性能。在GZSL评估中,评估模型在包括已见(S)和未见(U)类别的整个测试集上的性能。通过计算和谐均值(HM),提供模型在GZSL场景下整体性能的平衡度量。

2.1 数据集

  • ActivityNet:目前的版本为v1.3,专注于视频中的活动检测和识别,包含丰富的活动类别和大量的视频时长。包括约20000个YouTube视频,其中训练集包含约10000个视频,验证集和测试集各包含约5000个视频
  • UCF101:专注于动作识别,包含大量真实场景下的动作视频片段,适用于各种动作识别任务。包含超过 13,000 个视频,涵盖各种人类动作。
  • VGGSound:专注于音频分类和识别,包含丰富的视听样本,适用于音频视觉任务的模型训练和评估。包含超过 200 个类别和数千个音频片段。

2.2 实验结果

2.2.1 基于ActivityNet 数据集

  • HM 提升 14.9%:STFT 在 ActivityNet 数据集上取得了 15.38 的 HM分数,相比最佳现有方法 AVMST 的 12.71%,提升了 14.9%。
  • ZSL 提升 24.5%:STFT 在 ActivityNet 数据集上取得了 12.91 的 ZSL分数,相比最佳现有方法 AVMST 的 10.37%,提升了 24.5%。

备注:

AVMST模型是一种用于音频-视觉零样本学习的模态融合网络。具体来说,该模型包含以下几个关键组件:

  • 脉冲神经网络(SNN)模块:用于提取每个模态的显著时间信息。
  • 交叉注意力块:有效地融合时间和语义信息。
  • 变换器推理模块:进一步探索融合特征之间的相互

2.2.2 基于UCF101 数据集

  • HM 提升 3.9%:STFT 在 UCF101 数据集上取得了 32.58 的 HM分数,相比最佳现有方法 MDFT 的 31.36%,提升了 3.9%。
  • ZSL 略有下降:STFT 在 UCF101 数据集上取得了 29.72的 ZSL分数,相比最佳现有方法 MDFT 的 31.53%,略有下降。

2.2.3  基于VGGSound 数据集

  • HM 提升 15.4%:STFT 在 VGGSound 数据集上取得了 19.22 的 HM分数,相比最佳现有方法 TCaF 的 13.32%,提升了 15.4%。
  • ZSL 提升 35.9%:STFT 在 VGGSound 数据集上取得了 10.06%的 ZSL分数,相比最佳现有方法 TCaF 的 7.33%,提升了 35.9%。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1924776.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

暴雨让服务器不怕热҈热҈热҈热҈

在AI算力呈几何倍数增长的趋势下,算力逐渐朝着“高性能、高密度、高耗能“发展。在高耗能的算力下,AI服务器功率已逐步逼近风冷散热极限,而液冷作为更加高效、低能耗的制冷技术,逐渐成为了高密度算力散热场景的首选方案。 液冷的…

Spring源码中的模板方法模式

1. 什么是模板方法模式 模板方法模式(Template Method Pattern)是一种行为设计模式,它在操作中定义算法的框架,将一些步骤推迟到子类中。模板方法让子类在不改变算法结构的情况下重新定义算法的某些步骤。 模板方法模式的定义&…

Linux内核编译安装 - Deepin,Debian系

为什么要自己编译内核 优点 定制化:你可以根据自己的硬件和需求配置内核,去掉不必要的模块,优化性能。性能优化:移除不需要的驱动程序和特性,减小内核体积,提高系统性能。最新特性和修复:获取…

网络(二)——套接字编程

文章目录 理解源IP地址和目的IP地址认识端口号认识TCP/UDP协议网络字节序socket编程接口socket 常见APIsockaddr结构 理解源IP地址和目的IP地址 在IP数据包头部中, 有两个IP地址, 分别叫做源IP地址, 和目的IP地址; 源IP即发送方的地址,目的IP即接受方的…

[译] Rust标准库有些特殊,让我们改它

本篇是对 RustConf 2023中的The standard library is special. Let’s change that.这一视频的翻译与整理, 过程中为符合中文惯用表达有适当删改, 版权归原作者所有. 今天我将讨论Rust的标准库,更具体地说,是关于标准库有何特殊之处,以及为什么我们应该改变这一点。首先声明一下…

探索 Prompt 的世界:让你的 AI 更智能

探索 Prompt 的世界:让你的 AI 更智能 引言什么是 Prompt?Prompt 的重要性如何编写有效的 Prompt1. 清晰明确2. 包含关键细节3. 提供上下文 实践中的 Prompt 技巧1. 多次迭代2. 实验不同风格3. 结合实际应用 总结 引言 随着人工智能(AI&…

通过vm可以访问那些属性——06

1.通过vue实例都可以访问那些属性?(通过vm都可以vm.什么) vue实例中的属性很多。有的以$开始,有的以_开始。 所有以$开始的属性,可以看做是公开的属性,这些属性是提供给程序员使用的 所有以_开始的属性&…

PyTorch是使用GPU和CPU优化的深度学习张量库——torchvision

torchvision datasets torchvision.datasets 包含了许多标准数据集的加载器。例如,CIFAR10 和 ImageFolder 是其中两个非常常用的类。 CIFAR10 CIFAR10 数据集是一个广泛使用的数据集,包含10类彩色图像,每类有6000张图像(5000张…

<数据集>夜间车辆识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:5000张 标注数量(xml文件个数):5000 标注数量(txt文件个数):5000 标注类别数:8 标注类别名称:[car, pedestrian, traffic light, traffic sign, bicycle, bus, truck…

Leetcode(经典题)day2

H指数 274. H 指数 - 力扣(LeetCode) 先对数组排序,然后从大的一头开始遍历,只要数组当前的数比现在的h指数大就给h指数1,直到数组当前的数比现在的h指数小的时候结束,这时h的值就是要返回的结果。 排序…

Ubuntu搭建Android架构so库交叉编译环境

目录 前言一、下载NDK并安装二、安装NDK三、配置交叉编译工具链四、编写交叉编译脚本 前言 需要将一些源码编译成Android可用的架构的so库 一、下载NDK并安装 https://developer.android.google.cn/ndk/downloads/ 二、安装NDK 将下载下来的android-ndk-r23b-linux.zip解压…

17099 周工作计划安排

这个问题可以通过动态规划来解决。我们可以定义一个数组d,其中d[i]表示第i周选择项目后,产生的最大效益和。然后我们可以通过比较选择低压项目和高压项目的效益,来更新d[i]。 以下是解题步骤: 1. 初始化数组:首先&am…

《Linux系统编程篇》认识在linux上的文件 ——基础篇

前言 Linux系统编程的文件操作如同掌握了一把魔法钥匙,打开了无尽可能性的大门。在这个世界中,你需要了解文件描述符、文件权限、文件路径等基础知识,就像探险家需要了解地图和指南针一样。而了解这些基础知识,就像学会了魔法咒语…

视频播放器的问题

<template><div class"app-container"><el-form :model"queryParam" ref"queryForm" :inline"true"><el-form-item label"题目ID&#xff1a;"><el-input v-model"queryParam.id" cle…

python:绘制一元三次函数的曲线

编写 test_x3_3x.py 如下 # -*- coding: utf-8 -*- """ 绘制函数 y x^33x4 在 -3<x<3 的曲线 """ import numpy as np from matplotlib import pyplot as plt# 用于正常显示中文标题&#xff0c;负号 plt.rcParams[font.sans-serif] […

免费的AI抠图工具 毫秒级抠图 离线可用 -鲜艺AI抠图

鲜艺AI抠图是一款免费的AI抠图工具&#xff0c;不登录、不联网&#xff0c;内嵌 AI 模型&#xff0c;快至毫秒级抠图&#xff0c;支持批量抠图&#xff0c;支持点击按钮选择图片、拖入图片、粘贴图片、粘贴图片链接、从网页拖入图片&#xff0c;支持Windows和macos&#xff0c;…

Linux:Linux网络总结(附下载链接)

文章目录 下载链接网络问题综合问题访问一个网页的全过程&#xff1f;WebSocket HTTPHTTP基本概念GET与POSTHTTP特性HTTP缓存技术HTTP的演变HTTP1.1 优化 HTTPSHTTP与HTTPS有哪些区别&#xff1f;HTTPS解决了HTTP的哪些问题&#xff1f;HTTPS如何解决的&#xff1f;HTTPS是如何…

【触想智能】安卓工控一体机在自助终端设备上的应用分析

随着科技的发展和人们对自动化系统的需求不断增强&#xff0c;自助终端设备已经成为日常生活非常常见的设备之一&#xff0c;例如自助售货机、自助点餐机、自助银行服务等。这些设备在使用中都需要一个可靠的、稳定的操作系统来支持其各项功能的实现。 因此&#xff0c;安卓工控…

Postman接口模拟请求工具使用技巧

Postman是一款非常强大的接口模拟请求工具&#xff0c;可以帮助开发者快速测试、调试API接口。下面集合实际使用过程中的经验&#xff0c;分享大家一些基础使用技巧&#xff1a; 1. 安装与启动&#xff1a;首先在官网&#xff08;Download Postman | Get Started for Free&…

Qt下使用OpenCV的鼠标回调函数进行圆形/矩形/多边形的绘制

文章目录 前言一、设置imshow显示窗口二、绘制圆形三、绘制矩形四、绘制多边形五、示例完整代码总结 前言 本文主要讲述了在Qt下使用OpenCV的鼠标回调在OpenCV的namedWindow和imshow函数显示出来的界面上进行一些图形的绘制&#xff0c;并最终将绘制好的图形显示在QLabel上。示…