IEEE SPL | 基于图注意力机制的音频语意概述

news2025/1/15 20:49:07

本文由哈工程智能信号处理组与悉尼科技大学、萨里大学合作,发表于IEEE信号处理学会期刊IEEE Signal Processing Letters,论文一作为2020级硕士研究生肖飞扬。

  论文链接:https://arxiv.org/abs/2304.03586

  论文代码:https://github.com/LittleFlyingSheep/GraphAC

摘要

音频语意概述是一项跨模态音频内容理解任务,旨在通过自然语言描述音频信号蕴含信息,使机器具备理解表达音频场景事件语意内容的能力。现有的主流音频语意概述方法几乎均采用在AudioSet上获得的大规模音频预训练模型(pretrained audio neural networks, PANNs)进行音频特征表示,借助PANNs的音频事件分析能力,提升音频语意概述性能。但PANNs模型受限于所采用的卷积计算机制,缺乏对音频特征时序上下文关系的建模能力,导致现有主流方法的性能受限。为此,本文提出了一种基于图注意力机制的音频语意概述方法(GraphAC),所提方法通过构建音频节点邻接图,实现音频信号中的时序上下文信息关系建模,并通过top-k掩码机制过滤与音频场景内容无关信息,由此强化与音频场景事件相关的上下文语意关联,进而提高音频描述的准确性和流畅性。实验结果表明,GraphAC在音频语意概述任务上获得优于现有的基于PANNs音频编码器(PANNs-based audio encoder)主流方法的概述性能表现,由此验证了图注意力机制在捕获音频时序上下文信息的有效性。本文方法所构建集成系统在第八届国际声学场景和事件检测及分类竞赛(IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events, DCASE 2022 Challenge)音频语意概述赛道(Task 6A)取得了国际第6名。

1. 背景

音频语意概述(automated audio captioning, 又称自动音频字幕)是一项通过机器学习方法将音频信号蕴含场景信息用自然语言进行语意表述的跨模态音频内容理解任务。该任务有助于听力障碍人群感知理解音频信息以辅助其正常生活,同时有助于城市安全监控体系音频内容辅助分析,以及流媒体视频节目内容摘要生成,具备广阔的应用前景。

目前,音频语意概述的主流方法常采用编码器-解码器(encoder-decoder)结构,其中编码器负责提取音频特征,解码器负责根据音频特征生成描述文本。近年来,得益于在大规模音频数据集(AudioSet)上学习到的音频事件信息表征能力,大规模音频预训练模型PANNs被广泛用于音频语意概述方法的编码器设计,由此提升了音频语意概述方法的性能表现。

2. 动机

然而,PANNs所采用卷积计算机制主要用于捕捉局部感受野(即局部时频区域)信息,往往忽略音频特征之间的上下文关联和长时序依赖性质。而由于音频信号是一种典型的时变信号,包含了丰富的时序上下文信息,此类信息可以反映声音场景和事件的语意关联。忽略音频时序上下文信息,将会影响音频编码器对于音频特征的有效建模,从而限制音频语意概述方法性能。

3. 方法

为了解决上述PANNs音频编码器难以表征时序上下文信息的问题,本文提出了一种基于图注意力机制的音频语意概述方法,即GraphAC。该方法在编码器中引入了一个图注意力模块,该模块可以实现音频节点的图关系建模,实现音频上下文关系挖掘,增强音频特征帧节点之间语意关联,提升音频特征表示能力。GraphAC以P-Transformer方法作为原型系统,验证所提图注意策略的有效性。所提方法以P-Transformer为骨干网络,在其音频编码器中的PANNs之后引入图注意力模块,以此实现音频时序上下文关系建模及语意信息关联;解码器设计部分,沿用了P-Transformer解码器结构设计,通过Transformer解码器结构实现音频特征表示的自然语言文本表述。

所提出的图注意力音频特征表示策略,不仅通过构建邻接图捕获音频信号中的时序上下文信息(即音频特征帧节点之间的上下文关联),还采用top-k掩码机制减轻了噪声节点干扰;此外,图注意力机制在节点特征聚合过程中,还可以根据邻接图反映的时序上下文信息,强化音频特征表示中有关声音场景事件的重要语意信息。因此,所提出方法可以解决现有PANNs音频编码器不足,有效捕获音频特征的时序上下文信息,提升音频语意概述性能。所提出方法模型结构图如下:

4. 实验

对比实验

本文使用Clotho数据集进行音频语意概述方法的性能评估。Clotho数据集包含开发集、验证集、评估集三部分,其中分别有3839、1045、1045条音频信号。Clotho数据集中的音频信号时长范围在30秒以内,每条音频信号有5条标注好的自然语言文本概述作为标签。实验采用音频语意概述词汇精度评价指标BLEU、ROUGEl、METEOR,以及语意评价指标CIDEr、SPICE和SPIDEr,对所提方法进行性能评价。实验结果如下表所示:

本文实验中对比了采用PANNs作为音频编码器的现有主流音频语意概述方法,包括P-Transformer、SJTU、P-Conformer、CNN14-M2Transformer、MAAC和EaseAC。实验结果表明,本文所提的GraphAC方法的音频语意概述性能优于当前使用PANNs作为编码器的主流方法。

  消融实验

需要注意的是,P-Transformer方法可视作本文所提出的GraphAC方法不使用图注意力机制的退化版本。本文对比了在编码器结构中使用图注意力机制的方法(GraphAC)和不使用图注意力机制的方法(P-Transformer),以验证图注意力机制进行音频特征建模的有效性。实验结果表明,借助图注意力机制捕获音频特征的时序上下文信息,可以获得优于仅采用PANNs作为音频编码器方法的音频语意概述性能。

此外,为进一步验证本文所提出的GraphAC方法在音频特征时序上下文建模中的有效性,本文给出可视化分析过程,如下图所示。可视化分析中,每一列分别对应一个输入音频样例,左侧一列对应的音频样例为01 barreau bunker original.wav,其参考概述文本为“five different sounding bells are ringing between short pauses”,右侧一列对应的音频样例为01 A pug struggles to breathe 1_14_2008.wav,其参考概述文本为“a small dog snoring and groaning”。下图中,(a)和(b)表示音频信号的频谱图特征;(c)和(d)表示所提GraphAC方法构建的音频特征帧之间邻接图关系;(e)和(f)表示所提GraphAC方法不使用top-k掩码机制时(即GraphAC w/o top-k方法)构建的音频特征帧之间邻接图关系。

01 barreau bunker original.wav 音频

01 A pug struggles to breathe 1_14_2008.wav 音频

对比可视化分析图中的(a)和(c)、(b)和(d),可以发现所提GraphAC方法构建的邻接图关系中的高亮部分(重要性高的音频帧)与音频信号的频谱图特征中的音频场景事件基本对应,这表明所提的GraphAC方法能够有效捕获音频特征中与场景事件信息相关的重要语意信息。由此可以说明,所提的GraphAC方法可以建立音频特征帧节点上下文关系,并强化音频场景内容信息和语意关联。

为验证GraphAC方法中top-k掩码机制的作用,本文在消融实验中还与未使用top-k掩码机制的GraphAC w/o top-k方法进行对比分析。表1中量化评价指标表现表明,GraphAC方法的语意评价指标性能表现要优于GraphAC w/o top-k方法,使用top-k掩码机制能够提升音频语意概述方法的语意概述性能。而对比图2可视化分析中的(c)和(e)、(d)和(f),可以发现不使用top-k掩码机制时,所提方法构建的邻接图关系会存在无意义的关联信息干扰(如蓝色框)与上下文关系失真(如绿色框)的问题,这表明top-k掩码机制能够一定程度上过滤与场景内容无关的音频信息,提升音频语意概述的表现。本文模型以及预测的音频语意概述文本示例可以在论文代码项目中获得。

结论

本文针对基于PANNs音频编码器难以发掘音频特征时序上下文信息的不足,从音频特征帧节点的时序上下文关系出发,通过图注意力机制构建了音频特征帧之间的邻接图结构,并应用top-k掩码机制过滤了与场景内容无关的音频信息,进而捕获了音频特征的时序上下文关系,并强化了音频场景上下文语意关联。实验结果表明,所提的GraphAC方法能够取得优于基于PANNs音频编码器的现有主流方法的音频语意概述性能表现。

编辑:关 键

校对:肖飞扬  张合静

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/435691.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GPT 任务指令 = 定义角色 + 背景信息 + 任务目标 + 输出要求

GPT 任务指令 定义角色 背景信息 任务目标 输出要求 环境 GPT-4 0. 你是一名专业的导游,负责为我生成旅游计划,现在我来北京旅游,需要你为我生成一份 3天2晚的北京旅游规划。我的要求是:1.地点包括故宫、军播和环球影城。 2…

你一定能看懂的SQL事务及其实现原理

一。概念 事务 是数据库执行原子操作的基本单位。一个事务中的多个修改,则要么全部成功执行,要么全部不执行。 关于事务的 MYSQL 官网的解释 Transactions are atomic units of work that can be *committed* or *rolled back*. When a transaction ma…

substrate实例-基于OCW发送一个签名交易

目录标题 1. 获取substrate-node-template代码2. 添加一个用于测试的ocw-test目录至pallets3. 编写ocw-test/src/lib.rs代码3.1 需要用到的包名的引用3.2 模块crypto的实现3.3 mode pallet 的实现-config、storage、event3.4 mode pallet 的实现-call3.5 mode pallet 的实现-ho…

整理的汉字及拼音、编码数据文件,依据拼音声母进行归类共计2万多条

本篇文章主要讲解自己整理的汉字拼音数据资源的下载及使用方法。 资源截图 包含:sql、xls、txt、json等格式文件 汉字涵盖:多音字、生僻字 下载地址:https://download.csdn.net/download/hj960511/87705416 使用方法 步骤一、下载资源包&…

七、使用arcgis对道路结果进行后处理及iou优化步骤详解

最近在研究对道路的后处理 废话不多说 直接放我的教程了 分别对real真实和predict预测的图片进行镶嵌操作 教程在这里 工具在这里 结果如下 矢量化提取道路中心线 经过很多尝试 arcscan是提取效果最好的一个方法,操作见这 或者这里这篇文章注解更详细一点&am…

问题汇总1

问题汇总 Linux相关1. vim 修改挂载文件时 报错 read-only filesystem2.root 用户密码无法更改3.linux 用户被锁定4.linux 查看登录日志其他小问题 Windows 相关1.添加 删除 默认路由2.exel合并单元格 添加 分隔符 Linux相关 1. vim 修改挂载文件时 报错 read-only filesystem …

Linux namespace

​ 前言 从《initrd&init进程》可知,我们通过ssh连接linux服务器,其实主是linux启动一shell进程与我们做交互。而Linux又是多租户的,这使用得用户与用户间产生了,资源的争抢。 如何隔离资源,且让用户都无法察觉&…

SpringBoot项目实现热部署

文章目录 SpringBoot实现热部署手动开启热部署自动开启热部署热部署相关配置 SpringBoot实现热部署 什么是热部署? 所谓热部署,就是在应用正在运行的时候升级软件,却不需要重新启动应用。对于Java应用程序来说,热部署就是在运行时…

初学数据库

1、什么是数据库 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。 每个数据库都有一个或多个不同的API用于创建,访问,管理,搜索和复制所保存的数据。 我们也可以将数据存储在文件中,但是在…

企业级实践:大厂项目研发流程

引言 战国邹孟轲《孟子离娄上》:“离娄之明,公输子之巧,不以规矩,不能成方圆。” 每一个行业都有自己行之有效的规矩,同样软件行业也有自己一套的开发流程,今天就来跟大家聊一聊咱们公司的开发流程&#…

智能修改文案-智能写作平台

智能原创自动写作工具在线 随着人工智能技术的发展,智能原创自动写作工具在线已经成为了网络营销的一个重要工具。这种工具可以根据您输入的关键词和主题,自动生成高质量、原创性强的文章。下面是智能原创自动写作工具在线的优势。 节省时间和人力成本 …

IDEA重复下载SNAPSHOT包问题

问题现象 reimport 之后 状态栏显示resolving dependencies… 遇到某个比较大的快照包(33M),同一天的第2个版本时 1.0-xxx-SNAPSHOT.时间戳-2 idea importer 会先分片下载 x.jar.part文件中,然后复制为x.jar吧 如图中所示,其实已经下载完了&…

C++四种类型转换运算符

C语言之所以增加强制类型转换的语法,就是为了强调风险,让程序员意识到自己在做什么。 但是,这种强调风险的方式还是比较粗放,粒度比较大,它并没有表明存在什么风险,风险程度如何。再者,C风格的…

深入浅出OkHttp,【带你手写】构建高效、高性能的网络请求框架

简述 OKHttp是一个用Java编写的网络框架,可用于 Android,以及一些基于Java的web应用开发中。它使用了HTTP/2标准的支持和连接池技术,可以让应用快速向Web服务器发送网络请求,并得到响应。OKHttp提供了一个简单的API,允…

【SQL】列的选择与查询

本文内容参考书籍《SQL基础教程》第二章,课后习题在最后,请多指教。之前章节的内容请点击下方链接。 前言 PostgreSQL的下载与安装 第一章 数据库的创建,表的创建、更新、删除 一、SELECT语句 1、查询表中的列 (1&#xff09…

【每日一题】——移除元素

🌏博客主页:PH_modest的博客主页 🚩当前专栏:每日一题 💌其他专栏: 🔴 每日反刍 🟡 C跬步积累 🟢 C语言跬步积累 🌈座右铭:广积粮,缓称…

重装系统重启后无法进入系统解决方法

重启无法进入系统怎么办?让大家平日里使用小白装机系统的话,很有可能会由于没有办法顺利的进行引导菜单而导致无法进入系统下面,小编今天教大家小白装机重启无法进入系统解决方法。 方法/步骤: 方法一:运用热键再次进入。 1、小…

【LeetCode】剑指 Offer(29)

目录 题目:剑指 Offer 56 - II. 数组中数字出现的次数 II - 力扣(Leetcode) 题目的接口: 解题思路: 代码: 过啦!!! 题目:剑指 Offer 57. 和为s的两个数…

JVM垃圾回收机制(GC)

目录 GC的作用: 申请内存的时机和释放内存的时机 内存泄露和内存溢出 内存泄露 内存溢出 GC(垃圾回收的劣势) GC(垃圾回收) 的工作过程 垃圾回收的过程: 第一阶段:找垃圾/判定垃…

Baumer工业相机堡盟工业相机如何联合BGAPISDK和OpenCV实现图像的直方图算法增强(C++)

Baumer工业相机堡盟工业相机如何联合BGAPISDK和OpenCV实现图像的直方图算法增强(C) Baumer工业相机Baumer工业相机使用图像算法增加图像的技术背景Baumer工业相机通过BGAPI SDK联合OpenCV使用图像增强算法1.引用合适的类文件2.BGAPI SDK在图像回调中引用…