【AI视野·今日Sound 声学论文速览 第三十一期】Mon, 23 Oct 2023

news2024/11/15 17:33:43

AI视野·今日CS.Sound 声学论文速览
Mon, 23 Oct 2023
Totally 9 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval
Authors Donghuo Zeng, Kazushi Ikeda
跨模态检索模型利用三重损失优化的潜力来学习鲁棒的嵌入空间。然而,现有的方法通常在一次训练中训练这些模型,忽略了优化过程中半硬三元组和硬三元组之间的区别。不区分半硬三元组和硬三元组的疏忽会导致模型性能不佳。在本文中,我们介绍了一种植根于课程学习的新方法来解决这个问题。我们提出了一个两阶段训练范例,指导模型从半困难到困难三元组的学习过程。在第一阶段,模型从低损失基础开始,使用一组半硬三元组进行训练。随后,在第二阶段,我们使用插值技术增强嵌入。这个过程识别了潜在的硬负数,缓解了由于硬三元组稀缺而导致的高损失函数引起的问题。然后,我们的方法在增强的嵌入空间中应用硬三元组挖掘来进一步优化模型。在两个视听数据集上进行的广泛实验结果表明,对于 AVE 数据集上的视听跨模态检索 AV CMR 任务,与当前最先进的方法 MSNSCA 相比,平均平均精度 MAP 显着提高了约 9.8,

Definition-independent Formalization of Soundscapes: Towards a Formal Methodology
Authors Mikel D. Jedrusiak, Thomas Harweg, Timo Haselhoff, Bryce T. Lawrence, Susanne Moebus, Frank Weichert
来自不同学科的研究人员对音景进行了研究,每个学科都有不同的观点、目标、方法和术语。因此,根据领域的不同,音景组成部分的概念会发生变化,从而改变基本定义。这导致跨学科交流和结果比较变得复杂。尤其是当涉及到音景无关的研究领域时。因此,我们提出了一种独立于底层音景定义的潜在形式化,其目标是能够捕获数据的异构结构以及一个模型中的不同意识形态。

Music Augmentation and Denoising For Peak-Based Audio Fingerprinting
Authors Kamil Akesbi, Dorian Desblancs, Benjamin Martin
音频指纹识别是一种成熟的解决方案,用于从简短的录音摘录中识别歌曲。流行的方法依赖于稀疏表示(通常是光谱峰值)的提取,并且已被证明是准确、快速且可扩展到大型集合的。然而,音频识别的现实应用经常发生在嘈杂的环境中,这可能会导致这些系统失败。在这项工作中,我们通过引入和发布一个新的音频增强管道来解决这个问题,该管道通过随机模仿现实世界的场景,以现实的方式向音乐片段添加噪音。然后,我们提出并发布了一个深度学习模型,该模型可以从频谱图中消除噪声成分,以提高基于峰值的指纹识别系统的准确性。

SALMONN: Towards Generic Hearing Abilities for Large Language Models
Authors Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
听觉可以说是人工智能智能体在物理世界中的一项必备能力,它指的是对一般听觉信息的感知和理解,其中一般听觉信息至少由语音、音频事件和音乐三种类型组成。在本文中,我们提出了 SALMONN,一种语音音频语言音乐开放神经网络,通过将基于预训练文本的大语言模型 LLM 与语音和音频编码器集成到单个多模态模型中而构建。 SALMONN 使法学硕士能够直接处理和理解一般音频输入,并在训练中使用的许多语音和音频任务上取得有竞争力的表现,例如自动语音识别和翻译、基于听觉信息的问答、情感识别、说话者验证和音乐SALMONN 还具有训练中未曾见过的各种新兴能力,包括但不限于将语音翻译为未经训练的语言、基于语音的槽位填充、基于口语查询的问答、基于音频的讲故事和语音音频协同推理textit等。研究了跨模态涌现能力的存在,并提出了一种新颖的少样本激活调整方法来激活 SALMONN 的此类能力。据我们所知,SALMONN 是该类型的第一个模型,可以被视为迈向具有通用听力能力的人工智能的一步。

Powerset multi-class cross entropy loss for neural speaker diarization
Authors Alexis Plaquet IRIT SAMoVA , Herv Bredin IRIT SAMoVA
自 2019 年推出以来,整个端到端神经二值化 EEND 工作线一直致力于将说话人二值化作为具有排列不变训练的帧式多标签分类问题。尽管 EEND 显示出巨大的前景,但最近的一些工作退后了一步,研究了局部监督 EEND 二值化与全局无监督聚类的可能组合。然而,这些混合贡献并没有质疑最初的多标签配方。我们建议从任意两个说话者可以同时处于活动状态的多标签切换到 powerset 多类分类,其中专用类被分配给重叠的说话者对。

Neural domain alignment for spoken language recognition based on optimal transport
Authors Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai
域转移降低了跨域口语识别 SLR 的有效性,从而对跨域口语识别 SLR 提出了重大挑战。人们已经探索了无监督域适应 UDA 算法来解决 SLR 中的域移位问题,而不依赖于目标域中的类标签。一种成功的 UDA 方法侧重于学习域不变表示以对齐域之间的特征分布。然而,在域不变表示的学习过程中忽略类结构可能会导致过度对齐,从而对分类任务产生负面影响。为了克服这一限制,我们提出了一种基于 OT 的 UDA 算法,用于跨域 SLR,利用 OT 的分布几何结构感知特性。在基于 OT 的 UDA 中的域对齐期间,考虑了基于 OT 的特征和标签信息联合分布的差异度量。我们之前的研究发现,完全对齐源域和目标域之间的分布可能会引入负迁移,其中在分布对齐期间,源域中的类或不相关类映射到目标域中的不同类。这种负迁移会降低自适应模型的性能。为了缓解这个问题,我们在 SLR 的 UDA 框架中引入了耦合加权部分最优传输 POT,其中基于传输成本的 OT 耦合的软权重在域对齐期间自适应设置。实验中使用跨域 SLR 任务来评估所提出的 UDA。

On the Language Encoder of Contrastive Cross-modal Models
Authors Mengjie Zhao, Junya Ono, Zhi Zhong, Chieh Hsin Lai, Yuhta Takida, Naoki Murata, Wei Hsiang Liao, Takashi Shibuya, Hiromi Wakaki, Yuki Mitsufuji
CLIP 和 CLAP 等对比跨​​模态模型有助于各种视觉语言 VL 和音频语言 AL 任务。然而,对其语言编码器的研究和改进有限,语言编码器是将图像音频的自然语言描述编码为矢量表示的核心组件。我们广泛评估无监督和监督句子嵌入训练如何影响语言编码器质量和跨模式任务性能。在 VL 预训练中,我们发现句子嵌入训练语言编码器质量并有助于跨模态任务,从而改进对比 VL 模型(例如 CyCLIP)。相比之下,AL 预训练从句子嵌入训练中获益较少,这可能是由于预训练数据量有限所致。

AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection
Authors Ammarah Hashmi, Sahibzada Adil Shahzad, Chia Wen Lin, Yu Tsao, Hsin Min Wang
在社交媒体平台上广泛分享的伪造内容是一个重大的社会问题,需要加强监管,并给研究界带来了新的挑战。最近超现实深度伪造视频的激增引起了人们对音频和视频伪造威胁的关注。之前大多数检测人工智能生成的虚假视频的工作仅利用视觉模态或音频模态。虽然文献中存在一些利用音频和视觉模态来检测伪造视频的方法,但它们尚未在涉及声学和视觉操作的深度伪造视频的多模态数据集上进行全面评估。此外,这些现有方法大多基于CNN,检测精度较低。受最近 Transformer 在各个领域取得成功的启发,为了解决 Deepfake 技术带来的挑战,在本文中,我们提出了一种基于音频视觉 Transformer 的 Ensemble Network AVTENet 框架,该框架同时考虑声学操纵和视觉操纵,以实现有效的视频伪造检测。具体来说,所提出的模型集成了几个纯粹基于变压器的变体,这些变体捕获视频、音频和视听显着线索,以在预测中达成共识。为了进行评估,我们使用最近发布的基准多模态音频视频 FakeAVCeleb 数据集。为了进行详细分析,我们在 FakeAVCeleb 数据集的多个测试集上评估了 AVTENet、其变体以及几种现有方法。

Generative error correction for code-switching speech recognition using large language models
Authors Chen Chen, Yuchen Hu, Chao Han Huck Yang, Hexin Liu, Sabato Marco Siniscalchi, Eng Siong Chng
语码转换 CS 语音是指在同一个句子中混合两种或多种语言的现象。尽管自动语音识别 ASR 取得了最新进展,但由于现象的语法结构复杂性和特定训练语料库的数据稀缺性,CS ASR 仍然是一项具有挑战性的任务。在这项工作中,我们建议利用大型语言模型 LLM 和 ASR 生成的假设列表来解决 CS 问题。具体来说,我们首先采用多个训练有素的 ASR 模型来生成 N 个最佳假设,目的是增加假设集中的多样性和信息性元素。接下来,我们利用 LLM 通过添加可训练的低阶适配器来学习转录 H2T 映射的假设。这种生成式纠错GER方法根据其专业语言知识和N个最佳假设直接预测准确的转录,从而导致传统语言模型重新评分或纠错技术的范式转变。实验证据表明,GER 显着提高了 CS ASR 的准确性,降低了混合错误率 MER 。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1151423.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

dp三步问题

三步问题 力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 class Solution { public:int waysToStep(int n) {vector<int> dp(n1,1);if(n1) return 1;dp[1]1;dp[2]2;for(int i3; i<n1; i){dp[i] ((dp[i-1]dp[i-2])%1000000007dp[i-3])%100…

类变量/方法、main语法、代码块

一.类变量和方法 思维导图概览&#xff1a; 1.1类变量&#xff08;静态变量&#xff09; 1.什么叫做类变量/方法&#xff1f; ——给类中的成员属性或成员方法加上static关键字进行修饰&#xff0c;类变量/方法也叫做静态变量/方法&#xff0c;静态变量/方法被类的自身所有对…

C/C++ 飞翔的小鸟

载入问题&#xff1a; 解决之后效果&#xff1a; 放在main函数里面进行封装&#xff1a; 效果展示: 实现下坠 放进while&#xff08;1&#xff09;里面不断进入循环&#xff0c;每次进入循环&#xff0c;鸟的y坐标值就会发生变化&#xff0c;以此实现下下坠效果 效果展示&#…

取消Excel打开密码的两种方法

Excel设置了打开密码&#xff0c;想要取消打开密码是由两种方法的&#xff0c;今天分享这两种方法给大家。 想要取消密码是需要直到正确密码的&#xff0c;因为只有打开文件才能进行取消密码的操作 方法一&#xff1a; 是大家常见的取消方法&#xff0c;打开excel文件之后&a…

【python入门篇——7】循环控制(if、while、for、range)

目录 一、条件和 If 语句 1.Python 支持来自数学的常用逻辑条件 2.缩进 3.Elif 4.Else 5.pass语句 二、While 循环 1.else 语句 三、for 循环 1.循环遍历字符串 2.Else 3.嵌套循环 4.pass 语句 四、range() 函数 1.range() 函数 2.起始参数 3.递增序列 一、条…

Elasticsearch-8.10.4安装

1.官网下载 https://www.elastic.co/cn/downloads/elasticsearch#ga-release 下载的是Linux x86_64 包名为elasticsearch-8.10.4-linux-x86_64.tar.gz 2.服务器解压 tar -xvf elasticsearch-8.10.4-linux-x86_64.tar.gz 3.修改配置 编辑配置文件config/elasticsearch.y…

ChineseChess.2023.10.30.01

中国象棋模拟器&#xff1a;黑子一步即杀的棋&#xff0c;红要解棋&#xff0c;不断将军慢慢把老帅边上棋子走开才有可能离开底线 【可以不上“士”的&#xff0c;将上去完事。】 不上【士】就没了&#xff0c;这局不知道咋破&#xff0c;哈哈 修改缺陷吧 中国象棋残局模拟器C…

0-1背包问题【穷举法+二维dp数组】

问题描述&#xff1a; 使用穷举法解决0/1背包问题。问题描述&#xff1a;给定n个重量为{w1, w2, … ,wn}、价值为{v1, v2, … ,vn} 的物品和一个容量为C的背包&#xff0c;求这些物品中的一个最有价值的子集&#xff0c;且要能够装到背包中。 穷举法&#xff1a;每件物品装还是…

网络协议--TCP的未来和性能

24.1 引言 TCP已经在从1200 b/s的拨号SLIP链路到以太数据链路上运行了许多年。在80年代和90年代初期&#xff0c;以太网是运行TCP/IP最主要的数据链路方式。虽然TCP在比以太网速率高的环境&#xff08;如T2电话线、FDDI及千兆比网络&#xff09;中也能够正确运行&#xff0c;但…

项目一:员工管理系统

一&#xff1a;项目功能 该项目应该具有以下功能&#xff1a; 1.查询所有员工 2.查询指定编号的员工 3.添加员工信息 4.修改员工信息 5.删除员工信息 6.退出功能 二&#xff1a;技能的使用 1.使用JDBC访问数据库 2.分层开发&#xff1a; 前台&#xff1a;调用后台&#xff0c;…

【Qt】盒子布局、网格布局、表单布局和堆栈布局

盒子布局 QBoxLayout可以在水平方向或垂直方向上排列控件&#xff0c;分别派生了QHBoxLayout、QVBoxLayout子类。 QHBoxLayout&#xff1a;水平布局&#xff0c;在水平方向上排列控件&#xff0c;即&#xff1a;左右排列。QVBoxLayout&#xff1a;垂直布局&#xff0c;在垂直…

测试环境内存溢出排查过程

基本信息 客户名称&#xff1a;xxx 产品名称&#xff1a; 版本号&#xff1a; 问题分类&#xff1a;编码问题 环境类型&#xff1a;实体机 问题现象 保险公司测试环境爆内存&#xff0c;机器挂掉。总共64g的内存&#xff0c;在没有开始测试tomcat部署war包前内存使用率为25%左…

钉钉超过90天的文件需要一分钟重新激活的实现原理是什么?

具体实现原理可能包括以下几点&#xff1a; 冷热数据分类&#xff1a;系统会根据文件的访问频率将文件分为热数据和冷数据两类。热数据是经常被访问的文件&#xff0c;这些文件会被存储在快速的存储设备上&#xff0c;以便快速访问。冷数据是很少被访问的文件&#xff0c;这些…

基于ROS发布里程计信息

参考文档&#xff1a; navigationTutorialsRobotSetupOdom 参考博客&#xff1a; &#xff08;1&#xff09;ROS机器人里程计模型 &#xff08;2&#xff09;ROS里程计消息nav_msgs/Odometry的可视化方法 1 常用坐标系系统模型 世界坐标系是描述机器人全局信息的坐标系&#…

洛谷 B2004 对齐输出 C++代码

目录 推荐专栏 题目描述 AC Code 切记 推荐专栏 http://t.csdnimg.cn/Z1tCAhttp://t.csdnimg.cn/Z1tCA 题目描述 题目网址&#xff1a;对齐输出 - 洛谷 AC Code #include<bits/stdc.h> using namespace std; typedef long long ll; int main() { int a,b,c;cin&g…

【仙逆】尸阴宗始祖现身,王林修得黄泉生窍诀,阿呆惊险逃生

【侵权联系删除】【文/郑尔巴金】 深度爆料最新集&#xff0c;王林终于成功筑基&#xff0c;这一集的《仙逆》动漫真是让人热血沸腾啊&#xff01;在这个阶段&#xff0c;王林展现出了他的决心和毅力&#xff0c;成功地击杀了藤厉&#xff0c;并采取了夺基大法&#xff0c;从藤…

Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

文章目录 Hadoop 安装Hive 安装Hive On Spark 与 Spark On Hive 区别Hive On SparkSpark On Hive 部署 Hive On Spark查询 Hive 对应的 Spark 版本号下载 Spark解压 Spark配置环境变量指定 Hadoop 路径在 Hive 配置 Spark 参数上传 Jar 包并更换引擎 测试 Hive On Spark解决依赖…

Springboot的Container Images,docker加springboot

Spring Boot应用程序可以使用Dockerfiles容器化&#xff0c;或者使用Cloud Native Buildpacks来创建优化的docker兼容的容器映像&#xff0c;您可以在任何地方运行。 1. Efficient Container Images 很容易将Spring Boot fat jar打包为docker映像。然而&#xff0c;像在docke…

智能分析视频平台EasyCVR地图功能出现异常该如何解决?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…