【AI视野·今日Sound 声学论文速览 第二十三期】Wed, 11 Oct 2023

news2025/1/20 1:41:56

AI视野·今日CS.Sound 声学论文速览
Wed, 11 Oct 2023
Totally 14 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual Voice Conversion
Authors Haeyun Choi, Jio Gim, Yuho Lee, Youngin Kim, Young Joo Suh
本文提出了一种简单而鲁棒的零样本语音转换系统,具有循环结构和梅尔频谱图预处理。以前的工作由于依赖于精心设计的瓶颈结构而遭受信息丢失和合成质量差的问题。此外,仅依赖自我重建损失的模型很难再现不同说话者的声音。为了解决这些问题,我们提出了循环一致性损失,该损失考虑了目标说话者和源说话者之间的来回转换。此外,在说话人编码器训练期间利用堆叠随机打乱梅尔谱图和标签平滑方法从语音中提取时间无关的全局说话人表示,这是零样本转换的关键。我们的模型在主观和客观评估方面都优于现有的最先进结果。

Topological data analysis of human vowels: Persistent homologies across representation spaces
Authors Guillem Bonafos, Jean Marc Freyermuth, Pierre Pudlo, Samuel Tron on, Arnaud Rey
拓扑数据分析 TDA 已成功用于信号图像处理中的各种任务,从可视化到有监督无监督分类。通常,拓扑特征是从持久同调理论获得的。标准 TDA 管道从原始信号数据或其表示开始。然后,它包括使用预先指定的过滤在数据顶部构建多尺度拓扑结构,最后计算要进一步利用的拓扑特征。常用的拓扑签名是持久图或其变换。目前的研究讨论了利用拓扑特征的多种方法的后果,更不用说过滤的选择,但据我们所知,信号表示的选择尚未成为任何研究的主题。本文试图对后一个问题提供一些答案。为此,我们收集了真实的音频数据并建立了一项比较研究,以评估从三个不同表示空间中提取的拓扑特征的判别信息的质量。每个音频信号都表示为 i 使用 Taken 表示在更高维空间中嵌入观察到的数据,ii 被视为 3D 环境空间中的表面的频谱图,iii 频谱图零点集。根据元音录音,我们使用拓扑签名来解决三个预测问题:说话者性别、元音类型和个体。我们表明,对于最后两个问题,拓扑增强随机森林相对于仅基于梅尔频率倒谱系数 MFCC 改进了袋外误差 OOB。

Noisy-ArcMix: Additive Noisy Angular Margin Loss Combined With Mixup Anomalous Sound Detection
Authors Soonhyeon Choi, Jung Woo Choi
无监督异常声音检测 ASD 旨在通过学习正常操作声音的特征并感知其偏差来识别异常声音。最近的方法侧重于利用正常数据分类的自监督任务,并且高级模型表明,通过表示学习产生紧凑的类内和良好分离的类内分布,确保异常数据的表示空间非常重要。然而,我们表明,传统方法通常无法确保足够的类内紧凑性,并且在样本与其相应中心之间表现出角度差异。在本文中,我们提出了一种训练技术,旨在确保类内紧凑性并增加正常样本和异常样本之间的角度差距。此外,我们提出了一种提取重要时间区域特征的架构,使模型能够学习应该强调或抑制哪些时间帧。

An experiment on an automated literature survey of data-driven speech enhancement methods
Authors Arthur dos Santos, Jayr Pereira, Rodrigo Nogueira, Bruno Masiero, Shiva Sander Tavallaey, Elias Zea
一般来说,声学领域的科学出版物数量不断增加,这给进行传统文献调查带来了困难。这项工作探讨了如何使用生成式预训练 Transformer GPT 模型来自动对 116 篇有关数据驱动语音增强方法的文章进行文献调查。主要目标是评估模型在对从参考人类调查中选出的论文的特定查询提供准确响应方面的能力和局限性。

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments
Authors William Ravenscroft, Stefan Goetze, Thomas Hain
语音分离仍然是多扬声器技术研究人员的一个重要课题。卷积增强变压器构造器在许多语音处理任务中表现良好,但在语音分离方面的研究仍在进行中。最先进的 SOTA 分离模型是时域音频分离网络 TasNets。许多成功的模型都利用了双路径 DP 网络,顺序处理局部和全局信息。时域一致性 TD 一致性类似于 DP 方法,因为它们也按顺序处理局部和全局上下文,但具有不同的时间复杂度函数。结果表明,对于实际的较短信号长度,构象异构体在控制特征尺寸时更加有效。提出子采样层以进一步提高计算效率。

JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions
Authors Detai Xin, Junfeng Jiang, Shinnosuke Takamichi, Yuki Saito, Akiko Aizawa, Hiroshi Saruwatari
我们提出了 JVNV,这是一个具有言语内容和非言语发声的日语情感语音语料库,其脚本是由大规模语言模型生成的。现有的情感语音语料库不仅缺乏适当的情感脚本,而且还缺乏口语中表达情感的基本表达方式非语言发声NV。我们提出了一种自动脚本生成方法,通过使用提示工程向 ChatGPT 提供具有情感极性的种子词和非语言发声短语来生成情感脚本。我们借助情感置信度得分和语言流畅度得分,从生成的候选脚本中选择了 514 个音素覆盖均衡的脚本。我们通过证明 JVNV 比以前的日语情感语音语料库具有更好的音素覆盖和情感可识别性来证明 JVNV 的有效性。然后,我们使用离散代码来表示 NV,对情感文本到语音合成的 JVNV 进行基准测试。我们表明,合成朗读语音和情感语音的性能之间仍然存在差距,并且在语音中添加 NV 使任务变得更加困难,这给这项任务带来了新的挑战,并使 JVNV 成为该领域相关工作的宝贵资源。未来。

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration
Authors Piyush Singh Pasi, Karthikeya Battepati, Preethi Jyothi, Ganesh Ramakrishnan, Tanmay Mahapatra, Manoj Singh
音频到文本对齐的问题已经在训练期间使用完整的监督进行了大量的研究。然而,这通常不是在长音频记录的情况下,其中被查询的文本不会逐字出现在音频文件中。这项工作是与一个名为 CARE India 的非政府组织合作进行的,该组织收集居住在印度比哈尔邦农村地区的年轻母亲的长音频健康调查。给定从用于指导这些调查的调查问卷中提取的问题,我们的目标是在长录音中找到问题的提出位置。这对于非洲和亚洲组织来说非常有价值,否则它们将不得不费力地通过漫长而嘈杂的录音来找​​到感兴趣的问题和答案。我们提出的框架 INDENT 使用基于交叉注意力的模型和有关句子时间顺序的先验信息来学习捕获底层口语文本语义的语音嵌入。这些学习到的嵌入用于在推理时根据文本查询检索相应的音频片段。我们凭经验证明,与使用基于文本的启发式方法获得的模型相比,我们的模型的 R avg 的有效性显着提高了约 3 个。我们还展示了使用最先进的印度语言 ASR 模型生成的嘈杂 ASR 在代替语音时如何产生更好的结果。仅接受印地语数据训练的 INDENT 能够满足语义共享文本空间支持的所有语言。

Modeling of Speech-dependent Own Voice Transfer Characteristics for Hearables with In-ear Microphones
Authors Mattes Ohlenbusch, Christian Rollwage, Simon Doclo
耳戴式设备通常包含耳内麦克风,可用于捕获用户自己的声音。然而,由于耳道闭塞,入耳式麦克风主要记录身体传导的语音,其受到频带限制效应并且容易放大低频内容。假设这些传输特性根据语音内容以及各个说话者之间的不同而变化。人们希望拥有可听麦克风之间自身语音传输特性的准确模型。这样的模型可用于模拟大量耳内录音,以训练基于监督学习的算法,旨在补偿自身的语音传输特性。在本文中,我们提出了一种基于音素识别的语音相关系统识别模型。使用原型可听设备的录音,根据技术措施评估建模准确性。我们研究传输特征模型对话语或说话者不匹配的鲁棒性。仿真结果表明,与语音无关模型相比,使用所提出的语音相关模型更适合模拟耳内录音。与基于自适应过滤的模型相比,所提出的模型能够更好地推广到新的话语。

Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition
Authors Srijith Radhakrishnan, Chao Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani, David Gomez Cabrero, Jesper N. Tegner
我们引入了一种新的跨模态融合技术,专为自动语音识别 ASR 中的生成错误校正而设计。我们的方法利用声学信息和外部语言表示来生成准确的语音转录上下文。这标志着在 n 个最佳假设领域内,朝着生成错误校正的新范式迈出了一步。与现有的基于排名的重新评分方法不同,我们的方法巧妙地使用不同的初始化技术和参数有效算法来提高从预训练的语音和文本模型得出的 ASR 性能。通过对不同 ASR 数据集的评估,我们评估了融合技术的稳定性和再现性,证明了与 n 个最佳假设相比,其字错误率相对 WERR 性能提高了 37.66 。

Proceedings of The first international workshop on eXplainable AI for the Arts (XAIxArts)
Authors Nick Bryan Kinns, Corey Ford, Alan Chamberlain, Steven David Benford, Helen Kennedy, Zijin Li, Wu Qiong, Gus G. Xia, Jeba Rezwana

Cross-modal Cognitive Consensus guided Audio-Visual Segmentation
Authors Zhaofeng Shi, Qingbo Wu, Hongliang Li, Fanman Meng, Linfeng Xu
视听分割 AVS 旨在从视频帧中提取发声对象,该视频帧由像素分割掩码表示。这项开创性的工作通过密集的特征级视听交互来完成这项任务,忽略了不同模态之间的维度差距。更具体地说,音频剪辑只能在每个序列中提供textit全局语义标签,但视频帧覆盖不同textit局部区域的多个语义对象。在本文中,我们提出了一种跨模态认知共识引导网络 C3N,从全局维度调整视听语义,并通过注意力机制逐步将它们注入局部区域。首先,开发了跨模态认知共识推理模块 C3IM,通过集成视听分类置信度和模态特定标签嵌入的相似性来提取统一的模态标签。然后,我们通过认知共识引导的注意力模块 CCAM 将统一的模态标签反馈给视觉主干作为显式语义级别指导,突出显示与感兴趣对象相对应的局部特征。

Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering
Authors Xiulong Liu, Zhikang Dong, Peng Zhang
近年来,人们越来越重视音频、视觉和文本模式的交叉,推动了多模式研究的进步。然而,任何模态中存在的强烈偏差都可能导致模型忽视其他模态。因此,模型有效推理这些不同模式的能力受到损害,阻碍了进一步的发展。在本文中,我们仔细审查原始数据集中的每种问题类型,选择那些具有明显答案偏差的问题类型。为了消除这些偏见,我们收集补充视频和问题,确保没有答案具有明显的偏态分布。特别是,对于二元问题,我们努力确保两个答案几乎均匀地分布在每个问题类别中。因此,我们构建了一个新的数据集,名为 MUSIC AVQA v2.0,该数据集更具挑战性,我们相信可以更好地促进 AVQA 任务的进展。此外,我们提出了一种新颖的基线模型,可以更深入地研究视听文本相互关系。

Leveraging Multilingual Self-Supervised Pretrained Models for Sequence-to-Sequence End-to-End Spoken Language Understanding
Authors Pavel Denisov, Ngoc Thang Vu
人们已经提出了许多使用预训练模型进行端到端口语理解 E2E SLU 的方法,但它们的评估通常缺乏多语言设置和需要预测词汇填充物(例如槽填充)的任务。在这项工作中,我们提出了一种统一的方法,该方法集成了多语言预训练的语音和文本模型,并以生成方式对四种语言的六个数据集执行 E2E SLU,包括词汇填充词的预测。我们研究了如何通过使用多个训练目标对广泛可用的语音识别数据进行预训练来改进所提出的方法。对 7000 小时的多语言数据进行预训练,使我们最终能够在两个 SLU 数据集以及另外两个 SLU 数据集上超越现有技术。

Component attention network for multimodal dance improvisation recognition
Authors Jia Fu, Jiarui Tan, Wenjie Yin, Sepideh Pashami, M rten Bj rkman
即兴舞蹈是艺术领域一个活跃的研究课题。由于其独特的动态,即兴舞蹈的运动分析可能具有挑战性。数据驱动的舞蹈运动分析,包括识别和生成,通常仅限于骨骼数据。然而,其他形式的数据(例如音频)可以被记录并有利于下游任务。本文探讨了舞蹈即兴创作背景下人体动作识别的多模态融合方法的应用和性能。我们提出了一种基于注意力的模型,即组件注意力网络 CANet,用于三个级别的多模态融合:1 与 CANet 的特征融合,2 与 CANet 和图卷积网络 GCN 的模型融合,3 与投票策略的后期融合。我们进行彻底的实验来分析不同融合方法中每种模态的影响,并区分关键的时间或成分特征。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1095572.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【mysql】Mysql自定义变量 @rownum使用

Mysql自定义变量 rownum 这个可以赋值?这是初始化? 先看表结构 有五条数据。执行前半段语句发现。rownum的起始值等于行数 这里from后面可以加person与 r这连个组成 如果这里的rownum打错了呢。发现这个变量就没有初始值。 可见,没有必要…

C++指针解读(6)-- 指针和字符串

1、字符串的基本概念 (1)字符串的存储 字符串是存放在字符数组中的。比如字符串“hello”,在内存中是这么存放的: 这里要注意,在字符串的最后会加上一个\0,也被称为NUL字符,表示字符串的结束位…

【算法训练-排序算法 三】【排序应用】合并区间

废话不多说,喊一句号子鼓励自己:程序员永不失业,程序员走向架构!本篇Blog的主题是【合并区间】,使用【数组】这个基本的数据结构来实现,这个高频题的站点是:CodeTop,筛选条件为&…

闪电藤文件传输助手上线

官网 临时官网:https://lightningvine.zishu.life/ 正式官网(备案中):lightningvine.cn 简介 闪电藤是基于LocalSend二次开发的一款局域网文件传输工具,完全兼容LocalSend,在它的基础上进行UI交互的重新设计…

前端取消请求

取消请求 发送一个异步请求获取数据,并在控制台中打印出返回结果。这里使用了 fetch 方法来发送请求,同时使用 AbortController 对象来实现请求的取消操作。 具体来说,代码中定义了一个 list 函数,该函数会创建一个 AbortContro…

在 VSCode 中使用 PlantUML

最近,因为工作需要绘制一些逻辑图,我自己现在使用的是 PlantUML 或者 mermaid,相比之下前者更加强大。不过它的环境也麻烦一些,mermaid 在一些软件上已经内置了。但是 PlantUML 一般需要自己本地安装或者使用远程服务器&#xff0…

计算机毕业设计-开题报告答辩常见问题!Javaweb项目答辩

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

2023年厦门市高等职业院校技能竞赛软件测试竞赛规程

2023年厦门市高等职业院校技能竞赛 软件测试竞赛规程 一、赛项名称 赛项名称:软件测试 竞赛形式:团体赛 赛项专业大类:电子信息 二、竞赛目的 (一)检验教学成效 本赛项竞赛内容以《国家职业教育改革实施方案》为设计方…

Java Swing医院就诊预约系统

一、系统概述 本系统是一款使用Java Swing开发的医院就诊预约系统,面向医院的医务人员和患者使用。 系统功能: 患者管理:添加/编辑/查询/删除患者信息 医生管理:添加/编辑/查询/删除医生信息 科室管理:添加/编辑/查询/删除科室信息 预约登记:患者选择医生和日期进行预约 预约…

【文档智能】多模态预训练模型及相关数据集汇总

前言 大模型时代,在现实场景中或者企业私域数据中,大多数数据都以文档的形式存在,如何更好的解析获取文档数据显得尤为重要。文档智能也从以前的目标检测(版面分析)阶段转向多模态预训练阶段,本文将介绍目…

分享项目管理软件排行榜!

无论是大型企业还是小型团队,项目管理是企业不可或缺的一部分。一个好的项目管理软件可以帮助企业有效地规划和实施项目,对于团队成员来说,也可以更好地分配任务、查看进度和提高团队合作能力。面对众多的项目管理软件,如何选择适…

JMM模型与并发三大特性

如何学: 分理解并发的三大特性,JMM工作内存和主内存关系,知道多线程之间如何通信的,掌握volatile能保证可见性和有序性,CAS就可以了 并发和并行 目标都是最大化CPU的使用率 并行(parallel):指在同一时刻&a…

Arcgis对图像重采样、打开查看运行结果的窗口、逐像元提取数值

1、Arcgis对图像重采样 然后打开数据管理工具-栅格-栅格处理-重采样 打开后,此处我们输入数据用导入的影像,X和Y代表重采样的大小为8*8 注意:输出文件需要有文件后缀,否则报错。 采样后,像元就变成了8*8一个像元。 2…

安装gymnasium[box2d]的问题

安装时总会报错 Building wheels for collected packages: box2d-pyBuilding wheel for box2d-py (setup.py) ... errorerror: subprocess-exited-with-error python setup.py bdist_wheel did not run successfully.│ exit code: 1╰─> [16 lines of output]Using setup…

gitlab自编译 源码下载

网上都是怎么用 gitlab,但是实际开发中有需要针对 gitlab 进行二次编译自定义实现功能的想法。 搜索了网上的资料以及在官网的查找,查到了如下 gitlab 使用 ruby 开发。 gitlab 下载包 gitlab/gitlab-ce - Packages packages.gitlab.com gitlab/gitl…

leetcode做题笔记174. 地下城游戏

恶魔们抓住了公主并将她关在了地下城 dungeon 的 右下角 。地下城是由 m x n 个房间组成的二维网格。我们英勇的骑士最初被安置在 左上角 的房间里,他必须穿过地下城并通过对抗恶魔来拯救公主。 骑士的初始健康点数为一个正整数。如果他的健康点数在某一时刻降至 0…

21GA-ELM,遗传算法优化ELM预测,并和优化前后以及真实数值进行对比,确定结果,基于MATLAB平台,程序已经调通,可以直接运行,需要直接拍下。

GA-ELM,遗传算法优化ELM预测,并和优化前后以及真实数值进行对比,确定结果,基于MATLAB平台,程序已经调通,可以直接运行,需要直接拍下。 21matlab时间序列预测极限学习遗传优化算 (xiaohongshu.co…

2023年(2024届)双非保研历程(中南、东南、浙大、信工所、国防科大、北邮)

个人情况 学校层次:双非 专业:信息安全(投的基本都是网安) 排名:2/66 英语:六级565,四级560 竞赛:大英赛国三、美赛H、蓝桥杯省一、数竞省一、词达人省一、数模国赛省三。 论文&…

【LeetCode刷题(数据结构与算法)】:二叉树之左叶子之和

给定二叉树的根节点 root ,返回所有左叶子之和 输入: root [3,9,20,null,null,15,7] 输出: 24 解释: 在这个二叉树中,有两个左叶子,分别是 9 和 15,所以返回 24 示例 2: 输入: root [1] 输出: 0 这都题目用递归的方法就可以解决…

牛客周赛 Round 15

A、 题目描述 游游拿到了一个正整数,她希望将它切割成两部分,使得它们的和为偶数。游游想知道有多少种合法的切割方案? 注:切割后的正整数允许出现前导零。 输入描述: 一个正整数,大小不超过10^100000 输出描述: 一个整…