【AI视野·今日Sound 声学论文速览 第五十期】Fri, 1 Mar 2024

news2024/12/25 1:49:54

AI视野·今日CS.Sound 声学论文速览
Fri, 1 Mar 2024
Totally 9 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems
Authors Quentin Raymondaud, Mickael Rouvier, Richard Dufour
深度学习架构在许多研究领域的性能方面取得了重大进展。因此,自动语音识别 ASR 领域受益于这些科技进步,特别是声学建模,现在集成了深度神经网络架构。然而,这些性能提升已转化为通过这些黑盒架构学习和传达的信息的复杂性增加。经过对神经网络可解释性的大量研究,我们在本文中提出了一种协议,旨在确定 ASR 声学模型 AM 中的哪些信息以及信息位于何处。为此,我们建议在不同层使用中间表示来评估一组确定的任务的 AM 性能。关于性能变化和目标任务,我们可以提出关于哪些信息在不同架构步骤中得到增强或扰动的假设。在说话人验证、声学环境分类、性别分类、节奏失真检测系统和语音情感情感识别方面进行了实验。分析表明,基于神经的 AM 持有异质信息,这些信息似乎与音素识别不相关,例如情绪、情绪或说话者身份。

Unraveling Adversarial Examples against Speaker Identification -- Techniques for Attack Detection and Victim Model Classification
Authors Sonal Joshi, Thomas Thebaud, Jes s Villalba, Najim Dehak
对抗性例子已被证明会威胁说话人识别系统,并且已经提出了几种针对它们的对策。在本文中,我们提出了一种检测对抗性示例是否存在的方法,即区分良性示例和对抗性示例的二元分类器。我们通过探索新的架构,建立并扩展了之前关于攻击类型分类的工作。此外,我们还介绍了一种识别进行对抗性攻击的受害者模型的方法。为了实现这一目标,我们生成了一个新的数据集,其中包含针对各种受害者模型执行的多次攻击。我们的攻击检测 AUC 为 0.982,未知攻击的性能下降不超过 0.03。

Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?
Authors Lin Zhang, Themos Stafylakis, Federico Landini, Mireia Diez, Anna Silnova, Luk Burget
在本文中,我们将变分信息瓶颈方法应用于编码器解码器吸引子 EEND EDA 的端到端神经二值化。这使我们能够调查哪些信息对于模型至关重要。 EEND EDA 利用对话吸引子中说话者的矢量表示。我们的分析表明,吸引子不一定必须包含说话人特征信息。另一方面,给予吸引子更多的自由度,允许它们编码一些额外的可能特定于说话者的信息,会带来小但一致的二值化性能改进。尽管 EEND 系统的架构存在差异,但吸引子和框架嵌入的概念对于大多数系统来说是通用的,而不是 EEND EDA 所特有的。我们相信这项工作的主要结论可以适用于 EEND 的其他变体。

Compact Speech Translation Models via Discrete Speech Units Pretraining
Authors Tsz Kin Lam, Alexandra Birch, Barry Haddow
使用自监督学习 SSL 作为模型初始化现在很常见,可以在语音翻译 ST 中获得出色的结果。然而,它们也占用了大量的内存,阻碍了设备部署。在本文中,我们通过在离散语音单元 DSU 上预训练较小的模型来利用 SSL 模型。我们在 1 个 Filterbank 到 DSU 和 2 个 DSU 到翻译数据上预训练编码器解码器模型,并使用 1 中的编码器和 2 中的解码器来初始化新模型,并在有限的语音翻译数据上对其进行微调。通过使用 DSU 预训练来提取 SSL 模型的知识,最终模型变得紧凑。与使用 DSU 作为模型输入相比,我们的方法有几个优点,例如更短的推理管道以及相对于 DSU 标记化的鲁棒性。与 ASR 预训练相比,它不需要转录本,因此适用于低资源设置。

Point Processes and spatial statistics in time-frequency analysis
Authors Barbara Pascal, R mi Bardenet
有限能量信号由平方可积复值函数 t 表示,该函数 t 映射到实数变量 t 的 s t ,解释为时间。类似地,噪声信号由随机过程表示。时频分析是信号处理的一个子领域,相当于描述信号频率内容的时间演变。宽松地说,如果 s 是一首音乐作品的音频录音,那么时频分析在某种程度上就在于编写该作品的乐谱。在数学上,该运算通过变换 mathcal V 来执行,将 L 2 mathbb R 中的 s 映射到时间 t 和角频率 omega 的 L 2 mathbb R 2 中的复值函数 mathcal V s 。时频表示的平方模数 t, omega 映射到 vert mathcal V s t, omega vert 2 在乐谱类比中被称为 s 的频谱图,t 0 处的峰值频谱图,omega 0 对应于角频率处的音符omega 0 定位于时间 t 0 。更一般地说,直觉是频谱图的上层集合包含原始信号中的相关信息。因此,许多信号处理算法都围绕着识别频谱图的最大值。相反,频谱图的零表示完全静音,即不存在特定频率的时间。通过 z omega mathrm i t 将 mathbb R 2 同化为 mathbb C,本章重点介绍将信号映射到解析函数的时频变换 mathcal V。噪声信号频谱图的零点就是随机解析函数的零点,从而在 mathbb C 中形成点过程。

A SOUND APPROACH: Using Large Language Models to generate audio descriptions for egocentric text-audio retrieval
Authors Andreea Maria Oncescu, Jo o F. Henriques, Andrew Zisserman, Samuel Albanie, A. Sophia Koepke
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而,考虑到声音和视觉流代表数据的不同视图,将视觉描述视为音频描述远非最佳。即使存在音频类标签,它们通常也不是很详细,使得它们不适合文本音频检索。为了利用视频文本数据集中的相关音频信息,我们引入了一种使用大型语言模型法学硕士生成以音频为中心的描述的方法。在这项工作中,我们考虑以自我为中心的视频设置,并基于 EpicMIR 和 EgoMCQ 任务以及 EpicSounds 数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述的方法提供了显着更高的零镜头性能。此外,我们表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地利用 LLM 来改进 EpicSounds 上的检索。

Ambisonics Networks -- The Effect Of Radial Functions Regularization
Authors Bar Shaybet, Anurag Kumar, Vladimir Tourbabin, Boaz Rafaely
Ambisonics 是一种流行的空间音频格式,是声场平面波密度函数的球谐 SH 表示。许多算法在 SH 域中运行并利用高保真度立体声响复制作为其输入信号。从球形麦克风阵列编码高保真度立体声响复制的过程涉及除以径向函数,这可能会放大低频噪声。这可以通过正则化来克服,但缺点是会给高保真度立体声响复制编码引入错误。本文旨在研究不同正则化方式对深度神经网络 DNN 训练和性能的影响。理想情况下,这些网络应该对正则化方式具有鲁棒性。使用房间中单个扬声器的模拟数据和来自 LOCATA 挑战的实验数据来评估基于直接路径优势 DPD 测试的扬声器定位示例算法的鲁棒性。

Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale Speech Recognition
Authors Jeehyun Lee, Yerin Choi, Tae Jin Song, Myoung Wan Koo
构音障碍是中风患者的常见问题,严重影响言语清晰度。不适当的停顿是严重程度评估和言语治疗的关键指标。我们建议扩展大规模语音识别模型,以检测构音障碍语音中的不当停顿。为此,我们提出了任务设计、标记策略和具有不适当暂停预测层的语音识别模型。首先,我们将停顿检测视为语音识别,使用自动语音识别ASR模型将语音转换为带有停顿标签的文本。根据新设计的任务,我们在文本级别标记暂停位置及其适当性。我们与言语病理学家合作建立标签标准,确保高质量的注释数据。最后,我们使用不适当暂停预测层扩展 ASR 模型,以进行端到端不适当暂停检测。此外,我们提出了一种任务定制指标,用于评估独立于 ASR 性能的不当暂停检测。我们的实验表明,所提出的方法比基线更好地检测构音障碍语音中的不当停顿。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1490943.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringCloud--Sentinel使用

一、快速开始 Sentinel 的使用可以分为两个部分: 核心库(Java 客户端):不依赖任何框架/库,能够运行于 Java 8 及以上的版本的运行时环境,同时对 Dubbo / Spring Cloud 等框架也有较好的支持。控制台&…

【Spring高级】第1讲:BeanFactory 与 ApplicationContext

目录 两者关系BeanFactory功能ApplicationContext功能 两者关系 BeanFactory和ApplicationContext都是Spring框架中非常重要的接口,它们都与Spring的IoC容器有关。 下面通过SpringApplication的引导类来说明上面两个接口。 看下面代码: SpringBootAp…

【场景题】如何设计一个购物车功能?

本文参考文章:https://www.hollischuang.com/archives/6998 https://www.woshipm.com/pd/4115447.html https://zq99299.github.io/note-book/back-end-storage/01/03.html 首先我们要明白:购物车系统在电商系统中的角色是作为用户选购商品和最终下单的桥…

Flutter中的三棵树

Widget Tree: 页面配置信息。 Element Tree: Widget tree的实例化对象,创建出renderObject,并关联到element.renderobject属性上,最后完成RenderObject Tree的创建。 RenderObject Tree:完成布局和图层绘制…

Unity2013.1.19_DOTS_Burst compiler

Unity2013.1.19_DOTS_Burst compiler DOTS是一种新产品,现在尚在起步阶段。由于它处于持续发展中,随着我们努力使其达到最佳状态,您将看到API会不断演变和日趋成熟。 DOTS包含以下元素: 实体组件系统(ECS) - 提供使用面向数据的…

有个朋友被骗了,大家要擦亮眼睛

1.引言 大家好,我是Leo哥🫣🫣🫣,昨天凌晨有个粉丝朋友找到Leo哥,咨询一些问题,现在的朋友们真卷呐,大半夜还在挑灯夜战。可无奈Leo哥12点之前已经睡了,身体为重&#xf…

云服务器2核4G能支持多少人同时访问?2核4G5M并发量评测

腾讯云轻量应用服务器2核4G5M配置一年优惠价165元、252元15个月、三年756元,100%CPU性能,5M带宽下载速度640KB/秒,60GB SSD系统盘,月流量500GB,折合每天16.6GB流量,超出月流量包的流量按照0.8元每GB的价格支…

安装ProxySQL,教程及安装链接(网盘自提)

一、网盘下载,本地直传 我网盘分享的是proxysql-2.5.5-1-centos8.x86_64.rpm,yum或者dnf直接安装就行 提取码:rhelhttps://pan.baidu.com/s/1nmx8-h8JEhrxQE3jsB7YQw 官方安装地址 官网下载地址https://repo.proxysql.com/ProxySQL/ 二、…

[项目设计] 从零实现的高并发内存池(三)

🌈 博客个人主页:Chris在Coding 🎥 本文所属专栏:[高并发内存池] ❤️ 前置学习专栏:[Linux学习] ⏰ 我们仍在旅途 ​ 目录 4.CentralCache实现 4.1 CentralCache整体架构 4.2 围绕Span的相关设计…

从0到1入门C++编程——09 STL、string容器、vector容器、deque容器

文章目录 一、标准模板库STL二、容器算法迭代器应用1、遍历容器中整型数据2、遍历容器中自定义数据类型3、容器中嵌套容器 三、string容器1、构造函数2、赋值操作3、字符串拼接4、查找和替换5、字符串比较6、字符访问与存取7、插入和删除8、子串 四、vector容器1、构造函数2、赋…

灯丝灯双通道低过温高压线性恒流芯片SM2082ED的应用及特性解析

双通道低过温高压线性恒流芯片是一种电子芯片,它具有双通道设计,可以在高电压条件下工作,并具有低过温特性。这种芯片通常用于需要高电流和高电压的应用,如LED照明、激光器、电机驱动等。 双通道设计意味着该芯片可以同时处理两个…

高级软件开发知识点

流程 算法题简历上项目用到技术、流程、遇到问题HR 准备 常考的题型和回答思路刷100算法题,理解其思想,不要死记最近一家公司所负责的业务和项目: 项目背景、演进之路,有哪个阶段,每个阶段主要做什么项目中技术选型…

【Sql Server】C#通过拼接代码的方式组合添加sql语句,会出现那些情况,参数化的作用

欢迎来到《小5讲堂》,大家好,我是全栈小5。 这是《Sql Server》系列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对…

想要高薪还想要低要求?想转行做Python自动化测试,我该怎么做?

前言 最近小编连续收到好几个粉丝的私信询问:我年纪上来了,原来的行业做不下去了,想转行还能行吗?我是女生,计算机专业快毕业了,但是不喜欢做开发怎么办?我对编程行业感兴趣,想学编…

社交媒体的未来图景:探索Facebook的数字化之旅

社交媒体已经成为现代社会不可或缺的一部分,其影响力已经深入到人们生活的方方面面。而在众多社交媒体平台中,Facebook无疑是其中的巨头,其数字化之旅更是引领着整个社交媒体行业的发展方向。本文将深入探讨社交媒体的未来图景,以…

Linux中服务端开发

1 创建socket,返回一个文件描述符lfd---socket(); 2 将lfd和IP,PROT进行绑定---bind(); 3 将lfd由主动变成被动监听---listen(); 4 接收一个新的连接,得到一个的文件描述符cfd--accept() --该文件描述符用于与客户端通信 5 while(1) { 接受数据&a…

证明高维度神经网络模型是低纬度神经网络模型的加和

神经网络中矩阵乘法的分解与应用 启发标题:神经网络中矩阵乘法的分解与应用摘要:引言:方法:实验:结论:参考文献:附录1附录2实验数据 启发 理论上 更具矩阵乘法 A[p,mn]B[mn,q]C[p,q] Acat(A[:,…

ChatGPT 4.0 升级指南

1.ChatGPT 是什么? ChatGPT 是由 OpenAI 开发的一种基于人工智能的聊天机器人,它基于强大的语言处理模型 GPT(Generative Pre-trained Transformer)构建。它能够理解人类语言,可以为我们解决实际的问题。 1.模型规模…

K8S实现零宕机实践

越来越多的大厂都在上云、上容器、上K8S编排,K8S和容器云确实帮助我们解决了很多问题。但是,带来方便的同时,也让我们的架构变得更复杂了,更难于依靠“老经验”来解决问题了。虽然我们不用再费力考虑一层的问题,怎么实…

《低代码平台开发实践:基于React》读书心得与实战体验

低代码平台开发实践标题 🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! 目录 📘 一、引…