【AI视野·今日Sound 声学论文速览第五十期】Fri, 1 Mar 2024

AI视野·今日CS.Sound 声学论文速览
Fri, 1 Mar 2024
Totally 9 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems
Authors Quentin Raymondaud, Mickael Rouvier, Richard Dufour
深度学习架构在许多研究领域的性能方面取得了重大进展。因此，自动语音识别 ASR 领域受益于这些科技进步，特别是声学建模，现在集成了深度神经网络架构。然而，这些性能提升已转化为通过这些黑盒架构学习和传达的信息的复杂性增加。经过对神经网络可解释性的大量研究，我们在本文中提出了一种协议，旨在确定 ASR 声学模型 AM 中的哪些信息以及信息位于何处。为此，我们建议在不同层使用中间表示来评估一组确定的任务的 AM 性能。关于性能变化和目标任务，我们可以提出关于哪些信息在不同架构步骤中得到增强或扰动的假设。在说话人验证、声学环境分类、性别分类、节奏失真检测系统和语音情感情感识别方面进行了实验。分析表明，基于神经的 AM 持有异质信息，这些信息似乎与音素识别不相关，例如情绪、情绪或说话者身份。

Unraveling Adversarial Examples against Speaker Identification -- Techniques for Attack Detection and Victim Model Classification
Authors Sonal Joshi, Thomas Thebaud, Jes s Villalba, Najim Dehak
对抗性例子已被证明会威胁说话人识别系统，并且已经提出了几种针对它们的对策。在本文中，我们提出了一种检测对抗性示例是否存在的方法，即区分良性示例和对抗性示例的二元分类器。我们通过探索新的架构，建立并扩展了之前关于攻击类型分类的工作。此外，我们还介绍了一种识别进行对抗性攻击的受害者模型的方法。为了实现这一目标，我们生成了一个新的数据集，其中包含针对各种受害者模型执行的多次攻击。我们的攻击检测 AUC 为 0.982，未知攻击的性能下降不超过 0.03。

Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?
Authors Lin Zhang, Themos Stafylakis, Federico Landini, Mireia Diez, Anna Silnova, Luk Burget
在本文中，我们将变分信息瓶颈方法应用于编码器解码器吸引子 EEND EDA 的端到端神经二值化。这使我们能够调查哪些信息对于模型至关重要。 EEND EDA 利用对话吸引子中说话者的矢量表示。我们的分析表明，吸引子不一定必须包含说话人特征信息。另一方面，给予吸引子更多的自由度，允许它们编码一些额外的可能特定于说话者的信息，会带来小但一致的二值化性能改进。尽管 EEND 系统的架构存在差异，但吸引子和框架嵌入的概念对于大多数系统来说是通用的，而不是 EEND EDA 所特有的。我们相信这项工作的主要结论可以适用于 EEND 的其他变体。

Compact Speech Translation Models via Discrete Speech Units Pretraining
Authors Tsz Kin Lam, Alexandra Birch, Barry Haddow
使用自监督学习 SSL 作为模型初始化现在很常见，可以在语音翻译 ST 中获得出色的结果。然而，它们也占用了大量的内存，阻碍了设备部署。在本文中，我们通过在离散语音单元 DSU 上预训练较小的模型来利用 SSL 模型。我们在 1 个 Filterbank 到 DSU 和 2 个 DSU 到翻译数据上预训练编码器解码器模型，并使用 1 中的编码器和 2 中的解码器来初始化新模型，并在有限的语音翻译数据上对其进行微调。通过使用 DSU 预训练来提取 SSL 模型的知识，最终模型变得紧凑。与使用 DSU 作为模型输入相比，我们的方法有几个优点，例如更短的推理管道以及相对于 DSU 标记化的鲁棒性。与 ASR 预训练相比，它不需要转录本，因此适用于低资源设置。

Point Processes and spatial statistics in time-frequency analysis
Authors Barbara Pascal, R mi Bardenet
有限能量信号由平方可积复值函数 t 表示，该函数 t 映射到实数变量 t 的 s t ，解释为时间。类似地，噪声信号由随机过程表示。时频分析是信号处理的一个子领域，相当于描述信号频率内容的时间演变。宽松地说，如果 s 是一首音乐作品的音频录音，那么时频分析在某种程度上就在于编写该作品的乐谱。在数学上，该运算通过变换 mathcal V 来执行，将 L 2 mathbb R 中的 s 映射到时间 t 和角频率 omega 的 L 2 mathbb R 2 中的复值函数 mathcal V s 。时频表示的平方模数 t, omega 映射到 vert mathcal V s t, omega vert 2 在乐谱类比中被称为 s 的频谱图，t 0 处的峰值频谱图，omega 0 对应于角频率处的音符omega 0 定位于时间 t 0 。更一般地说，直觉是频谱图的上层集合包含原始信号中的相关信息。因此，许多信号处理算法都围绕着识别频谱图的最大值。相反，频谱图的零表示完全静音，即不存在特定频率的时间。通过 z omega mathrm i t 将 mathbb R 2 同化为 mathbb C，本章重点介绍将信号映射到解析函数的时频变换 mathcal V。噪声信号频谱图的零点就是随机解析函数的零点，从而在 mathbb C 中形成点过程。

A SOUND APPROACH: Using Large Language Models to generate audio descriptions for egocentric text-audio retrieval
Authors Andreea Maria Oncescu, Jo o F. Henriques, Andrew Zisserman, Samuel Albanie, A. Sophia Koepke
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而，考虑到声音和视觉流代表数据的不同视图，将视觉描述视为音频描述远非最佳。即使存在音频类标签，它们通常也不是很详细，使得它们不适合文本音频检索。为了利用视频文本数据集中的相关音频信息，我们引入了一种使用大型语言模型法学硕士生成以音频为中心的描述的方法。在这项工作中，我们考虑以自我为中心的视频设置，并基于 EpicMIR 和 EgoMCQ 任务以及 EpicSounds 数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比，我们获得以音频为中心的描述的方法提供了显着更高的零镜头性能。此外，我们表明，与使用数据集的原始音频类标签相比，使用相同的提示，我们可以成功地利用 LLM 来改进 EpicSounds 上的检索。

Ambisonics Networks -- The Effect Of Radial Functions Regularization
Authors Bar Shaybet, Anurag Kumar, Vladimir Tourbabin, Boaz Rafaely
Ambisonics 是一种流行的空间音频格式，是声场平面波密度函数的球谐 SH 表示。许多算法在 SH 域中运行并利用高保真度立体声响复制作为其输入信号。从球形麦克风阵列编码高保真度立体声响复制的过程涉及除以径向函数，这可能会放大低频噪声。这可以通过正则化来克服，但缺点是会给高保真度立体声响复制编码引入错误。本文旨在研究不同正则化方式对深度神经网络 DNN 训练和性能的影响。理想情况下，这些网络应该对正则化方式具有鲁棒性。使用房间中单个扬声器的模拟数据和来自 LOCATA 挑战的实验数据来评估基于直接路径优势 DPD 测试的扬声器定位示例算法的鲁棒性。

Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale Speech Recognition
Authors Jeehyun Lee, Yerin Choi, Tae Jin Song, Myoung Wan Koo
构音障碍是中风患者的常见问题，严重影响言语清晰度。不适当的停顿是严重程度评估和言语治疗的关键指标。我们建议扩展大规模语音识别模型，以检测构音障碍语音中的不当停顿。为此，我们提出了任务设计、标记策略和具有不适当暂停预测层的语音识别模型。首先，我们将停顿检测视为语音识别，使用自动语音识别ASR模型将语音转换为带有停顿标签的文本。根据新设计的任务，我们在文本级别标记暂停位置及其适当性。我们与言语病理学家合作建立标签标准，确保高质量的注释数据。最后，我们使用不适当暂停预测层扩展 ASR 模型，以进行端到端不适当暂停检测。此外，我们提出了一种任务定制指标，用于评估独立于 ASR 性能的不当暂停检测。我们的实验表明，所提出的方法比基线更好地检测构音障碍语音中的不当停顿。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com