AI视野·今日CS.Sound 声学论文速览
Thu, 4 Jan 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页
Daily Sound Papers
Multichannel blind speech source separation with a disjoint constraint source model Authors Jianyu Wang, Shanzheng Guan 多通道卷积盲语音源分离是指在没有太多关于混合系统的先验信息的情况下从观察到的多通道混合中分离不同语音源的问题。多通道非负矩阵分解MNMF已被证明是最强大的分离框架之一,其代表算法如MNMF和独立低秩矩阵分析ILRMA都表现出了出色的性能。然而,在这样的框架中没有充分考虑语音源信号的稀疏特性。众所周知,语音信号本质上是稀疏的,本工作考虑这一点以提高分离性能。具体来说,我们利用 Bingham 和 Laplace 分布来制定不相交约束正则化器,随后将其合并到 MNMF 和 ILRMA 中。然后,我们推导出用于更新与源模型相关的参数的主化最小化规则,从而开发了两种增强算法 MNMF 和 ILRMA。 |
Independent low-rank matrix analysis based on the Sinkhorn divergence source model for blind source separation Authors Jianyu Wang, Shanzheng Guan, Jingdong Chen, Jacob Benesty 所谓的独立低秩矩阵分析ILRMA已经展示了处理音频和语音信号的确定盲源分离BSS问题的巨大潜力。该方法假设不同频段的频谱是独立的,并且任意频段的频谱系数均服从高斯分布。然后使用 Itakura Saito 散度来估计源模型相关参数。但实际上,不同频段的频谱系数可能是相关的,而现有的ILRMA算法并未考虑这一点。本文提出了 ILRMA 的改进版本,该版本考虑了不同频段的频谱系数之间的相关性。然后利用 Sinkhorn 散度来优化源模型参数。由于使用跨带信息,BSS性能得到改善。但需要估计的参数数量也显着增加,计算复杂度也显着增加。为了降低算法复杂度,我们应用克罗内克乘积将建模矩阵分解为多个维数更小的矩阵的乘积。 |
Incremental FastPitch: Chunk-based High Quality Text to Speech Authors Muyang Du, Chuan Liu, Junjie Lai 并行文本语音模型已广泛应用于实时语音合成,与传统的自回归模型相比,它们提供了更多的可控性和更快的合成过程。尽管并行模型在很多方面都有好处,但由于其完全并行的架构(例如 Transformer),它们自然不适合增量综合。在这项工作中,我们提出了 Incremental FastPitch,一种新颖的 FastPitch 变体,能够通过使用基于块的 FFT 块改进架构、使用感受野约束块注意掩模进行训练以及使用固定大小的过去模型状态进行推理来增量生成高质量的 Mel 块。 |
Exploring Multi-Modal Control in Music-Driven Dance Generation Authors Ronghui Li, Yuqin Dai, Yachao Zhang, Jun Li, Jian Yang, Jie Guo, Xiu Li 现有的音乐驱动的3D舞蹈生成方法主要集中于高质量的舞蹈生成,但在生成过程中缺乏足够的控制。为了解决这些问题,我们提出了一个统一的框架,能够生成高质量的舞蹈动作并支持多模态控制,包括流派控制、语义控制和空间控制。首先,我们将舞蹈生成网络与舞蹈控制网络解耦,从而避免添加额外控制信息时舞蹈质量的下降。其次,针对不同的控制信息设计具体的控制策略,并将其整合到一个统一的框架中。 |
CoMoSVC: Consistency Model-based Singing Voice Conversion Authors Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo 基于扩散的歌声转换 SVC 方法取得了显着的性能,产生了与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度缓慢,因此加速变得至关重要。在本文中,我们提出了 CoMoSVC,一种基于一致性模型的 SVC 方法,旨在实现高质量生成和高速采样。首先专门为SVC设计了基于扩散的教师模型,并在自一致性特性下进一步提炼出学生模型以实现一步采样。在单个 NVIDIA GTX4090 GPU 上的实验表明,尽管 CoMoSVC 的推理速度明显快于最先进的基于 SOTA 扩散的 SVC 系统,但它仍然根据主观和客观指标实现了相当或更高的转换性能。 |
Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models Authors Rita Frieske, Bertram E. Shi 幻觉是深度神经网络产生的一种输出错误。虽然这已经在自然语言处理中进行了研究,但之前还没有在自动语音识别中进行过研究。在这里,我们将 ASR 中的幻觉定义为由模型生成的转录,这些转录在语义上与源话语无关,但仍然流畅且连贯。幻觉与模型可能的自然语言输出的相似性会产生欺骗的危险并影响系统的可信度。我们表明,常用的指标(例如单词错误率)无法区分幻觉模型和非幻觉模型。为了解决这个问题,我们提出了一种基于扰动的方法,用于评估自动语音识别 ASR 模型在测试时对幻觉的敏感性,该方法不需要访问训练数据集。我们证明,这种方法有助于区分具有相似基线错误率的幻觉模型和非幻觉模型。我们进一步探索 ASR 错误类型与数据集噪声类型之间的关系,以确定哪些类型的噪声最有可能产生幻觉输出。我们设计了一个框架,通过分析幻觉与真实情况的语义联系及其流畅性来识别幻觉。 |
Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction Authors Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Semin Kim, Joun Yeop Lee, Nam Soo Kim 我们提出了一种以神经换能器为中心的新型文本到语音 TTS 框架。我们的方法利用从 wav2vec2.0 嵌入获得的离散语义标记,将整个 TTS 管道划分为语义级序列到序列 seq2seq 建模和细粒度声学建模阶段。为了实现鲁棒且高效的对齐建模,我们采用了名为令牌转换器的神经转换器来进行语义令牌预测,受益于其硬单调对齐约束。随后,非自回归 NAR 语音生成器根据这些语义标记有效地合成波形。此外,参考语音控制每个阶段的时间动态和声学条件。这种解耦框架降低了 TTS 训练的复杂性,同时允许每个阶段专注于语义和声学建模。我们在零样本自适应 TTS 上的实验结果表明,我们的模型在语音质量和说话者相似度方面(无论是客观还是主观)都超过了基线。 |
Self-supervised Reflective Learning through Self-distillation and Online Clustering for Speaker Representation Learning Authors Danwei Cai, Zexin Cai, Ming Li 说话人表征学习对于现代语音识别系统至关重要。虽然监督学习技术需要大量标记数据,但无监督方法可以利用大量未标记的语料库,提供可扩展的解决方案。本文介绍了自监督反思学习 SSRL,这是一种简化现有迭代无监督框架的新颖范式。 SSRL 将自监督知识蒸馏与在线聚类相结合,以细化伪标签并在没有迭代瓶颈的情况下训练模型。具体来说,教师模型通过在线聚类不断细化伪标签,提供动态监督信号来训练学生模型。学生模型使用输入和模型噪声进行噪声学生训练,以提高其建模能力。教师模型通过学生的指数移动平均值进行更新,充当过去迭代的集合。此外,伪标签队列保留历史标签以保持一致性,而噪声标签建模将学习引导到干净的样本。 VoxCeleb 上的实验表明 SSRL 相对于当前迭代方法的优越性,仅在单轮训练中就超越了 5 轮方法的性能。消融研究验证了噪声标签建模和伪标签队列等关键组件的贡献。此外,伪标记的持续改进和簇计数的收敛证明了 SSRL 在破译未标记数据方面的有效性。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com