【AI视野·今日Sound 声学论文速览 第四十一期】Thu, 4 Jan 2024

news2024/11/15 15:34:30

AI视野·今日CS.Sound 声学论文速览
Thu, 4 Jan 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Multichannel blind speech source separation with a disjoint constraint source model
Authors Jianyu Wang, Shanzheng Guan
多通道卷积盲语音源分离是指在没有太多关于混合系统的先验信息的情况下从观察到的多通道混合中分离不同语音源的问题。多通道非负矩阵分解MNMF已被证明是最强大的分离框架之一,其代表算法如MNMF和独立低秩矩阵分析ILRMA都表现出了出色的性能。然而,在这样的框架中没有充分考虑语音源信号的稀疏特性。众所周知,语音信号本质上是稀疏的,本工作考虑这一点以提高分离性能。具体来说,我们利用 Bingham 和 Laplace 分布来制定不相交约束正则化器,随后将其合并到 MNMF 和 ILRMA 中。然后,我们推导出用于更新与源模型相关的参数的主化最小化规则,从而开发了两种增强算法 MNMF 和 ILRMA。

Independent low-rank matrix analysis based on the Sinkhorn divergence source model for blind source separation
Authors Jianyu Wang, Shanzheng Guan, Jingdong Chen, Jacob Benesty
所谓的独立低秩矩阵分析ILRMA已经展示了处理音频和语音信号的确定盲源分离BSS问题的巨大潜力。该方法假设不同频段的频谱是独立的,并且任意频段的频谱系数均服从高斯分布。然后使用 Itakura Saito 散度来估计源模型相关参数。但实际上,不同频段的频谱系数可能是相关的,而现有的ILRMA算法并未考虑这一点。本文提出了 ILRMA 的改进版本,该版本考虑了不同频段的频谱系数之间的相关性。然后利用 Sinkhorn 散度来优化源模型参数。由于使用跨带信息,BSS性能得到改善。但需要估计的参数数量也显着增加,计算复杂度也显着增加。为了降低算法复杂度,我们应用克罗内克乘积将建模矩阵分解为多个维数更小的矩阵的乘积。

Incremental FastPitch: Chunk-based High Quality Text to Speech
Authors Muyang Du, Chuan Liu, Junjie Lai
并行文本语音模型已广泛应用于实时语音合成,与传统的自回归模型相比,它们提供了更多的可控性和更快的合成过程。尽管并行模型在很多方面都有好处,但由于其完全并行的架构(例如 Transformer),它们自然不适合增量综合。在这项工作中,我们提出了 Incremental FastPitch,一种新颖的 FastPitch 变体,能够通过使用基于块的 FFT 块改进架构、使用感受野约束块注意掩模进行训练以及使用固定大小的过去模型状态进行推理来增量生成高质量的 Mel 块。

Exploring Multi-Modal Control in Music-Driven Dance Generation
Authors Ronghui Li, Yuqin Dai, Yachao Zhang, Jun Li, Jian Yang, Jie Guo, Xiu Li
现有的音乐驱动的3D舞蹈生成方法主要集中于高质量的舞蹈生成,但在生成过程中缺乏足够的控制。为了解决这些问题,我们提出了一个统一的框架,能够生成高质量的舞蹈动作并支持多模态控制,包括流派控制、语义控制和空间控制。首先,我们将舞蹈生成网络与舞蹈控制网络解耦,从而避免添加额外控制信息时舞蹈质量的下降。其次,针对不同的控制信息设计具体的控制策略,并将其整合到一个统一的框架中。

CoMoSVC: Consistency Model-based Singing Voice Conversion
Authors Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
基于扩散的歌声转换 SVC 方法取得了显着的性能,产生了与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度缓慢,因此加速变得至关重要。在本文中,我们提出了 CoMoSVC,一种基于一致性模型的 SVC 方法,旨在实现高质量生成和高速采样。首先专门为SVC设计了基于扩散的教师模型,并在自一致性特性下进一步提炼出学生模型以实现一步采样。在单个 NVIDIA GTX4090 GPU 上的实验表明,尽管 CoMoSVC 的推理速度明显快于最先进的基于 SOTA 扩散的 SVC 系统,但它仍然根据主观和客观指标实现了相当或更高的转换性能。

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models
Authors Rita Frieske, Bertram E. Shi
幻觉是深度神经网络产生的一种输出错误。虽然这已经在自然语言处理中进行了研究,但之前还没有在自动语音识别中进行过研究。在这里,我们将 ASR 中的幻觉定义为由模型生成的转录,这些转录在语义上与源话语无关,但仍然流畅且连贯。幻觉与模型可能的自然语言输出的相似性会产生欺骗的危险并影响系统的可信度。我们表明,常用的指标(例如单词错误率)无法区分幻觉模型和非幻觉模型。为了解决这个问题,我们提出了一种基于扰动的方法,用于评估自动语音识别 ASR 模型在测试时对幻觉的敏感性,该方法不需要访问训练数据集。我们证明,这种方法有助于区分具有相似基线错误率的幻觉模型和非幻觉模型。我们进一步探索 ASR 错误类型与数据集噪声类型之间的关系,以确定哪些类型的噪声最有可能产生幻觉输出。我们设计了一个框架,通过分析幻觉与真实情况的语义联系及其流畅性来识别幻觉。

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction
Authors Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Semin Kim, Joun Yeop Lee, Nam Soo Kim
我们提出了一种以神经换能器为中心的新型文本到语音 TTS 框架。我们的方法利用从 wav2vec2.0 嵌入获得的离散语义标记,将整个 TTS 管道划分为语义级序列到序列 seq2seq 建模和细粒度声学建模阶段。为了实现鲁棒且高效的对齐建模,我们采用了名为令牌转换器的神经转换器来进行语义令牌预测,受益于其硬单调对齐约束。随后,非自回归 NAR 语音生成器根据这些语义标记有效地合成波形。此外,参考语音控制每个阶段的时间动态和声学条件。这种解耦框架降低了 TTS 训练的复杂性,同时允许每个阶段专注于语义和声学建模。我们在零样本自适应 TTS 上的实验结果表明,我们的模型在语音质量和说话者相似度方面(无论是客观还是主观)都超过了基线。

Self-supervised Reflective Learning through Self-distillation and Online Clustering for Speaker Representation Learning
Authors Danwei Cai, Zexin Cai, Ming Li
说话人表征学习对于现代语音识别系统至关重要。虽然监督学习技术需要大量标记数据,但无监督方法可以利用大量未标记的语料库,提供可扩展的解决方案。本文介绍了自监督反思学习 SSRL,这是一种简化现有迭代无监督框架的新颖范式。 SSRL 将自监督知识蒸馏与在线聚类相结合,以细化伪标签并在没有迭代瓶颈的情况下训练模型。具体来说,教师模型通过在线聚类不断细化伪标签,提供动态监督信号来训练学生模型。学生模型使用输入和模型噪声进行噪声学生训练,以提高其建模能力。教师模型通过学生的指数移动平均值进行更新,充当过去迭代的集合。此外,伪标签队列保留历史标签以保持一致性,而噪声标签建模将学习引导到干净的样本。 VoxCeleb 上的实验表明 SSRL 相对于当前迭代方法的优越性,仅在单轮训练中就超越了 5 轮方法的性能。消融研究验证了噪声标签建模和伪标签队列等关键组件的贡献。此外,伪标记的持续改进和簇计数的收敛证明了 SSRL 在破译未标记数据方面的有效性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1365117.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ArcGIS制图技巧总结

Part 1 制图综述 1.1 制图的目的 随着GIS在各行各业的深入应用,各信息化部门和生产单位都逐渐建立起自己的GIS的应用,同时积累了大量的地理数据。随着应用深度和广度的推进,针对数据建立专题应用越来越迫切,对行业专题制图的需…

XCode Build报错

XCode Build时报以下错误 B/BL out of range 143266484 (max /-128MB) 错误提示表明生成的机器代码太大,超出了限制 需要在XCode工程中添加宏定义,使得生成的可执行文件超过限制 步骤: 在项目设置页面中,选择 “Build Settings…

爆肝整理,接口测试+为什么要做接口测试总结,策底贯通...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、什么是接口测试…

vue3 指令详解

系列文章目录 TypeScript 从入门到进阶专栏 文章目录 系列文章目录前言一、v-model (双向绑定功能)二、v-bind(用于将一个或多个属性绑定到元素的属性或组件的 prop)三、v-if、v-else、v-else-if(用于根据条件选择性地渲染元素)四、v-show(根…

JavaSE 万字总结知识点(期末复习指南)

目录 一.Java的特性 二.注释 三.数据类型 基本数据类型 包装类 引用数据类型 四.运算符 五.逻辑控制 选择语句 循环语句 六.数组 七.方法 八.类与对象 构造方法 内部类 九.继承和多态 十.抽象类与接口 抽象类 接口 十一.异常 一.Java的特性 Java最初由Sun…

C++中vector的insert参数问题

今天模拟实现vector的过程中,发现pos传参给insert后是不能直接使用的,如果扩容的话,就要更新pos,于是就像用引用来解决这个问题 一般的pos还是能正常传参,但是如果传某容器的迭代器的话,就会报错 原因&…

LeetCode-加一(66)

题目描述: 给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一。 最高位数字存放在数组的首位, 数组中每个元素只存储单个数字。 你可以假设除了整数 0 之外,这个整数不会以零开头。 思路: 这里主要分…

Go-gin-example 添加注释 第一部分 新建项目及api编写

文章目录 go-gin-example环境准备初始化 Go Modules基础使用 gin 安装测试gin是否引入 gin搭建Blog APIsgo-ini简述配置文件 阶段目标 编写简单API错误码包 完成一个demo初始化项目初始化项目数据库编写项目配置包拉取go-ini配置包在conf目录下新建app.ini文件,写入…

React.Children.map 和 js 的 map 有什么区别?

JavaScript 中的 map 不会对为 null 或者 undefined 的数据进行处理,而 React.Children.map 中的 map 可以处理 React.Children 为 null 或者 undefined 的情况。 React 空节点:可以由null、undefined、false、true创建 import React from reactexport …

详解ajax、fetch、axios的区别

众所周知它们都用来发送请求,其实它们区别还蛮大的。这也是面试中的高频题,本文将详细进行讲解。 1. ajax 英译过来是Aysnchronous JavaScript And XML,直译是异步JS和XML(XML类似HTML,但是设计宗旨就为了传输数据&a…

NI基于PC的测量和控制系统

基于PC的测量和控制系统为工程师提供了电气和物理测量功能,使其能够以可自定义、准确且经济实惠的方式进行台式测量. 什么是基于PC的测量和控制系统? 在基于PC的测量和控制系统中,NI硬件产品通过USB或以太网连接到PC或笔记本电脑。这种系统具…

在ultralytics中实现obb检测,官方团队做了哪些修改?

在最新的在ultralytics中,官方团队已经提供了obb检测功能,并发布了相应的预训练模型,其具体使用可以参考。https://blog.csdn.net/a486259/article/details/134557389 1、网络结构 1.1 OBB(Detect) 在ultralytics\nn\modules\head.py中,实现了OBB head,用于在网络head…

致远OA getAjaxDataServlet XXE漏洞复现(QVD-2023-30027)

0x01 产品简介 致远互联-OA 是数字化构建企业数字化协同运营中台,面向企业各种业务场景提供一站式大数据分析解决方案的协同办公软件。 0x02 漏洞概述 致远互联-OA getAjaxDataServlet 接口处存在XML实体注入漏洞,未经身份认证的攻击者可以利用此漏洞读取系统内部敏感文件…

Marvelous Designer 各版本安装指南

Marvelous Designer下载链接 https://pan.baidu.com/s/1ZZCraq6w2Z4JPisND8q0jA?pwd0531 1.鼠标右击【Marvelous Designer 12(64bit)】压缩包(win11及以上系统需先点击“显示更多选项”)选择【解压到 Marvelous Designer 12(64bit)】。 2.打开解压后的…

软件测试|测试平台开发-Flask 入门:编写第一个简单 Web 应用

简介 Flask 是一个轻量级的 Python Web 框架,它使得创建 Web 应用变得简单快捷。相比于Django框架,它具有以下的优点: 轻:Flask 是一个轻量级的 Web 框架,使用 Python 语言编写易:较其他同类型框架更为灵…

关于burpsuite设置HTTP或者SOCKS代理

使用burpsuite给自己的浏览器做代理,抓包重发这些想必大家都清除 流量请求过程: 本机浏览器 -> burpsuite -> 目标服务器 实质还是本机发出的流量 如果我们想让流量由其他代理服务器发出 实现: 本机浏览器 -> burpsuite -> 某…

Linux程序、进程和计划任务

目录 一.程序和进程 1.程序的概念 2.进程的概念 3.线程的概念 4.单线程与多线程 5.进程的状态 二.查看进程信息相关命令: 1.ps:查看静态进程信息状态 2.top:查看动态进程排名信息 3.pgrep:查看指定进程 4.pstree&#…

图表分析网页模版 大数据可视化大屏电子沙盘合集

项目基于html/css/js,包含行业: 智慧政务 智慧社区 金融行业 智慧交通 智慧门店 智慧大厅 智慧物流 智慧医疗 通用模板 大数据分析平台 项目包含功能 (部分): 实时数据K线图(可自由配置多种行业模式) 可切换式大屏展…

linux 01 centos镜像下载,服务器,vmware模拟服务器

https://www.bilibili.com/video/BV1pz4y1D73n?p3&vd_source4ba64cb9b5f8c56f1545096dfddf8822 01.使用的版本 国内主要使用的版本是centos 02.centos镜像下载 这里的是centos7 一.阿里云官网地址:https://www.aliyun.com/ 二. -----【文档与社区】 —【…

HCIA-Datacom题库(自己整理分类的)_11_其他网络协议单选【9道题】

1.DNS协议的主要作用是? 文件传输 远程接入 域名解析 邮件传输 2.下列属于链路状态协议的是? Direct static FTP OSPF 解析: FTP:文件传输协议 OSPF:链路状态路由协议 3.如下图所示的网络主机A通过Telnet登录到路由…