【AI视野·今日Sound 声学论文速览 第三十五期】Fri, 27 Oct 2023

news2025/1/12 1:08:40

AI视野·今日CS.Sound 声学论文速览
Fri, 27 Oct 2023
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Controllable Generation of Artificial Speaker Embeddings through Discovery of Principal Directions
Authors Florian Lux, Pascal Tilli, Sarina Meyer, Ngoc Thang Vu
由于可用的带有适当标签的数据很少,因此在具有直观和细粒度控制的语音合成系统中定制语音和说话风格具有挑战性。此外,编辑现有人类的声音也会带来伦理问题。在本文中,我们提出了一种方法来生成无法链接到真人的人工说话者嵌入,同时提供对嵌入的语音和说话风格的直观和细粒度的控制,而不需要任何说话者或风格的标签。

Learning Repeatable Speech Embeddings Using An Intra-class Correlation Regularizer
Authors Jianwei Zhang, Suren Jayasuriya, Visar Berisha
针对特定机器学习任务的良好监督嵌入仅对感兴趣标签的变化敏感,并且对其他混杂因素不变。我们利用测量理论中的可重复性概念来描述这一属性,并建议使用类内相关系数 ICC 来评估嵌入的可重复性。然后,我们提出了一种新颖的正则化器,即 ICC 正则化器,作为对比损失的补充组件,以指导深度神经网络产生具有更高可重复性的嵌入。我们使用模拟数据来解释为什么 ICC 正则化器在最小化类内方差方面比单独的对比损失效果更好。我们实现了 ICC 正则化器,并将其应用于三个语音任务:说话人验证、语音风格转换以及检测发音困难的临床应用。

Towards Matching Phones and Speech Representations
Authors Gene Ping Yang, Hao Tang
从电话实例中学习电话类型一直是一个长期存在的问题,但仍处于开放状态。在这项工作中,我们在自监督学习的背景下重新审视这个问题,并将其视为将聚类质心与音素嵌入相匹配的问题。我们研究了实现匹配的两个关键属性,即自监督表示的聚类质心是否减少了电话实例的可变性并尊重电话之间的关系。然后,我们使用匹配结果来生成伪标签,并引入新的损失函数来改进自监督表示。我们的实验表明,匹配结果捕获了电话之间的关系。

Content-based Controls For Music Large Language Modeling
Authors Liwei Lin, Gus Xia, Junyan Jiang, Yixiao Zhang
近年来,音乐音频领域的大规模语言模型迅速发展。此类模型能够端到端生成更高质量的音乐,有些模型允许使用文本描述进行条件生成。然而,文本控件对音乐的控制能力本质上是有限的,因为它们只能通过歌手、乐器等元数据或流派、情感等高级表示来间接描述音乐。我们的目标是进一步为模型配备对固有音乐语言(例如音高、和弦和鼓声)的直接和基于内容的控制。为此,我们贡献了 Coco Mulla,一种用于音乐大语言建模的基于内容的控制方法。它使用为基于 Transformer 的音频模型量身定制的参数高效微调 PEFT 方法。实验表明,我们的方法通过低资源半监督学习实现了高质量的音乐生成,与原始模型相比,调整参数少于 4 个,并且在少于 300 首歌曲的小数据集上进行训练。此外,我们的方法可以实现基于内容的有效控制,并且我们通过和弦和节奏(音乐音频的两个最显着的特征)来说明控制能力。此外,我们还表明,通过结合基于内容的控件和文本描述,我们的系统实现了灵活的音乐变化生成和风格转换。

Single channel speech enhancement by colored spectrograms
Authors Sania Gul, Muhammad Salman Khan, Muhammad Fazeel
语音增强涉及从目标语音中去除不需要的背景声音以提高其质量和清晰度所需的过程。在本文中,提出了一种使用彩色频谱图的单通道语音增强的新方法。我们建议使用改编自 pix2pix 生成对抗网络 GAN 的深度神经网络 DNN 架构,并通过彩色语音频谱图对其进行训练以对其进行去噪。去噪后,使用浅回归神经网络将频谱图的颜色转换为短时傅里叶变换 STFT 的幅度。这些估计的 STFT 幅度随后与噪声相位相结合以获得增强的语音。结果表明,与未处理的噪声数据相比,语音质量 PESQ 的感知评估提高了近 0.84 分,短期客观清晰度 STOI 提高了 1 分。未处理信号的质量和清晰度增益几乎等于用于与所提出的模型进行比较的基线方法所获得的增益,但计算成本大大降低。与在灰度频谱图上训练生成最高 PESQ 分数的类似基线模型相比,所提出的解决方案提供了比较 PESQ 分数,计算成本降低了近 10 倍,而与相比,它在 STOI 中仅提供 1 赤字,计算成本降低了 28 倍。

Real-time Neonatal Chest Sound Separation using Deep Learning
Authors Yang Yi Poh, Ethan Grooby, Kenneth Tan, Lindsay Zhou, Arrabella King, Ashwin Ramanathan, Atul Malhotra, Mehrtash Harandi, Faezeh Marzbanrad
新生儿听诊是一种简单、无创的心血管和呼吸系统疾病诊断方法。这种诊断通常需要在听诊过程中捕获高质量的心音和肺音。然而,在大多数情况下,由于胸音混合了心音、肺音和噪声,因此获得如此高质量的声音并非易事。因此,需要额外的预处理将胸音分离为心音和肺音。本文提出了一种新颖的深度学习方法,将此类胸音分离为心音和肺音。受 Conv TasNet 模型的启发,所提出的模型具有编码器、解码器和掩模生成器。编码器由一维卷积模型组成,解码器由转置一维卷积组成。掩模生成器是使用堆叠的一维卷积和变换器构建的。所提出的模型在人工数据集中的客观失真测量方面优于先前的方法 2.01 dB 至 5.06 dB,以及计算时间,至少提高了 17 倍。

Multi-Speaker Expressive Speech Synthesis via Semi-supervised Contrastive Learning
Authors Xinfa Zhu, Yuke Li, Yi Lei, Ning Jiang, Guoqing Zhao, Lei Xie
本文旨在构建一个针对多说话人的富有表现力的 TTS 系统,合成具有多种风格和情感的目标说话人的语音。为此,我们提出了一种新颖的基于对比学习的 TTS 方法,用于在说话者之间传递风格和情感。具体来说,我们在话语和类别(例如情感快乐或风格诗人或说话者 A 级别)上构建正负样本对,并利用对比学习更好地从语音中提取解开的风格、情感和说话者表征。此外,我们在所提出的方法中引入了半监督训练策略,以有效地利用多域数据,包括风格标记数据、情感标记数据和未标记数据。我们将学习到的表示集成到改进的 VITS 模型中,使其能够为目标说话者合成具有不同风格和情感的表达性语音。

Improved Panning on Non-Equidistant Loudspeakers with Direct Sound Level Compensation
Authors Jan Hendrik Hanschke, Daniel Arteaga, Giulio Cengarle, Joshua Lando, Mark R. P. Thomas, Alan Seefeldt
创建幻象声源的扬声器渲染技术通常采用等距扬声器布局。典型的家庭设置可能无法满足此条件,因为扬声器偏离规范位置,因此需要相应的校准。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1220636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

kubernetes集群编排——k8s高可用集群

实验环境 主机名 IP 角色 k8s1 192.168.92.11 harbor k8s2 192.168.92.12 control-plane k8s3 192.168.92.13 control-plane k8s4 192.168.92.14 control-plane k8s5 192.168.92.15 haproxy,pacemaker k8s6 192.168.92.16 haproxy,pacemaker k8s7 192.16…

03-瑞吉外卖关于菜品/套餐分类表的增删改查

新增菜品/套餐分类 页面原型 当我们在后台系统中添加菜品/套餐时,需要选择一个菜品/套餐分类,在移动端也会按照菜品分类和套餐分类来展示对应的菜品和套餐 第一步: 用户点击确定按钮执行submitForm函数发送Ajax请求,将新增菜品/套餐表单中输入的数据以json形式提交给服务端,…

(1)(1.16) Maxbotix I2C声纳

文章目录 前言 1 连接到Pixhawk 2 通过Mission Planner进行设置 3 测试传感器 4 参数说明 前言 Maxbotix I2C EZ4 声纳(又称 I2CXL-MaxSonar-EZ4 或 MB1242)是一种相对便宜的短距离(最多 7m)测距仪,主要设计用于…

为什么鸿蒙调用弹窗组件(CommonDialog )却不展示或闪退?

鸿蒙OS开发问题 1.效果展示2.问题代码3.问题分析4.完整代码 1.效果展示 1.为什么调用弹窗不展示会闪退? 2.问题代码 1.前端代码: <?xml version"1.0" encoding"utf-8"?> <DirectionalLayoutxmlns:ohos"http://schemas.huawei.com/res/…

提前占领高地!2024年值得期待的UI设计原型图软件推荐

UI设计原型图软件对于产品经理、设计师来说是效率神器。一款专业的UI设计原型图软件能够帮助产品经理、设计师高效且快速地创建精美且实用的UI用户界面&#xff0c;从而提升UI用户界面的产品价值。本篇文章将推荐10款2024年好用的UI设计原型图软件&#xff0c;以帮助你更好地选…

DS二叉树的存储

前言 我们上一期已经介绍了树相关的基础知识&#xff0c;了解了树相关的概念和结构、二叉树的概念和结构以及性质、也介绍了他的存储方式&#xff01;本期我们来根据上期介绍的对二叉树的顺序存储和链式存储分别进行实现&#xff01; 本期内容介绍 二叉树的顺序结构 堆的概念…

性能压力测试的优势与重要性

性能压力测试是软件开发过程中至关重要的一环&#xff0c;它通过模拟系统在极限条件下的运行&#xff0c;以评估系统在正常和异常负载下的表现。这种测试为确保软件系统的可靠性、稳定性和可伸缩性提供了关键信息。下面将探讨性能压力测试的优势以及为什么在软件开发中它具有不…

GMS CTS测试命令汇总

目录 跑CTS之前的准备 样机环境要求 跑各模块版本要求 CTS 简介 复测上轮的失败项 多台设备测试 单跑指定模块和测试用例 GTS VTS STS GSI 获取fingerprint 跑CTS之前的准备 样机环境要求 1、打开stay wake&#xff08;保持屏幕常亮&#xff09;、OEM unlocking、…

Java-Review

题型分值总分分布简答 5 ∗ 8 ′ 5*8 5∗8′ 4 0 ′ 40 40′面向对象、异常处理、多线程、输入输出处理程序分析和补全 3 ∗ 1 0 ′ 3*10 3∗10′ 3 0 ′ 30 30′异常处理、Collection、图形化界面、输入输出处理编程 2 ∗ 1 5 ′ 2*15 2∗15′ 3 0 ′ 30 30′Collections、多线…

腾讯云服务器怎么样好用吗?腾讯云服务器好用吗?

大家好&#xff01;今天我们要来聊聊腾讯云服务器怎么样&#xff0c;好用吗&#xff1f;对于这个问题&#xff0c;我的答案是非常肯定的——好用&#xff01; 那么&#xff0c;腾讯云服务器究竟好在哪里呢&#xff1f; 首先&#xff0c;它的功能非常强大。它不仅能够提供云存…

2023.11.17-hive调优的常见方式

目录 0.设置hive参数 1.数据压缩 2.hive数据存储格式 3.fetch抓取策略 4.本地模式 5.join优化操作 6.SQL优化(列裁剪,分区裁剪,map端聚合,count(distinct),笛卡尔积) 6.1 列裁剪: 6.2 分区裁剪: 6.3 map端聚合(group by): 6.4 count(distinct): 6.5 笛卡尔积: 7…

2023年中国涂料树脂需求量、市场规模及行业竞争现状分析[图]

涂料用树脂是涂料的主要原材料&#xff0c;是涂料的主要成膜物&#xff0c;且了为涂料成品提供耐醇、耐磨、耐高温、耐高湿、减少涂料在涂装完成后的损耗、保持涂装后外观以及性状的稳定性等功能。 根据生产产品的性状不同&#xff0c;其下游产品&#xff0c;即涂料成品广泛应用…

云网络流量分析工具的关键优势有哪些?

在当今数字化的时代&#xff0c;企业依赖云计算和网络服务以实现高效运营。随着云网络的复杂性不断增加&#xff0c;对网络流量的分析变得至关重要。云网络流量分析工具应运而生&#xff0c;为管理员提供了深入洞察、实时监控的能力。本文将探讨此工具的关键优势以及它们在现代…

君正X2100 读取CHIP_ID

每个处理器会有一个唯一的ID&#xff0c;这个ID可用做产品序列号&#xff0c;或其它。 X21000的CHIP_ID存放于芯片内部的efuse中&#xff0c;efuse是一次性可可编程存储器&#xff0c;初始值为全0&#xff0c;只能将0改为1&#xff0c;不能将1改为0。芯片出厂前会被写入一些信…

修改YOLOv5的模型结构第二弹

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 | 接辅导、项目定制&#x1f680; 文章来源&#xff1a;K同学的学习圈子 上节说到了通过修改YOLOv5的common.py来修改模型的结构&#xff0c;修改的是模块的内…

2023年【陕西省安全员B证】考试题库及陕西省安全员B证找解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 陕西省安全员B证考试题库是安全生产模拟考试一点通生成的&#xff0c;陕西省安全员B证证模拟考试题库是根据陕西省安全员B证最新版教材汇编出陕西省安全员B证仿真模拟考试。2023年【陕西省安全员B证】考试题库及陕西省…

分布式事务seata的使用

分布式事务介绍 在微服务架构中&#xff0c;完成某一个业务功能可能需要横跨多个服务&#xff0c;操作多个数据库。这就涉及到到了分布式事务&#xff0c;需要操作的资源位于多个资源服务器上&#xff0c;而应用需要保证对于多个资源服务器的数据操作&#xff0c;要么全部成功&…

深度学习_14_单层|多层感知机及代码实现

单层感知机&#xff1a; 功能&#xff1a; 能完成二分类问题 问题&#xff1a; 模型训练采用X*W b训练出模型&#xff0c;对数据只进行了一层处理&#xff0c;也就是说训练出来的模型仅是个线性模型&#xff0c;它无法解决XOR问题&#xff0c;所以模型在训练效果上&#xf…

cookie机制 + java 案例

目录 为什么会有cookie?? cookie从哪里来的&#xff1f;&#xff1f; cookie到哪里去&#xff1f;&#xff1f; cookie有啥用&#xff1f;&#xff1f; session HttpServletRequest类中的相关方法 简单的实现cookie登录功能 实现登录页面 实现servlet逻辑 实现生成主…

【Spring】依赖注入方式,DI的方式

这里写目录标题 1. setter注入在一个类中注入引用类型在一个类中注入简单类型 2. 构造器注入在一个类中注入引用类型在一个类中注入简单类型 3. 依赖注入方式选择4. 依赖自动装配按类型注入按名称注入 5. 集合注入 1. setter注入 在一个类中注入引用类型 回顾一下之前setter注…