ESVC论文笔记

news2024/9/22 5:31:35

ESVC: COMBINING ADAPTIVE STYLE FUSION AND MULTI-LEVEL FEATURE DISENTANGLEMENT FOR EXPRESSIVE SINGING VOICE CONVERSION阅读笔记

发现问题

虽然SVC在自然度和相似度方面都取得了很好的效果,但音频中除了歌手身份之外,情感表达也是传递歌手感情和态度的必要条件,现有的模型在情感表达上还有待提升。
歌曲的情感元素与歌手的身份是非常纠结的,所以加强一个可能会削弱另一个,导致整体表现力的缺乏。因此,有必要引入身份聚类损失来抵消情感聚类带来的身份偏见。

解决问题

提出一种表达性的SVC框架即ESVC,它可以同时转换歌手的身份和情感风格, ESVC结合了风格融合和特征分离的思想,力求在情感风格和歌手身份方面最大限度地忠实
具体实现:
采用自适应实例归—化(AdalN)取代添加功能,融合内容特征和风格特征。考虑到信息泄露的可能性,引入了两种面向解纠缠的方法来解耦不同种类的歌唱特征。(1)互信息(MI)用于降低语言内容、基频(FO)和歌手、情感表达特征之间的相关性。(2)对抗性三联体损失则用于解耦身份和情感元素。

模型结构

在这里插入图片描述
选择ContentVec作为内容编码器,基于ppg的ContentVec模型有望贡献更多的纯内容信息,包含更少的非语言信息。基于hifi-gan的生成器,它以内容变量z、表达嵌入g和基频特征f0为条件,重构原始波形x。

实现方法

1、AdaIN ResBlock模块
目的:为了充分融合内容特征和风格特征,在后验编码器、归—化流、FO解码器和解码器四个模块中引入了两个具有自适应实例归-化(AdalN)残块。
在这里插入图片描述
其中,c和g分别表示单通道的内容特征映射和表达嵌入。μ(·)和σ(·)表示通道均值和标准差。通过线性投影从g中得到调制项Lσ(g)和加法项Lμ(g),作为风格迁移的影响因素。通过它,在每个通道中,可以将风格特征有机地注入到内容特征中。此外,残块的整合可以进一步增加转换歌曲的自然度和风格表现力。
2、Mutual Information 损失
MI损失用于减少内容表示xc、歌手与情感表示g和FO表示FO之间的相互依赖关系。利用一种对抗的思想,使各表征解耦更干净。变分对比对数比上界(vCLUB)来测量MI。
在这里插入图片描述
I(X, Y):表示随机变量X和Y之间的互信息。I(X, Y)的值越小,表示X和Y之间的X相互依赖程度越低,即它们之间的相关性越小。p(X,Y):表示X和Y的联合概率分布。 q θ ( Y 1 X ) q\theta(Y_1X) (Y1X):表示给定×时, Y的条件概率分布,它是一个变分分布,用来近似真实X的条件概率分布 p(Y | X)。p(X)和p(Y):分别表示X和Y的边缘概率分布。互信息I(X, Y)等于在X和Y的联合分布下,给定X时, Y的条件概率分布的对数X期望值,减去X和Y的边缘分布下, Y的条件概率分布的对数期望值。
在这里插入图片描述
公式3 是公式 2 的无偏估计,互信息^I(X, Y)等于所有样本对(xi, yi)和(xi, yj)的对数概率比值之和,再除以样本数量的平方。它通过样本数据来近似计算两个随机变量之间的互信息,从而衡量它们之间的相关性。
在这里插入图片描述
其中 I ^ ( x c , g ) \widehat I(x_ {c} , g) I (xc,g) :表示内容表示xc和表达表示g之间的互信息。
I ^ ( x c , f o ) \widehat I(x_c, fo) I (xc,fo):表示内容表示 xc 和音高表示 f0 之间的互信息。
I ^ ( g , f o ) \widehat I(g, fo) I (g,fo):表示表达表示g和音高表示fo之间的互信息。
互信息损失LMI等于内容表示、表达表示和音高表示两两之间的互信息之和。通过最小化 LMI,可以降低这些唱歌特征表示之间的相关性,从而实现特征解耦。
3、Adversarial Triplet 损失
为了解决不能很好地将两种不同类型的表达元素(歌手身份和情感风格)同时转换。以往的研究旨在将身份与风格直接解耦,但这种解耦只是利用了同一样本的特征。
在这里插入图片描述
在融合前将情感嵌入和身份嵌入连接起来,然后对不同样本之间的混合嵌入进行聚类。我们采用三元损失作为聚类的向导。

三元组损失:
在这里插入图片描述
在这里插入图片描述
其中 a i a_i ai, p i p_i pi, n i n_i ni构成两个三元组,表示第i批的嵌入对,分别包括歌手空间和情感空间的锚点样本、正样本和负样本。d(.)为L1距离。 α 1 \alpha_1 α1, α 2 \alpha_2 α2是在正对和负对之间的距离边界,小于0的一个值,不然当 a i a_i ai, p i p_i pi, n i n_i ni都等0时,既满足条件,但都等于0时不符合要求。它们在正对和负对之间强制执行距离界限。通过对歌手身份和情感风格的对抗性三重体Lsin和Lemo的损失,可以保证所有正对之间的距离比负对之间的距离要小。
总损失:
在这里插入图片描述
总损失函数包括:对抗损失Ladv(G)和Ladv(D), KL损失Lkl, mel和FO重构损失Lrec和Lfo,特征匹配损失Lfm(G),另一部分是由权值入MI控制的互信息损失LMI。最后1是对抗性三联体损失,包括情绪导向损失Lemo和歌手导向损失Lsin.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2043441.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

17.实现一个算法根据电话按键上的数字和字母的映射关系,输入一个或多个数字返回所有它能表示的全部字母组合

17. Letter Combinations of a Phone Number 题目 Given a string containing digits from 2-9 inclusive, return all possible letter combinations that the number could represent. A mapping of digit to letters (just like on the telephone buttons) is given belo…

电子音乐制作软件有哪些 电音制作用什么软件 好用的能够创作音乐的软件推荐 电音基础新手入门

电子音乐目前已经成为了年轻人的一大爱好,而全国各地随处可见的音乐节更是代表着电子音乐文化已经逐渐被年轻人所接受,在这样的大背景下,一些年轻人也开始了自己创作电子音乐的道路。现在有了软件的帮助,我们能够更加随心所欲的创…

卡码网KamaCoder 110. 字符串接龙

题目来源&#xff1a;110. 字符串接龙 C题解1&#xff1a;深度搜索。一条路径走到黑&#xff0c;并且记录到达当前节点的最短路径长度&#xff0c;不断更新&#xff0c;如果不是最短路径就不用再遍历那条路。 #include <iostream> #include <vector> #include <…

数据结构基本概念和术语

概论 1.1 基本概念和术语 1.1.1 基本概念 计算机处理的的是数值性数据&#xff0c;当计算机处理用户信息表中的数据的时候&#xff0c;需要弄清3个问题 1.数据的逻辑结构 数据之间存在怎样的内在联系&#xff0c;数据中&#xff0c;有且只有一个是首节点/尾结点&#xff0…

Squish 8.0现已发布

本文翻译自&#xff1a;Squish 8.0 Available Now 原文作者&#xff1a;Qt Group质量保证高级解决方案工程师Katarina Behrens 审校&#xff1a;Jinjing Li Squish团队非常激动地宣布Squish GUI Tester 8.0现已发布。对于自动化跨平台GUI测试而言&#xff0c;这是一款软件质量…

41-设计规则:线宽规则

1.设置电源线规则和信号线规则 2.设置信号线规则 3.设置电源线规则 如果未生效&#xff1a; ① 提升优先级即可。 ②查看使能选项有没有勾选

2024医疗器械网络交易服务第三方平台备案申请流程

前几天&#xff0c;小编给大家分享了药品网络交易第三方平台备案申请流程&#xff0c;好多客户就来问&#xff0c;那医疗器械网络交易服务第三方平台备案怎么办理呢&#xff1f; 今天&#xff0c;就给大家好好聊聊医疗器械网络交易服务第三方平台备案申请流程&#xff0c;供大…

Xilinx课程,就这么水灵灵地上线了~

如果你想了解&#xff1a; 如何利用精通流水线&#xff08;Pipeline&#xff09;技术&#xff0c;让电路设计效率倍增&#xff1f; 如何掌握利用性能基线指导设计流程的方法&#xff1f; 如何理解集成电路设计中的UltraFast Design Methodology Implementation设计方法学中的…

C++拾趣——编译器预处理宏__COUNTER__的应用场景

大纲 生成唯一标识符调试信息宏展开模板元编程代码 在C中&#xff0c;__COUNTER__是一个特殊的预处理宏&#xff0c;它主要被用来生成唯一的整数标识符。这个宏是由一些编译器&#xff08;如GCC和Visual Studio&#xff09;内置支持的&#xff0c;而不是C标准的一部分。它的主要…

《AI视频类工具之五——​ 开拍》

一.简介 官网:开拍 - 用AI制作口播视频用AI制作口播视频https://www.kaipai.com/home?ref=ai-bot.cn 开拍是一款由美图公司在2023年推出,利用AI技术制作的短视频分享应用。这款工具通过AI赋能,为用户提供了从文案创作、视频拍摄到视频剪辑、包装的一站式解决方案,极大地…

Using the ST-LINK/V2-1 to program and debug the STM32 on board

1. Using the ST-LINK/V2-1 to program and debug the STM32 on board To program the STM32 on the board, plug in the two jumpers on CN2 要对板上的STM32进行编程&#xff0c;请插入CN2上的两个跳线 2. 单片机供电 标有IDD的跳线JP6用于测量STM32微控制器的功耗 拆下跳…

UE5学习笔记14-动画的混合空间

零、我看视频中使用的是UE5.0左右的版本&#xff0c;我使用的是UE5.4&#xff0c;5.4中创建混合空间&#xff0c;没有看见有2D和3D混合动画空间的区分&#xff0c;具体的UE5如何创建2D的动画暂时不知道(我感觉现在创建的是3D的动画) 一、创建混合空间 1.我将所有的动画蓝图和动…

vue用户管理、角色管理和部门管理展示

1、用户和角色一对多&#xff0c;用户和部门多对多 2、用户管理 编辑用户时部门层级展示 角色-下拉框展示 <template><div class"s"><!-- 操作按钮 --><div class"shang"><el-input v-model"searchText" placeholde…

EXTI外部中断之对射式红外传感器计次应用案例

系列文章目录 STM32中断系统之EXTI外部中断 文章目录 系列文章目录前言一、应用案例简介二、电路接线图三、应用案例代码四、应用案例分析4.1 配置外部中断4.1.1 配置RCC时钟4.1.2 配置GPIO4.1.3 配置AFIO4.1.4 配置EXTI4.1.5 配置NVIC 4.2 编写中断函数 前言 提示&#xff1…

泛微OA系统走进腾讯大厦

企业信息化、数字化、网络化、智能化的快速发展带来了无限可能&#xff0c;但同时也带来了系统安全的严峻挑战。您准备好应对了吗? 上月由腾讯安全部、泛微联合举办的“OA 系统安全防护与腾讯iOA 零信任安全策略客户会”在腾讯滨海大厦成功举办&#xff0c;本次活动邀请了60位…

拆开一个断了FPC的墨水屏,是不是像OLED一样驱动芯片在里面

可对比查看一个OLED的屏幕拆解 拆解理由 第一次焊接驱动板时的fpc上下接问题&#xff0c;但焊接到板子上并没有达到正常的显示效果。PI补强也被撕下来。后来拔下来后发现金手指断裂。本来想用一个fpc排线连接在一起&#xff0c;但后来发现并没有达到理想效果&#xff0c;飞线…

【Python学习-UI界面】PyQt5 小部件14-QDock 子窗口

可停靠窗口是一个子窗口&#xff0c;可以保持浮动状态或附加到主窗口的指定位置。 QMainWindow类的主窗口对象保留了一块区域供可停靠窗口使用。该区域位于中央窗口部件周围。 可停靠窗口可以在主窗口内移动&#xff0c;也可以被取消停靠并由用户移动到新的区域。 样式如下: …

MinIO DataPOD 目标锁定 GPU Direct 并行文件系统

MinIO 推出针对 AI 应用的 DataPOD 参考架构 MinIO 设计了一种旨在为 AI 训练提供数据的 exascale DataPOD 参考架构。这家开源对象存储软件供应商正将其可扩展至100 PiB&#xff08;即大约112.6 PB&#xff09;的单元定位为一种替代方案&#xff0c;以取代使用 GPU Direct 技…

新中地2402期GIS特训营学员圆满结业,解锁GIS开发的无限可能!

GIS开发了解 24年8月5日&#xff0c;新中地GIS开发特训营2402期学员迎来了属于自己的结业典礼。 初入特训营&#xff0c;教与学双向奔赴 从24年3月4日开班&#xff0c;面对全新的领域&#xff0c;大家新中既有对未知的忐忑&#xff0c;更有对掌握GIS开发技术的期待 在本期学员…

车辆车载客流统计系统解决方案

车辆车载客流统计系统是一种用于实时监测和分析乘客流量的技术解决方案&#xff0c;它可以帮助公交公司、地铁运营商等交通管理部门优化运营计划、提高服务效率和乘客满意度。以下是一个详细的车载客流统计系统解决方案&#xff1a; 一、系统组成 传感器与设备 摄像头&#xf…