李宏毅《DLHLP》学习笔记7 - Voice Conversion 1

news2025/1/26 15:41:27

视频链接:https://www.youtube.com/watch?v=Jj6blc8UijY&list=PLJV_el3uVTsO07RpBYFsXg-bN5Lu0nhdG&index=9&ab_channel=Hung-yiLee
课件链接:https://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/Voice%20Conversion%20(v3).pdf

1. 语音转换分类

语音转换的用处很多,如合成其他人的声音、合成不同情绪的声音等。本节介绍的技术都是从acoustic features到acoustic features,并不是生成真实可以听的语音信号。因为从acoustic features到wave之间,还有一个vocoder的工作,这个不在本文中介绍。

我们按图的方式进行分类,第一类是parallel data,这种事对于同一句话,有两个不同人的声音数据,这种数据是很匮乏的;第二类是unparallel data,这就不需要前面的那种成对的声音数据了。思路也是借鉴与图像的风格迁移技术。
在这里插入图片描述

2. Feature Disentangle

在unparallel data中,第一种技术是feature disentangle。其思想是使用两个encoder,将声音讯号中的内容信息与声纹信息区分开。
在这里插入图片描述
下图是将原始的acoustic features经过两个encoder,分别提取出语音内容的embedding和speaker音色的embedding,然后,再将这两个embedding拼接起来,通过decoder再解码为acoustic features。
在这里插入图片描述
当有这样的content encoder, speaker encoder和decoder以后,就可以从speaker A的acoustic features中抽取content信息,从speaker B的acoustic features中抽取音色信息,再将两者拼接在一起,通过decoder生成speaker B的说话内容。
在这里插入图片描述
那么,如何做到让一个encoder用于处理content,另一个encoder用于处理音色呢?
在这里插入图片描述

2.1 Speaker Encoder

我们先从解决speaker encoder的问题开始,最简单的一种方案:使用one-hot取代speaker encoder,这样,我们就是在知道speaker encoder的前提下,去训练content encoder和decoder了。
在这里插入图片描述
当我们训练好content encoder和decoder以后,再使用Voice Conversion,就是简单地替换不同的speaker encoder了。当然,这里是存在一个局限的:我们可以合成的声音只能是明确已知的,也就是在one-hot中编码的。
在这里插入图片描述
另外,我们也可以采用预先训练模型的方式,提前训练好相应的encoder。

先来看看speaker encoder,我们可以使用各种已经公开的声纹模型,如:i-vector, d-vector, x-vectoer等。用这些声纹模型生成相应的speaker embedding,代替上面的one-hot,这样,或许可以合成出不再训练集中的声音。
在这里插入图片描述

2.2 Content Encoder

上面说过了speaker encoder,我们再看看content encoder。
我们可以考虑使用语音识别的模型当作content encoder,因为语音识别本身就是与speaker没有关系的。但是,语音识别模型会存在一个问题,就是输出是文字,而不是embedding。那么,我们该怎么办呢?
在介绍HMM的时候,我们说到HMM可以接DNN。在上图的右上角,DNN的输入是acoustic features,输出是属于每个status的概率,这样的话,我们就可以直接使用这个DNN来作为content encoder。

另外一种思路是使用GAN的方法,我们引入一个speaker classifier,用于识别content encoder输出的embedding是否包含speaker的特征。content encoder和speaker classifier交替进行训练。
在这里插入图片描述

2.3 架构设计

下面的技术也是借鉴与image style transformation的。
通过在content encoder中增加instance normalization以后,就可以去掉speaker 的信息了。
在这里插入图片描述
那么,为什么instance normalization可以去掉speaker的信息呢?

我们先以LAS中CNN版本的Encoder为例,看看Instance Normalization是如何工作的。每一个channel就是一种filter处理以后的输出,Instance normalization的作用就是在这一个channel上,计算出均值和方差,做normalize的操作。这样,经过instance normalization以后,每一个维度的均值都是0,方差都是1。
我们可以将不同的filter看作是抽取声音信号中的某种特征是否存在,如:是否是女性的声音或者是男性的声音。在没有经过instance normalization之前,某些channel是能够表现出不一样的性质的。但是,经过instance normalization以后,输出的都是类似的(均值为0,方差为1),这样,就将speaker的信息去掉了。
在这里插入图片描述
接下来,我们需要将speaker encoder的输出,加到decoder里,而且是只作用于speaker的特性上,使用的方法是AdaIN。
在这里插入图片描述
下面我们看看AdaIN的具体实现过程:

  1. 在Decoder中,也使用IN,将输出的特征做nomalize,去除speaker的信息,最终,生成特征向量 z 1 , z 2 , . . . , z n z_1, z_2, ..., z_n z1,z2,...,zn;
  2. 使用speaker encoder的输出,经过两个变换,生成两个向量 γ \gamma γ β \beta β;
  3. γ \gamma γ β \beta β,对 z i z_i zi做处理, z i ′ = γ . z i + β z^{\prime}_i = \gamma . z_i + \beta zi=γ.zi+β
    在这里插入图片描述
    接着,就像一般的auto-encoder一样,e2e的训练下去,就结束了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/58557.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

永磁同步电机恒压频比(V/F)开环控制系统Matlab/Simulink仿真分析及代码生成到工程实现(二)

文章目录前言一、SVPWM二、永磁同步电机恒压频比开环控制系统Matlab/Simulink仿真分析2.1.仿真电路分析2.1.1.恒压频比控制算法2.1.2.输出处理2.1.3.主电路2.2.仿真结果分析三、永磁同步电机恒压频比开环控制系统代码生成及工程实现3.1.恒压频比开环控制算法代码生成3.2.仿真验…

计算机毕业论文Java项目源码下载基于SSM的旅游资讯网站含前台与后台

💖💖更多项目资源,最下方联系我们✨✨✨✨✨✨ 目录 Java项目介绍 资料获取 Java项目介绍 《ssm地方旅游资讯网站》该项目采用技术:jsp 、springmvc、spring、mybatis 、css、js、jQuery、bootstrap、easyui等相关技术&#x…

在云服务器上部署jupyter服务器环境(with conda-forge)

tags: Python Conda Tips Server 写在前面 最近想折腾点服务器的新花样(总是空着太可惜了), 想到前阶段配置的jupyter, 发现这不就能部署在服务端吗?还不走流量的那种(指安装包时候), 话不多说, 开整! 下面的用户名以及组都是test, 用于测试. 大家需要改成自己的用户名. 安装…

【Nginx】负载均衡、动静分离理论篇

一、负载均衡 1. 应用场景: 2. 负载均衡是什么? 在当业务系统服务器无法支撑当前的业务量时,用户可以选择更高性能的服务器。 但更为合理的做法是通过在既有业务服务器基础上,增量的方式增加相同功能的服务器,将处理…

Linux操作系统(基础操作)

文章目录一、文件操作命令1. 目录和文件操作2. 查看文件内容3. 重定向4. 管道二、信息系统相关命令1. 查看系统进程 -- ps2. 查看系统监听端口 -- netstat3. 查看日志信息命令 -- head / tail三、用户权限和管理1. linux中的权限2.修改用户权限chmod3.增加用户、查看登录用户4.…

CAS-比较并交换

CAS-比较并交换 原子类 何为原子类 没有CAS之前 多线程环境不使用原子类保证线程安全i(基本数据类型) 常用synchronized锁,但是它比较重 ,牵扯到了用户态和内核态的切换,效率不高。 public class T3 {volatile int number 0…

JMeter 进行函数助手MD5加密

JMeter 函数助手 MD5 加密 JMeter函数助手中,提供了MD5加密的方法,如图所示,我们将内容 “123456”进行加密,可以看到加密成功了。 下面我们来看看项目接口的请求参数。 这是一个认证接口,我们可以看到请求的参数中包…

MySQL-MVCC多版本控制及事务的隔离性

MySQL事务的启动方式 隐式:执行SQL语句自动提交(前提MySQL使用SET AUTOCOMMIT1开启自动提交)显式:begin/start transaction; update user set username timi where id 1; commit; begin/start transaction命令并不是一个事务的起…

UE获取当前鼠标点击位置坐标

文章目录 1. 实现目标2. 实现过程2.1 蓝图代码2.2 实现思路3. 参考资料1. 实现目标 获取当前鼠标点击位置的UE世界坐标(x,y,z),效果如下图所示(为便于演示,下图显示了碰撞点位)。 2. 实现过程 2.1 蓝图代码 (1)核心函数的蓝图代码如下: (2)当鼠标左键按下时,…

【✨十五天搞定电工基础】一阶电路的暂态分析

本章要求1. 了解电阻元件、电感元件与电容元件的特征; 2. 理解电路的暂态和稳态、零输入响应、零状态响应、全响应的概念,以及时间常数的物 理意义; 3. 掌握换路定则及初始值的求法; 4. 掌握一阶线性电路分析的三要素法。 目录 一、一阶电路和换路定律 1…

第十四章 图的存储及图的DFS(超级详细!!逐行解析!!)

第十四章 图的存储及图的DFS一、图1、什么是图?2、图的存储(1)邻接矩阵(2)邻接表二、图的深度优先搜索1、思路2、模板(1)问题:如何求左右子树呢?什么时候记录呢?如何构造…

数字孪生场景、代码即开即用 | 图观™引擎 超详细功能范例演示

数字孪生已经从一项前沿技术,演变成为各行各业数字化转型的必选项。 过去想要构建数字孪生应用,要面对视觉设计、三维底座构建、代码开发、数据对接、部署联调等一系列复杂工作。不仅要了解复杂的数学基础知识、底层三维开发技术,还要熟知各…

Spring Cloud微服务迁移到Kubernetes容器化

文章目录相关文章k8s容器部署流程熟悉Spring Cloud微服务项目源代码编译构建构建项目镜像并推送到镜像仓库制作镜像将镜像推送到harbor仓库K8s服务编排部署基础环境在K8s中部署Nacos集群(注册和配置中心)在k8s中部署Seata分布式事务在linux部署mysql,red…

李炎恢ECMAScript6 / ES6+(二)

16.Set 数据集合 学习要点: 1.Set 数据集合 本节课我们来开始学习 ES6 新增的 Set 数据集合的用法; 一.Set 数据集合 1.ES6 之前只有数组一种数据结构,而现在提供了 Set 和 Map 两种集合; 严格来说,对象…

PC辉光效果一切正常,安卓辉光却没效果、显示异常(爆闪、黑屏等)

一:安卓端辉光不显示问题 问题描述:项目中使用unity的PostProcessing package实现辉光的功能,在pc上辉光效果一切正常,但是打出apk在真机测试时,辉光基本没效果。 解决思路:PostProcessing Bloom效果需要有…

【ArcGIS微课1000例】0056:将单波段栅格背景设置为无数据NoData的方法

本文讲解将单波段栅格背景设置为空值的方法,以DEM数据为例。 文章目录 一、DEM设置无数据二、注意事项单波段数据,一般只有DEM,遥感单波段影像,二值化图像等。 使用珊格计算器通过SetNull 函数(设定空值函数)可以将特定值计算为空值(NoData),SetNull的语法格式为: Se…

[附源码]Python计算机毕业设计Django教育企业网站

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

4-5:关注,取消关注

需求 开发关注、取消关注功能。 统计用户的关注数、粉丝数。 关键 若A关注了B,则A是B的Follower (粉丝),B是A的Followee (目标)。关注的目标可以是用户、帖子、题目等,在实现时将这些目标抽象为实体。 也是将数据存储到redis中,…

LeetCode刷题复盘笔记—一文搞懂0 - 1背包之494. 目标和问题(动态规划系列第九篇)

今日主要总结一下动态规划0-1背包的一道题目,494. 目标和问题 题目:494. 目标和 Leetcode题目地址 题目描述: 给你一个整数数组 nums 和一个整数 target 。 向数组中的每个整数前添加 ‘’ 或 ‘-’ ,然后串联起所有整数&#…

国外网友分享如何从零开始打造一辆真正的自动驾驶汽车

在 2021 年夏天大学二年级结束后,我决定从事当时最先进的项目之一——从头开发自动驾驶软件并在真车上实现。在公开我的代码的一些主要部分并发布演示视频后,我收到了很多关于该项目的问题。因此,我决定分享开发过程背后的故事。 我一直对与人工智能和机器学习相关的任何事…