PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

news2024/9/26 3:22:40
  • preprint
  • Korea Seoul, Korea

    文章目录

    • abstract
    • method
      • Flow Matching for Waveform Generation
      • High-frequency Information Modeling for Flow Matching
  • demo page,
    PeriodWave 三者最好,而且能把原声中的噪声去掉,GAN一类声码器做不到的。
    PeriodWave + FreeU (step 16) 有白噪声
    MB-PeriodWave (step 16) 有电音
  • abstract

    • PeriodWave,第一个基于周期信息用于高分辨音频生成的结构。
    • 使用生成能力强大的flow-matching,结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。
    • 使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量,但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ,可以在推理阶段并行的推理多个周期路径。
    • 此外,还使用DWT变换,用以建模高频低频信息。用FreeU 降低高频噪声。

    method

    在这里插入图片描述

    • 加速infer:(1)多个不同周期的估计器并行推理预测,sum,然后由final block 预测波形;(2)mel-Encoder 编码time-shared conditional 用于flow-base estimators;

    Flow Matching for Waveform Generation

    1. wav 的范围【-1,1】,因此正态分布的噪声对于优化路径是比较大的值,会导致高频信息损失;因此噪声 x 0 ∗ 0.5 x_0 * 0.5 x00.5
    2. 做了1之后还有轻微白噪声,从mel中得到一个时间相关的energy condition;

    High-frequency Information Modeling for Flow Matching

    • flow-matching 重建波形,会有高频损失;【Roman,From discrete tokens to high-fidelity audio using multi-band diffusion】,解决方法:Roman提出multi-band diffusion,每个band使用特定的降噪器,还提出frequency equlizer 通过正则每个band 噪声energy scale来减少白噪声;
    • 本文用DWT,将频带分成 [0-3, 3-6, 6-9, 9-12 kHz],首先生成低频结构,加在 x 0 x_0 x0上,生成更高的频带,这样做显著的提升了生成音质(even in small sampling steps);将mel 按照band平均,得到先验,[0-61, 60-81, 80-93, 91-100 bins]. ----- 各个band 是wav -dwt 变换之后的;infer时候,第一个band idwt 得到波形;
    • FreeU证明skip connection会包含很多高频信息,从而让模型忽视语义信息【Freeu: Free lunch in diffusion u-net.】
    • 本文实验也发现skip connection会包含很多高频信息,导致噪声。因此在skip阶段,对信息进行加权 x = α ⋅ z s k i p + β ⋅ x x=α⋅zskip +β⋅x x=αzskip+βx,增大backbone特征(x)可以改善听感质量,降低噪声。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2077521.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vllm 部署GLM4模型进行 Zero-Shot 文本分类实验,让大模型给出分类原因,准确率可提高6%

文章目录 简介数据集实验设置数据集转换模型推理评估 简介 本文记录了使用 vllm 部署 GLM4-9B-Chat 模型进行 Zero-Shot 文本分类的实验过程与结果。通过对 AG_News 数据集的测试,研究发现大模型在直接进行分类时的准确率为 77%。然而,让模型给出分类原…

地理空间数据分析技巧:优化的热点分析与异常值分析的应用

热点分析作为一种常用的空间统计方法,能够帮助我们识别地理空间中的热点和冷点区域,即那些高值或低值集中出现的地方。而优化的热点分析进一步简化了这一过程,使用户无需手动调整参数即可获得可靠的结果。此外,异常值分析则专注于…

wooyu漏洞库YYDS!!!入门之道:重现乌云漏洞库

目录 wooyun乌云漏洞库搭建 1、搭建资料 文件结构分析: ​编辑2、搭建过程 2.1、搭建wooyun网站 2.2、配置数据库 2.2.1、修改数据库配置文件conn.php 2.2.2、创建wooyun数据库,并解压数据库文件 2.2.3、连接数据库(数据库默认连接密…

信号与系统——定义与分类(1)

一、信号与系统 信号:信号是信息的表现形式或传送载体,例如电磁波。信号可以用一个函数 yx (t) 来表示。 系统:是指若干相互关联的事物组合而成,具有特定功能的整体。换句话说就是,系统就是对输入信号进行加工和处理&#xff0c…

Nginx: 反向代理和动静分离概述

反向代理 反向代理服务器介于用户和真实服务器之间,提供请求和响应的中转服务对于用户而言,访问反向代理服务器就是访问真实服务器反向代理可以有效降低服务器的负载消耗,提升效率 1 )反向代理的模型 现在我们有一个用户和真实服…

新版cubemx生成CMake工程浮点数打印问题记录

问题现象 解决方案 set(CMAKE_C_LINK_FLAGS "${CMAKE_C_LINK_FLAGS} --specsnano.specs -u _printf_float")参考Cortex-M4权威指南 重新下载和测试

[Algorithm][综合训练][打怪][判断是不是平衡二叉树][最大子矩阵]详细讲解

目录 1.打怪1.题目链接2.算法原理详解 && 代码实现 2.判断是不是平衡二叉树1.题目链接2.算法原理详解 && 代码实现 3.最大子矩阵1.题目链接2.算法原理详解 && 代码实现 1.打怪 1.题目链接 打怪 2.算法原理详解 && 代码实现 自己的版本&…

C++ 设计模式——代理模式

C 设计模式——代理模式 C 设计模式——代理模式1. 主要组成成分2. 逐步构建代理模式2.1 抽象主题类定义2.2 真实主题类实现2.3 代理类实现2.4 主函数 3. 代理模式 UML 图代理模式 UML 图解析 4. 代理模式的优点5. 代理模式的缺点6. 代理模式的分类7. 代理模式和装饰者模式比较…

MybatisPlus:实现分页效果并解决错误:cant found IPage for args

我们在做开发使用mybatisplus 做分页查询的时候遇到了个问题: 继承 IPage拦截没有作用会默认分页,这个时候报了cant found IPage for args 错误~~~ 我们分析了下,其实这个问题很简单,是因为没有给默认值赋值,因为查询…

日撸Java三百行(day35:图的m着色问题)

目录 一、问题描述 二、思路分析 三、代码实现 总结 一、问题描述 在高中学习排列组合的时候,有一个非常经典的问题,就是涂色问题,即用m种颜色给n块区域涂色,要求每块区域只能涂同一种颜色且相邻区域的颜色不能相同&#xff…

pyinstaller将python程序打包成exe文件

将python代码打包成exe文件可以在不安装python环境的情况下直接运行python代码,譬如自己在自己的电脑上写好了代码,想发给其他人使用,可以用下述方法将python程序打包成exe文件,其他人直接执行exe文件即可使用该程序。 1.安装pyi…

二叉搜索树:数据结构之美

目录 引言基础知识 定义性质操作详解 插入节点删除节点查找节点遍历 前序遍历中序遍历后序遍历高级主题 平衡问题AVL树简介应用案例总结 引言 二叉搜索树(Binary Search Tree, BST)是一种特殊的二叉树,它的每个节点具有以下性质:左子树上的所有节点的键…

Python数据采集与网络爬虫技术实训室解决方案

在大数据与人工智能时代,数据采集与分析已成为企业决策、市场洞察、产品创新等领域不可或缺的一环。而Python,作为一门高效、易学的编程语言,凭借其强大的库支持和广泛的应用场景,在数据采集与网络爬虫领域展现出了非凡的潜力。唯…

Mysql重要参数

1、是否开启慢SQL日志 show VARIABLES like slow_query_log%; 2、慢SQL日志保存位置 show VARIABLES like slow_query_log_file%; 3、慢SQL的阈值,超过则是慢SQL,单位秒,默认10s show VARIABLES like long_query_time%;

小阿轩yx-Kubernetes存储入门

小阿轩yx-Kubernetes存储入门 前言 数据是一个企业的发展核心,它涉及到数据存储和数据交换的内容。在生产环境中尤为重要的一部分在 Kubernetes 中另一个重要的概念就是数据持久化 Volume。 Volume 的概念 对多数项目而言 数据文件的存储是非常常见的 在 Kube…

计算机的错误计算(七十四 )

摘要 回复网友的疑问:用错数解释计算机的错误计算(六十四)中的错误计算原因。 计算机的错误计算(六十四)到(六十九),以及(七十一)与(七十三&…

攻防世界 1000次点击

做题笔记。 下载解压 查壳。 32位ida打开。 查找字符串。 winmain函数写的,程序运行如下: 一开始思路是想着分析找到关键代码然后去od进行调试。 后来,额,不想看代码了。吐了。 尝试去字符串搜索flag样式,确实一发现…

高效恢复,无忧存储:2024年数据恢复工具大搜罗

不知道你是否了解过电子存储设备,我们的设备往往都存储在一个小小的芯片里,它为我们提供了数据携带的便捷性,当然也为我们带来了数据意外丢失的风险。为了我们的数据安全,我们来探讨一下有什么数据恢复工具能为我们的资料保驾护航…

Ruo-Yi 前后端分离如何不使用注解@DataSource的方式而是使用Mybatis插件技术实现多数据源的切换【可以根据配置文件进行开启/关闭】

Ruo-Yi 前后端分离如何不使用注解DataSource的方式而是使用Mybatis插件技术实现多数据源的切换【可以根据配置文件进行开启/关闭】 1、首先 配置文件: # 数据源配置 spring:datasource:type: com.alibaba.druid.pool.DruidDataSourcedriverClassName: com.mysql.c…

ZooKeeper--基于Kubernetes部署ZooKeeper

ZooKeeper 服务 服务类型: 无头服务(clusterIP: None),这是 StatefulSet(有状态集)必需的配置。 端口: 2181 (客户端): 用于客户端连接。 2888 (跟随者): 用于 ZooKeeper 服务器之间的连接。 3888 (领导者): 用于领导者…