清华大学LightGrad-TTS,且流式实现

news2024/12/25 0:52:13

图片

论文链接:

https://arxiv.org/abs/2308.16569

代码地址:

https://github.com/thuhcsi/LightGrad

数据支持:

针对BZNSYP和LJSpeech提供训练脚本

图片

针对Grad-TTS提出两个问题:

  1. DPMs are not lightweight enough for resource-constrained devices.

  2. DPMs require many denoising steps in inference, which increases latency.

提出解决方案:

  1. To reduce model parameters, regular convolution networks in diffusion decoder are substituted with depthwise separable convolutions.

  2. To accelerate the inference procedure, we adopt a training-free fast sampling technique for DPMs (DPM-solver).

  3. Streaming inference is also implemented in LightGrad to reduce latency further.

图片

Compared with Grad-TTS, LightGrad achieves 62.2% reduction in paramters, 65.7% reduction in latency, while preserving comparable speech quality on both Chinese Mandarin and English in 4 denoising steps.

LightGrad流式方案(基于三星论文):

论文链接:

https://arxiv.org/abs/2111.09052

具体实现:

  1. Decoder input is chopped into chunks at phoneme boundaries to cover several consecutive phonemes and the chunk lengths are limited to a predefined range.

  2. To incorporate context information into decoder, last phoneme of the previous chunk and first phoneme of the following chunk are padded to the head and tail of the current chunk.

  3. Then, the decoder generates mel-spectrogram for each padded chunk.

  4. After this, mel-spectrogram frames corresponding to the padded phonemes are removed to reverse the changes to each chunk.

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1006520.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

真空腔体的设计要点

真空腔体是保持内部为真空状态的容器,真空腔体设计制作要考虑容积、材质和形状。 1、根据应用需求选择腔体形状。几种代表性的真空腔体包括垂直真空腔体、水平真空腔体、立方真空腔体和球形真空腔体。 2、根据获得真空度选择腔体材质。钛用于极高真空;…

轻松学习 Spring 事务

文章目录 一. Spring事务简介二. Spring事务使用1. 编程式事务2. 声明式事务 三. Transactional的使用1. 参数作用2. 事务失效的场景3. Transactional工作原理 四. Spring 事务的隔离级别五. Spring事务传播机制 一. Spring事务简介 在之前的博客已经介绍了在 Spring 环境中整…

《向量数据库指南》——Milvus Cloud是如何从 0 到 1 做一款向量数据库的?经过了哪些升级和迭代?

这实际上是一个颇具曲折性和难得性的故事。由于我自己是在公司中间加入的,从 2.0 版本开始参与了 Milvus 的构建,而我们公司在向量数据库领域已经有大约 5 年的历史了。 最初,我们看到了这个机会,并意识到有诸如 Faiss 等引擎在处…

文件属性操作函数

1.access函数 #include <unistd.h> int access(const char *pathname, int mode); 作用&#xff1a;判断某个文件是否有某个权限&#xff0c;或者判断文件是否存在 参数: -pathname:判断的文件路径 -mode: R_OK&#xff1a;判断是否有读权限 W_OK X_OK F_OK&#xff1a;…

vue实现鼠标拖拽div左右移动的功能

直接代码&#xff1a; <template><div class"demo"><div class"third-part" id"发展历程"><div class"title">发展历程</div><div class"content" id"nav" v-if"dataList…

马斯克回应盖茨;谷歌反垄断案开庭;苹果发布 3nm 芯片的 iPhone 15丨RTE开发者日报 Vol.48

开发者朋友们大家好&#xff1a; 这里是「RTE 开发者日报」&#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE &#xff08;Real Time Engagement&#xff09; 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「…

液压切管机配套用液压泵站比例阀放大器

液压切管机配套用液压泵站是液压系统的动力源&#xff0c;可按机械设备工况需要提供一定压力、流量和清洁度的工作介质。它由泵组、油箱组件、控温组件、滤油器组件及蓄能器组件等组合而成&#xff0c;液压泵站主要服务于大型管道工程。

L1-020 帅到没朋友 C++解法【全网最全】

一、题目再现 当芸芸众生忙着在朋友圈中发照片的时候&#xff0c;总有一些人因为太帅而没有朋友。本题就要求你找出那些帅到没有朋友的人。 输入格式&#xff1a; 输入第一行给出一个正整数N&#xff08;≤100&#xff09;&#xff0c;是已知朋友圈的个数&#xff1b;随后N行…

Oracel ORA-22992 错误的解决方法

在oracle数据库中&#xff0c;可以使用DBLink 进行垮数据库访问。 今天在使用dblink 查询数据时&#xff0c;提示如下&#xff1a;ORA-22992&#xff1a;无法使用从远程表选择的LOB定位器。 无论是查询远程表还是视图&#xff0c;如果里面存在 CLOB类型的字段&#xff0c;就会…

99%的人都不知道的免费在线制作电子画册的网站

你是否曾经想过自己制作一本精美的电子画册&#xff1f; 现在&#xff0c;小编给大家分享一款免费在线制作电子画册的工具&#xff0c;可以帮助你轻松实现。这个网站不仅提供了丰富的模板和素材&#xff0c;还让你在制作过程中可以随时预览和编辑&#xff0c;无需任何排版设计…

fastadmin框架调用model层的方法

当使用FastAdmin框架进行Web应用程序开发时&#xff0c;经常需要与数据库交互以执行各种操作&#xff0c;如获取、创建、更新和删除数据。为了实现这些操作&#xff0c;FastAdmin采用了Model-View-Controller&#xff08;MVC&#xff09;模式&#xff0c;其中Model层负责处理数…

人机融合+学科

人机融合是指人类和机器之间的密切合作和相互补充&#xff0c;在各个学科领域都有广泛的应用&#xff0c;未来将会不断促进各个学科的快速发展&#xff0c;并因此会产生较大的突破。同时&#xff0c;人机融合与各个学科的关系是相辅相成的&#xff0c;其应用涵盖广泛&#xff0…

苹果再发“黑科技”,合合信息扫描全能王新功能支持“360度立体式建模”

9月13日凌晨&#xff0c;搭载iOS 17正式版系统的iPhone 15系列新品正式发布。基于iPhone激光雷达、iOS 17系统&#xff0c;合合信息旗下扫描全能王新推出“物体扫描”功能&#xff0c;用户只需使用手机环绕目标物体扫描&#xff0c;便可实时进行3D建模&#xff0c;完成一次“36…

在微信小程序上怎么发布抽奖活动

微信小程序上的抽奖活动是一种非常有效的营销手段&#xff0c;可以吸引大量用户的关注和参与&#xff0c;提高品牌知名度和销售额。下面&#xff0c;我将为大家详细介绍如何在微信小程序上发布抽奖活动。 一、确定抽奖活动的目标 在策划抽奖活动之前&#xff0c;商家需要明确自…

详解梯度下降从BGD到ADAM - [北邮鲁鹏]

文章目录 参考文章及视频导言梯度下降的原理、过程一、什么是梯度下降&#xff1f;二、梯度下降的运行过程 批量梯度下降法(BGD)随机梯度下降法(SGD)小批量梯度下降法(MBGD)梯度算法的改进梯度下降算法存在的问题动量法(Momentum)动量法还有什么效果&#xff1f; 自适应梯度(Ad…

线性表——顺序表(增删查改)

顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构&#xff0c;一般情况下采用数组存 储。在数组上完成数据的增删查改。 静态顺序表——使用定长数组储存数据 静态顺序表只适用于确定知道需要存多少数据的场景。静态顺序表的定长数组导致N定大了&#xff0c;空…

【网络教程】如何实现Windows系统下的SSH服务端免密登录(Windows如何开启SSH)

文章目录 开启Windows下的SSH服务端图形界面安装手动下载安装Windows如何查看系统用户名Windows如何查看本机IP开启免密登录Window生成秘钥Linux下生成秘钥配置公钥开启Windows下的SSH服务端 这篇文章演示的环境是Windows11Windows的SSH服务端默认情况下是没有安装的,他只安装…

数据结构题型5-前插结点操作

#include <iostream> //引入头文件 using namespace std;typedef int Elemtype;#define Maxsize 100 #define ERROR 0 #define OK 1typedef struct LNode {Elemtype data;//数据域struct LNode* next;//指针域 }LNode, * LinkList;bool InitList(LinkList& L) …

【Vue】一文让你进入Vue的大门

Vue简介 官网 ● 英文官网 ● 中文官网 介绍与描述 Vue历史 Vue 是一套用来动态构建用户界面的渐进式JS框架 构建用户界面&#xff1a;把数据通过某种办法变成用户界面 渐进式&#xff1a;Vue可以自底向上逐层的应用&#xff0c;简单应用只需要一个轻量小巧的核心库&#xff0c…

性能、安全和稳定,袋鼠云数据服务平台 DataAPI 为企业 API 保驾护航

通过 API 对外提供数据服务是大部分企业中比较常见的数据应用方式&#xff0c;对于 API 平台管理者、开发者和调用者来说&#xff0c;API 的调用性能、安全性和稳定性是在平台选型时最需要考虑的三个因素。 袋鼠云API开发及管理平台【数栈-数据服务 DataAPI】通过多种手段标准…