DAC: High-Fidelity Audio Compression with Improved RVQGAN

news2024/9/25 15:23:57
  • Rithesh Kumar
  • Descript, Inc.
  • 2023NIPS
    code

文章目录

  • abstrat
  • method

abstrat

  • 44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, music
  • codebook collapse: 部分码本没有利用到。----
  • quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的质量。-----

method

  • 编码器评判的标准:(1)近乎无损的还原;(2)高压缩比;(3)适用于各种信号(speech/music),以及各种采样率和文件格式(mp3/wav);
    在这里插入图片描述
  • 模型和VQ-GANs的结构基本一致,fully conv,Encodec/Soundstream 也是这种模式;
  • 激活函数改进:Leaky ReLUs对于捕捉信号中的周期性比较差,替换为Snake activation function,其中α控制信号的周期成分;这个对音频保真度的改进比较明显;【振幅和周期】$snake(x) = x + α1 sin2(αx) $- VQ码本:初始化对于训练过程码本的利用率很重要,比如k-means聚类初始化比随机初始化更好一些;如果训练过程中连续多个batch没有用到的码本,再次初始化;但是仍然存在码本利用不足的情况。
  • factorized codes :对码本在低维空间进行Factorization decouple(因子解耦);this can be interpreted as a code lookup using only the principal components of the input vector that maximally explain the variance in the data. ----- encoder的embedding是高维的,codebook的dim缩小,通过linear 变换【Factorization decouple】到低维度,
  • L2-normalized codes. 对codebook embedding的L2 正则,使得欧几里得距离转换为余弦相似性,这有助于稳定性和质量
  • 通过这两点的改进,本模型训练时候可以复用VQ-VAE codebook 以及commitment losses,而不需要k-means初始化以及随机重启;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2089759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HarmonyOS NEXT实战:“相机分段式拍照”性能提升实践

概述 相机拍照性能依赖算法处理的速度,而处理效果依赖算法的复杂度,算法复杂度越高的情况下会导致处理时间就越长。目前系统相机开发有两种相机拍照方案,分别是相机分段式拍照和相机单段式拍照: 分段式拍照是系统相机开发的重要…

几款最新好用的图纸加密软件

在现代数字化办公环境中,图纸的保护变得尤为重要。无论是建筑设计图纸、工程图纸,还是机械制造图纸,如何有效地加密并保护这些机密文件,避免信息泄露,是每个企业都需要重视的问题。今天,我们就来推荐几款最…

从开题到答辩:ChatGPT超全提示词分享!(下)【建议收藏】

数据收集 1. "请帮我找出关于如何收集【研究领域】社交媒体数据进行消费者行为研究的五篇指导性文章,并概述它们的主要方法论摘要。" 2. "我需要对【特定领域】市场的消费者偏好进行调查。能否提供一份包含调查问卷设计原则和示例的草稿?…

react vant 在使用dialog.confirm取消报错 Uncaught (in promise) undefined

项目场景: 在使用react做移动端开发时,需要使用Dialog.confirm确认框来做弹框选项,这是在操作中非常常用的一种场景。 问题描述 在列表中,使用弹框时,点击取消时,语法报错;导致后面再触发弹框…

养老小程序源码家政服务小程序开发方案

预约上门养老小程序,是php开发预约,前端是uniapp,有开发好的小程序案例,可源码,也可以二开,也可以定制开发。 一 用户端:服务分类、服务内容详情介绍、在线下单支付,管理我的订单。…

认知杂谈42

今天分享 有人说的一段争议性的话 I I 《摆脱自负自卑,找准自我定位》 I 在咱的生活里啊,有时候咱会在自负和自卑这两个地方来回晃悠,根本就找不着真正属于自己的那个位置。你想想看,自负的时候呢,就好像给自己戴了…

Unity(2022.3.41LTS) - 地形

目录 一、地形的创建 二.页面详解 1.创建相邻的 Terrain 瓦片。 2.雕刻和绘制地形。 3.添加树。 4.添加细节,如草地、花朵和岩石。 5.更改所选 Terrain 的常规设置 三、地形编辑工具 四、地形的属性设置 五、地形的优化 六、地形的应用场景 一、地形的创…

校园牛奶订购配送小程序开发制作方案

校园牛奶订购配送小程序系统的开发方案,包括对用户需求的分析、目标用户的界定、使用场景的设定以及开发功能模块的规划。校园牛奶订购配送小程序系统主要是为校园内学生和教职工提供牛奶订购与配送服务。 目标用户 主要面向在校学生、教职工以及其他有牛奶订购需求…

Mac GIF录制神器LICEcap

GIF录制软件的优点先看下 mac gif制作win gif录制完全免费界面简洁软件大小不到1M 今天就来介绍一款录屏并能生成 GIF 的软件:LICEcap。 背景 希望小巧免费的GIF录制的话LICEcap非常适合,网上很多能轻松录制屏幕的工具,基本都是录制之后带…

操作系统:实验四进程调度实验

一、实验目的 1、了解操作系统CPU管理的主要内容。 2、加深理解操作系统管理控制进程的数据结构--PCB。 3、掌握几种常见的CPU调度算法(FCFS、SJF、HRRF、RR)的基本思想和实现过程。 4、用C语言模拟实现CPU调度算法。 5、掌握CPU调度算法性能评价指…

基于python文案转语音并输出-自媒体等职业副业均可使用,不受他人限制

开发背景: 目前自媒体比较火爆,有很多书单、视频等推广方式可以作为副业盈利,之前每次搞的时候都需要不停的网上找一些在线文字转语音的平台将文案复制上去然后生成下载,好多还是付费的,挺无奈的,然后就想着自己能不能搞,然后的然后就有了下面的东西, 如果大家有此类需要…

文心智能体-梦想目标实现助手-实现你的老板梦

前言: 其实我从小就很羡慕小说里面的男主,从家境贫寒到后面成为天之骄子,在一路上都有很多好的机遇和贵人。用今天的话来说,男主好像都有一个“系统”,毫不意外,我也有这样的武侠梦,金庸的小说更…

波导阵列天线学习笔记6 用于K和Ka频段卫星通信的超宽带双圆极化波导阵列天线

摘要: 在本文中,设计了一种用于K和Ka双频段的宽带双圆极化波导天线阵列。一种多级方波导结构被利用(exploited)在辐射层内来实现双极化响应的激励。一种脊波导极化器被集成在内来实现左旋圆极化和右旋圆极化。为了馈网的更好设计,…

qtlinux

filezilla传 白色 权限不够 chmod x ./运行 source路径 qmake make 55可执行文件 nfs拷贝到开发版 ./运行 make j 核数 (加速编译过程)

【精选】推荐4款写作效率翻倍的AI论文写作助手

在当前的学术研究和写作领域,AI论文写作助手已经成为提高写作效率和质量的重要工具。这些工具利用先进的自然语言处理和机器学习技术,帮助研究人员和学生快速生成论文草稿、优化内容、进行查重和排版等操作。以下是四款高效且广受好评的AI论文写作助手&a…

迎来“成人礼”的良品铺子,蜕变了吗?

成立18年的良品铺子,正在迎来一场“成人礼”。 在这一关键节点,“苦”可能是其最先品尝到的味道。据良品铺子近日发布的财报,2024年上半年,公司实现营业收入38.86亿元,同比下滑2.52%;归属于上市公司股东的…

python脚本如何用sleep

Python 编程中使用 time 模块可以让程序休眠&#xff0c;具体方法是time.sleep(秒数)&#xff0c;其中“秒数”以秒为单位&#xff0c;可以是小数&#xff0c;0.1秒则代表休眠100毫秒。 代码如下&#xff1a; # 例1&#xff1a;循环输出休眠1秒 import time i 1 while i <…

Linux Debian12安装flameshot火焰截图工具

一、Linux Debian12安装flameshot 打开终端&#xff0c;运行&#xff1a; sudo apt install flameshot安装成功后&#xff0c;使用下面命令查看帮助信息&#xff1a; flameshot -h其中flameshot launcher命令可以打开启动器。 二、使用flameshot截图方法 打开终端&#x…

记录使用DevExpress的过程遇到问题

vs 2022 版本 DevExpress 版本 24.1 先参考这个网站去下载DevExpress和PatchDevExpress 24.1 版本使用 barManager1 使用过程&#xff1a; 1.菜单栏 默认经典样式 &#xff1a; 1.1 添加下拉菜单&#xff1a; 按照自己的需求去添加 如果有选择 barCheckItem1 复选框的控…

关于欧洲玩家的几个事实

欧洲游戏玩家是一个多元化和复杂的受众&#xff0c;受到广泛的文化、语言和社会因素的影响。他们的游戏偏好和行为在整个欧洲大陆上差异很大&#xff0c;反映了定义欧洲的丰富的民族认同和地区差异。 欧洲游戏玩家最显著的特征之一是他们对本地化内容的偏好。仅在欧盟就有二十…