论文阅读_音频生成_AudioLM

news2025/1/8 18:22:04

论文信息

name_en: AudioLM: a Language Modeling Approach to Audio Generation
name_ch: AudioLM:一种音频生成的语言建模方法
paper_addr: http://arxiv.org/abs/2209.03143
doi: https://doi.org/10.48550/arXiv.2209.03143
date_read: 2023-04-25
date_publish: 2022-09-07
tags: [‘语音合成’,‘深度学习’]
author: Zalán Borsos
citation: 36
demo:https://google-research.github.io/seanet/audiolm/examples

1 读后感

主要解决生成语音的两个问题:一致性和高质量

2 摘要

这是一个利用长期一致性生成高质量音频的框架,它先将音频输入转成一系列离散的token,然后将生成音频作为表示空间的语言建模。提出了一种混合的分词方案来平衡重建质量长依赖的结构。

使用Mask方法捕获长距离的关系,最终使用离散编码生成高品质的合成效果。它可以通过简短的提示,来生成自然连贯延续语音。利用大量无监督数据训练,在没有任何文字标注或注释的情况下,AudioLM 会生成句法和语义上合理的语音延续,同时还保持说话人身份和不可见的说话人的韵律。另外,还可以生成钢琴音乐。

3 介绍

在数据都是无监督的情况下,基于Transformer架构。具体使用的技术包括:对抗性神经音频压缩,自监督表示学习,语言建模。学习不同尺度的相互作用,保证语音的一致性。

贡献

  • 提出AudioLM框架,分层方式结合语义和声学标记,以实现生成长期一致性和高质量的音频。
  • 通过与w2v-BERT以及SoundStream的对比,证明了模型的可辨别性和重建质量优势的互补性。
  • 模型可以不依赖文本标注,生成语音,句法和语义。只需要3s语音作为提示,即可生成训练期间未见过的语音,并保持说话人的声音,韵律,录音条件(混响、噪音)。
  • 除合成人声外,还可以合成音乐声,其旋律、和声、音调和节奏都与提示一致。
  • 为防御生成语音带来的潜在风险,还提出了一个分类器,用于识别合成音频和真实音频。

4 模型

声学token由 SoundStream处理,语义token由 w2v-BERT 的中间层产生。

4.1 组件

  • 将输入音频x映射到离散的词表y:y=end(x)。
  • 使用仅有decoder的Transformer模型,操作y,用时间t-1的预测t对应的词(预测阶段使用自回归)。
  • 解码模型 ,将预测出的y^映射回音频格式。 x=dec(y)

4.2 权衡离散音频表示

使用尽量少的数据同时需要保证生成的音质,这涉及比特率的下限和序列长度。这里引入了语义token和声学token。如图-1所示。它们的产生被解耦;语义token需要时序依赖,声学token需要保证高音质,且使用语义作为条件。

使用 SoundStream 计算声学token,它使用了RQV(残差向量量化)技术将嵌入降维和离散化,并映射到码表。

使用 w2v-BERT 计算语义标记。该模型可以自主学习音频表示,将输入的音频波形映射到一个富有语言特征的向量空间。通过使用两个自监督目标:掩码语言建模(MLM)损失和对比损失训练模型实现。选择w2v-BERT模型的MLM模块中的一个中间层并计算该层的嵌入,可以提取出语义标记。将这些标记进行聚类,并使用聚类中心索引作为语义标记

实验证明,将二项解耦效果更好。

4.3 语义和声学标记的分层建模

先使用模型产生语义,然后再语义条件下生成高质量音频,有两个好处:

  • 语义结果独立于音频结果
  • 减少了每个阶段的标记序列,训练和推理效率更高。

具体实现如图-2所示,包含三个场景:

  • 长期结构一致性的语义建模:利用上文,使用自回归方法预测语义z。
  • 以语义标记为条件的粗略声学建模:利用上文和语义,预测粗糙声的声学标记y。
  • 精细声学建模:用粗糙声学标记y以及上文生成精细声学信息,生成高质量标记。
    SoundStream 嵌入的采样率是 w2v-BERT 嵌入的两倍。另外拆分两的场景的原因是可以限制序列长度。

4.4 预测

训练后,可以使用 AudioLM 生成音频,测试了以下三种情况:

4.4.1 无条件生成

无条件地对所有语义标记 ^z 进行采样,然后将其用作声学建模的条件。此实验证明了:模型可生成多种多样、句法和语义一致的语言内容,验证了语义与声学的无关性。

4.4.2 声学生成

使用从测试集 x 中提取的真实语义标记 z 作为条件来生成声学标记。生成的音频序列在说话人身份方面有所不同,但语义内容与 x 的真实内容匹配。这表明语义标记捕获了语义内容。

4.4.3 生成语音延续

从短提示 x 生成延续。首先将提示映射到相应的语义标记 z 和粗糙的声学标记 y。第一阶段生成语义标记的延续;第二阶段,将生成的语义与提示粗声学标记y连接起来,并将其作为条件提供给粗声学模型;在第三阶段,用精细的声学模型处理粗略的声学标记;最后,将提示和采样的声学标记都提供给 SoundStream 解码器以重建波形 x^。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/552897.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

打开数据结构大门——实现小小顺序表

文章目录 前言顺序表的概念及分类搭建项目(Seqlist):apple:搭建一个顺序表结构&&定义所需头文件&&函数:banana:初始化:pear:打印:watermelon:数据个数:smile:检查容量:fireworks:判空:tea:在尾部插入数据:tomato:在尾部删除数据:lemon:在…

封装Appium启动参数,提高自动化测试效率的关键

目录 前言: 一、开发环境搭建 二、代码实现 1.导入Appium相关的库文件。 2.创建Appium的启动参数对象,并设置相关参数。 3.启动测试服务。 4.执行测试用例。 5.结束测试服务。 三、总结 前言: Appium是一款广泛使用的自动化测试工具…

Microsoft Office 2007的安装

哈喽,大家好。今天一起学习的是office2007的安装,有兴趣的小伙伴也可以来一起试试手。 一、测试演示参数 演示操作系统:Windows 7 不建议win10及以上操作系统使用 系统类型:64位 演示版本:cn_office_ultimate_2007_D…

从 SIEM 到下一代 SIEM 的演变

在此文中,我们详细介绍了下一代 SIEM 的演变。传统的 SIEM 主要用于提高网络可见性和网络安全性,同时支持合规性。它们跨应用程序、网络和系统摄取、收集和存储日志数据。 SIEM 使捕获和搜索数据变得更加容易,这些数据有助于组织进行审计、取…

详解RGB和XYZ色彩空间转换之下

前言 首先需要指明本文中描述的R,G,B并非通常的sRGB中的三个分量R,G,B,而是波长分别为700nm,546.1nm,435.8nm的单色红光,单色绿光,单色蓝光。sRGB中的RGB中的红色、绿色、蓝色已经不是单色光了。虽然习惯上大家都叫RGB…

Docker数据目录迁移方法

文章目录 前言一、停掉Docker服务?二、迁移docker数据到数据盘目三、备份原数据目录四、添加软链接五、重启docker服务六、确认服务没有问题后,删除备份的目录总结 前言 服务器上安装的docker服务,数据默认存储在/var/lib/docker目录&#x…

html5网页播放器视频切换、倍速切换、视频预览的代码实例

本文将对视频播放相关的功能进行说明,包括初始化播放器、播放器尺寸设置、视频切换、倍速切换、视频预览、自定义视频播放的开始/结束时间、禁止拖拽进度、播放器皮肤、控件按钮以及播放控制等。 图 / html5视频播放器调用效果(倍速切换) 初始…

网络知识点之-动态路由

动态路由是指路由器能够自动地建立自己的路由表,并且能够根据实际情况的变化适时地进行调整。 中文名:动态路由外文名:dynamic routing 简述 动态路由是与静态路由相对的一个概念,指路由器能够根据路由器之间的交换的特定路由信息…

usb摄像头驱动-core层USB集线器(Hub)驱动

usb摄像头驱动-core层USB集线器(Hub)驱动 文章目录 usb摄像头驱动-core层USB集线器(Hub)驱动usb_hub_inithub_probehub_eventport_eventhub_port_connect_changehub_port_connectusb_new_deviceannounce_device 在USB摄像头驱动中…

20.04Ubuntu换源:提升软件下载速度和更新效率

在使用Ubuntu操作系统时,一个常见的优化措施是更改软件源,以提高软件下载速度和更新效率。软件源是指存储软件包的服务器,通过更换软件源,你可以选择更靠近你所在地区的服务器,从而加快软件下载速度,并减少…

Android Compose Bloom 项目实战 (五) : 使用Navigation实现页面跳转

1. 前言 上几篇文章 我们分别实现了 Compose Bloom项目的各个页面,包括欢迎页、登录页和主页,但是各个页面都是单独独立的,并没有关联页面跳转,而本篇文章的任务就是实现各个页面见的跳转。 2. Navigation 要实现页面跳转&#…

Jetpack Compose动画实现原理详解

一、简介 Jetpack Compose是Google推出的用于构建原生界面的新Android 工具包,它可简化并加快 Android上的界面开发。Jetpack Compose是一个声明式的UI框架,随着该框架的推出,标志着Android 开始全面拥抱声明式UI开发。Jetpack Compose存在很…

【数据结构】红黑树封装map和set

文章目录 1.前置知识2.结构的改写与封装2.1 map和set的结构框架2.2 RBTreeNode结构的改写2.3 RBTree结构改写(仿函数的引入) 3. 迭代器3.1 RBTree的迭代器3.2 map和set的迭代器封装 4. 插入的改写和operatorp[]的重载4.1 insert的改写4.2 map::operator[…

【2023 · CANN训练营第一季】进阶班 应用开发深入讲解→DVPP

1 数据预处理概述 1.1 典型使用场景 受网络结构和训练方式等因素的影响,绝大多数神经网络模型对输入数据都有格式上的限制。在计算视觉领域,这个限制大多体现在图像的尺寸、色域、归一化参数等。如果源图或视频的尺寸、格式等与网络模型的要求不—致时…

pytest-编写插件

pytest 0 、文档1、钩子函数分类1.4 测试运行钩子 2、本地编写插件:conftest.py3、外部插件:setuptools4、实战 0 、文档 官方文档 中文文档 1、钩子函数分类 pytest中的钩子函数按功能一共分为6类:引导钩子,初始化钩子、用例收…

rtl仿真器-incisive安装和测试

需要的文件 安装文件 incisive : http://pan.baidu.com/s/1dFC9KZn 提取码 k3cb path: license: IScape: 安装的图形界面 IScape下载链接: https://pan.baidu.com/s/1FvpOto5fAIRjQARcbMbjZQ 密码: k1cb 目录结构 需要四个目录 安装目录:INCISIVE151 path 存放解密工具 l…

强化学习路线规划之深度强化学习

学到如今,我实在明白了一个至关重要的东西,那就是目标很重要,有了清晰的目标我们就知道该做什么,不至于迷茫,否则每天都在寻找道路。所以我一直在规划这样一条道路,让想学习的人可以抛下不知道该怎么做的顾…

在Notion AI 中轻松打造您的AI私人助理,提供卓越的工作体验(二)

大家好,我是瓜叔。 notion AI在工作和生活场景中的应用 我们先来看"总结"功能。 这边有一篇文章叫做学习编码的好处。导入到nation https://www.likecs.com/show-203992587.html 导入方法详见上一篇文章:在Notion AI 中轻松打造您的AI私人助理…

VMware快照:简化虚拟化环境管理与数据保护

引言: 在虚拟化环境中,数据保护和灵活性是至关重要的。VMware快照作为一项强大的功能,为虚拟机管理者提供了便利和安全性。本文将介绍VMware快照的使用,以及它为用户带来的几个关键优势。 VMware快照是一项重要的功能&#xff0c…

Threejs进阶之十五:在Thereejs 使用自定义shader

目录 最终效果什么是 ShaderShaderMaterial类常用属性uniforms属性vertexShader属性fragmentShader属性 代码实现新建ShaderView.vue文件并引入Threejs定义初始化函数创建initMesh函数实例化ShaderMaterial类实例化TextureLoader()定义uniforms 全局变量定义vertexShader顶点着…