论文阅读_音频表示_W2V-BERT

news2024/11/24 15:40:51

信息

number headings: auto, first-level 2, max 4, _.1.1
name_en: w2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training
name_ch: W2V-BERT:结合对比学习和Mask语言建模进行自监督语音预训练
paper_addr: https://ieeexplore.ieee.org/document/9688253/
doi: 10.1109/ASRU51503.2021.9688253
date_read: 2023-05-02
date_publish: 2021-12-13
tags: [‘深度学习’,‘音频’]
author: Yu-An Chung, MIT & Google Brain

1 读后感

w2v-BERT是音频的表示学习。模型可用于优化语音识别。可以看作对w2v 2.0 的延展。

2 摘要

文中提出自监督的语音表示学习w2v-BERT,它结合了对比学习和Mask语言模型,前者使用模型将输入的连续语音信号离散化为一组有限的可辨别的语音标记;后面通过Mask方法生成结合上下文的语音表示。
相对于之前模型,w2v-BERT结合了两个不同模型,实现了end-to-end 训练。w2v-BERT 优于 wav2vec 2.0 30% 以上。

3 介绍

主要贡献

  • 提出 w2v-BERT,可以同时直接优化对比损失和掩码预测损失,用于端到端的自监督语音表示学习。
  • 展示了 w2v-BERT 在 LibriSpeech 任务上产生了最先进的性能。
  • 展示了 w2v-BERT 在真实世界识别任务(语音搜索)任务中,对于wav2vec 2.0 的明显优势。
  • 经验上证实了对比学习和Mask预测的必要性。

4 方法

4.1 模型结构

4.1.1 特征编码器

由两个 2D 卷积层组成,使声学输入序列长度减少到1/4。例如:给定一个 log-mel 声谱图作为输入,特征编码器提取潜在的语音表示,这些表示将被后续的对比学习模块作为输入。

4.1.2 对比学习模块

包含一个线性映射层,及多个Conformer层,每个块都是一系列多头自注意力、深度卷积和前馈层
对比模块的目标是将特征编码器输出离散化为一组有限的代表性语音单元。对比模块涉及量化机制。另外,在没有Mask的情况下被传递到量化器以产生量化向量和分配token。量化向量结合mask位置对应的context vector来解决 wav2vec 2.0 中定义的对比任务优化;分配的 token ID 稍后将被后续的掩码预测模块用作预测目标。

4.1.3 Mask预测模块

使用BERT中的Mask方式,利用对比学习的输出,学习语音中高层级的上下文之间的关系。

4.2 预训练

4.2.1 对比学习损失

(简单地说:Mask掉小段,并给出一些随机产生小段,用对比学习,通过上下文猜那个小段是对的)
对比损失用于与量化器一起训练对比模块,其具体方法使用与wav2vec 2.0一样的量化机制。
随机选择一些时间步长进行掩蔽。用随机向量替换它们。屏蔽特征编码器的输出被馈送到对比模块以生成上下文向量。同时,特征编码器的输出也被传递给量化器而不进行Mask以产生其量化向量。对于对应于Mask时间步长 t 的上下文向量 ct,要求模型从一组 K 干扰项 { ̃ q1, ̃ q2, …, ̃ qK } 中识别其真实的量化向量 qt,将损失表示为 Lw,并用码本多样性损失 Ld 进一步扩大它,以鼓励统一的代码。对比损失定义为:

4.2.2 Mask预测损失

对比模块产生的上下文向量直接传递给掩码预测模块,用于生成最终的上下文向量,以完成掩码预测任务。一个 softmax 层附加在模块的最后一个 conformer 块之上。如果最后一层的上下文向量对应于掩码位置,则 softmax 层会将上下文向量作为输入并尝试预测其对应的标记 ID,该标记 ID 是先前由量化器在对比模块中分配的。将此屏蔽预测任务的交叉熵损失表示为 Lm。
w2v-BERT 经过训练可以同时解决两个自监督任务,最终要最小化的训练损失为:

4.3 精调

使用有标签数据 LibriSpeech和voice search。训练语音识别ASR任务,ASR 网络由预训练的 w2v-BERT 模型和 LSTM 解码器组成。在二者之间插入一个带有 Swish 激活 和批量归一化的线性层作为投影块。

5 相关知识

  • Conformer 模型:一种混合了卷积神经网络和 Transformer 的模型
  • log-mel 声谱:其过程包括将语音信号进行短时傅里叶变换(STFT)得到频谱,再将频谱转换为Mel频率尺度,最后再对Mel频率尺度取对数(log)得到log-mel声谱。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/552818.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis实现全局唯一Id

Redis实现全局唯一Id 全局唯一Id简介二、Redis实现全局唯一Id实践2.1添加RedisIdWorker配置类2.2测试类 全局唯一Id简介 系统当中有些场景如果使用数据库自增ID就存在一些问题: id的规律性太明显受单表数据量的限制 场景分析:如果我们的id具有太明显的…

基于UDP和TCP套接字实现简单的回显客户端服务器程序

目录 1. 套接字 2. 基于UDP 套接字实现的简单客户端 服务器程序 3. 基于TCP套接字实现的简单客户端 服务器程序 1. 套接字 之前我们有分享到协议分层这个概念,其中就讲到上层协议调用下层协议,下层协议给上层协议提供支持,这里支持指的是就是socket套接字,它是操作系统给应用…

宁波市天一杯 --- Crypto wp

文章目录 secretrsa secret 题目: p134261118796789547851478407090640074022214132682000430136383795981942884853000826171189906102866323044078348933419038543719361923320694974970600426450755845839235949167391987970330836004768360774676424958554946…

坦克大战进阶--发射子弹

坦克大战进阶–发射子弹 1. 坦克大战0.3 1.1 分析 利用线程基础的知识,把坦克大战再次进阶一下:当我们按下J键,坦克就能够发射一颗子弹。 1.2 思路 当发射一颗子弹后,就相当于启动一个线程Mytank 有子弹的对象,当…

MSP432笔记5——外部中断

所用单片机型号:MSP432P401r 今日继续我的MSP432电赛速通之路。 外部中断是个很有用的配置 STM32几乎每个I/O口都能配置复用为外部中断 但MSP432并不是这样。 我经过查阅数据手册发现支持中断的引脚为: P1^0~ P1^7 P3^0~ P3^7 P5^0~ P5^…

Gateway服务网关入门

Gateway服务网关 Spring Cloud Gateway 是 Spring Cloud 的一个全新项目,该项目是基于 Spring 5.0,Spring Boot 2.0 和 Project Reactor 等响应式编程和事件流技术开发的网关,它旨在为微服务架构提供一种简单有效的统一的 API 路由管理方式。…

【网络字节序】

网络字节序 我们已经知道,内存中的多字节数据相对于内存地址有大端和小端之分,磁盘文件中的多字节数据相对于文件中的偏移地址也有大端小端之分。网络数据流同样有大端小端之分,那么如何定义网络数据流的地址呢?发送主机通常将发送…

【C++】21年精通C++之泛型编程和模板初阶知识

❤️前言 大家好!今天和大家一起学习关于C泛型编程和模板初阶的相关知识。 正文 我们之前已经学习了C中非常重要的一个特性——函数重载,函数重载很好地提高了我们代码的可读性。但是对于适配多种参数的某种函数来说,我们如果使用函数重载就…

感知程序从ros切换到cyber_rt框架下,pcl相关问题

1.在ubuntu20.04下,原感知程序需要的是pcl1.8.1,车上其他程序使用的是pcl.1.10.0或者pcl1.10.0,在编译pcl1.10.0时会编译通不过,而pcl1.10.1可以顺利编译通过,安装pcl1.8.1时遇到的问题可能如下,及对应的修…

CTF必看~ PHP反序列化漏洞6:绝妙_wakeup绕过技巧

作者:Eason_LYC 悲观者预言失败,十言九中。 乐观者创造奇迹,一次即可。 一个人的价值,在于他所拥有的。可以不学无术,但不能一无所有! 技术领域:WEB安全、网络攻防 关注WEB安全、网络攻防。我的…

iptables防火墙2

iptables防火墙 一:SNAT原理与应用 SNAT 应用环境:局域网主机共享单个公网IP地址接入Internet(私有不能早Internet中正常路由)SNAT原理:修改数据包的源地址。 SNAT转换前提条件: 1.局域网各主机已正确设…

新星计划 Electron+vue2 桌面应用 2 搭建及运行

基础内容:新星计划 Electronvue2 桌面应用 1 基础_lsswear的博客-CSDN博客 根据使用过的经验和官网的描述,大概可以有四种方式: 自己创建项目(仅使用npm)用Electron脚手架HBuilder编译为web,再用Electron…

MSP432笔记4:时钟与滴答计时器

所用单片机型号:MSP432P401r 今日继续更新我的MSP432电赛速通笔记: 提示: 本节内容相当于讲述delay_ms() 和delay_us() 俩延时函数的由来, 所以不需要花费过多时间斟酌 MSP432单…

论文阅读_音频表示_wav2vec_2.0

论文信息 name_en: wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations name_ch: wav2vec 2.0:语音表示自监督学习框架 paper_addr: http://arxiv.org/abs/2006.11477 date_read: 2023-04-27 date_publish: 2020-10-22 tags: [‘深…

C++深度解析:虚函数的使用与避免

C深度解析:虚函数的使用与避免 1. 虚函数的基本概念与原理 (Basic Concepts and Principles of Virtual Functions)1.1 虚函数的定义与作用 (Definition and Role of Virtual Functions)1.2 虚函数的底层实现 (Underlying Implementation of Virtual Functions)1.3 …

【CANN训练营0基础赢满分秘籍】进阶班 Atlas 200I DK 智能小车

1 智能小车三维结构设计 1.1 基本模块 坚固酷炫结构模块运动控制模块超声波传感器模块摄像头视觉模块其他传感器模块 1.2 结构设计基本原则 从零开始设计并搭建智能小车,在满足外观要求的基础上,要满足小车运转过程中的运动干涉率为O,并且…

【CANN训练营0基础赢满分秘籍】进阶班 应用开发深入讲解

1 AIPP AIPP (Artificial Intelligence Pre-Processing)人工智能预处理,在AI Corfe上完成数据预处理。 1.1 静态AIPP 构造AIPP配置文件*.cfg使能静态AIPP,将其配置参数保存在模型文件中。 atc --framework3--soc_versionS[soc_version) --model SHOM…

基于51单片机的电子琴Protues仿真设计

一、设计背景 基于51单片机的电子琴是一款由51单片机控制器、音频模块和硬件阵列组成的数字化乐器。它可以模拟各种乐器的音效,同时也具有许多常规电子琴所没有的高级功能。 首先,这种电子琴是以数字信号处理技术为基础的。通过软件编程,将…

【JUC】Java对象内存布局和对象头

【JUC】Java对象内存布局和对象头 文章目录 【JUC】Java对象内存布局和对象头1. 对象的内存布局1.1 对象头1.1.1 对象标记1.1.2 类元信息/类型指针 1.2 实例数据1.3 对齐填充 2. 测试 1. 对象的内存布局 在 HotSpot 虚拟机里,对象在堆内存中的存储布局可以划分为三…

MSP432学习笔记6:中断优先级管理

所用型号:MSP432P401R 今日继续我的MSP432电赛速通之路。 主要学习的是:中断优先级管理、软件挂起中断、屏蔽中断优先级 目录 MSP432具有8级可编程的中断优先级。 中断优先级管理库函数: 软件挂起中断: 屏蔽中断优先级&#…