wav2vec 2.0:一种自监督的语音识别方法

news2024/12/28 20:12:36

总体框架:

在这里插入图片描述
主要分为2个大模块:1:语音特征提取模块 2:语音特征向量融合模块
在这里插入图片描述

1:特征提取模块

输入:音频
输出:音频特征向量
在这里插入图片描述
过程:
1)跟具体采样率有关,如果一段1S的音频,采样率是16K,则这段1S的音频可以用1*16000的矩阵表示。
2)此模块的结构:

文章使用了7层的CNN,步长为(5,2,2,2,2,2,2),卷积核宽度为(10,3,3,3,3,2,2),假设输入语音的长度为(1,x)cnn0 (x-10)/5+1=x/5-1
    cnn1 ((x/5-1)-3)/2+1=x/10-1
    cnn2 x/20-1
    cnn3 x/40-1
    cnn4 x/80-1
    cnn5 x/160
    cnn6 x/320
论文中的channels大小设置的为512,如果采样率是16K,对应的输出为:(512,16000/320)=(512,50),可以得到50512维的向量,相当于每20ms产生一个512维的特征向量。

2:语音特征向量融合模块

2.1)向量量化(Vector Quantization,VQ),将将由第一步得到的连续的语音特征Z转为离散特征Q;

  • 保留一段语音中相应最大值的索引,其他置0。既将原来连续特征变为one-hot特征。
  • 实现上述过程,有两种算法:
    (a)gumbel softmax
    (b)k-means clustering
    结构:
    在这里插入图片描述
    2.2)将由第一步得到的语音特征做随机掩码,然后经过transformer模型得到上下文表征C;
    过程:
  • 使用conv1替代原来的positional embedding;
  • Transfoemer
    结构:
    在这里插入图片描述
    2.3)对Q与C,通过对此学习损失L,Contrastive Loss,拉近对应Q与C的距离,达到自监督学习目的。
    在这里插入图片描述
    自监督模块的loss,计算one-hot量化后的音频特征与加mask之后获取的上下文特征之间的相似度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/358686.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

踔厉奋发·勇毅前行 | 2023广和通中国区代理商大会成功召开

2月16日,以“踔厉奋发 勇毅前行”为主题的2023广和通中国区代理商大会暨颁奖晚宴于深圳盛大开启并顺利落幕。广和通CEO应凌鹏、中国区销售部副总裁陈绮华等高层领导出席本次会议并发表演讲,与来自全国各地的代理商合作伙伴齐聚一堂,共话商机。…

云原生周刊 | 2023 年热门:云 IDE、Web Assembly 和 SBOM | 2023-02-20

在 CloudNative SecurityCon 上,云原生计算基金会的首席技术官 Chris Aniszczyk 在 The New Stack Makers 播客的这一集中强调了 2023 年正在形成几个趋势: 随着 GitHub 的 Codespaces 平台通过集成到 GitHub 服务中获得认可,云 IDE&#xf…

【SQL】MySQL秘籍

chihiro-notes 千寻简笔记 v0.1 内测版 📔 笔记介绍 大家好,千寻简笔记是一套全部开源的企业开发问题记录,毫无保留给个人及企业免费使用,我是作者星辰,笔记内容整理并发布,内容有误请指出,笔…

用户行为分析项目MySQL+Tableau

文章目录1. 项目背景及目的1.1 项目背景1.2 项目目的2. 理解数据3. 数据预处理3.1 字段调整3.2 数据清洗3.2.1 空值3.2.2 重复值3.2.3 异常值4. 数据分析4.1 人4.1.1 获客情况(PV、UV、PV/UV)4.1.2 留存情况(留存率、跳失率)4.1.3 行为情况&a…

数据在内存中的存储【上篇】

文章目录⚙️1.数据类型的详细介绍🔩1.1.类型的基本归类⚙️2.整型在内存中的存储🔩2.1.原码、反码、补码🔩2.2.大小端的介绍⚙️1.数据类型的详细介绍 🥳基本的内置类型 : 💡char ---------- 字符数据类型…

kubeadmin安装k8s集群

目录 一 、环境部署 1、服务器规划 2、环境准备 二、所有节点安装docker 1、配置yum源,安装docker 2、配置daemon.json文件 三、所有节点安装kubeadm、kubelet 和kubectl 四、部署k8s集群 1、查看初始化需要的镜像 2、导入镜像 3、初始化kubeadm 3.1 方…

【gt+】RS485详解

这里写目录标题RS232与RS485TTL和RS485电平转换平衡传输收发控制主机轮询手动带隔离的RS485电路自动切换电路RS485收发器发送器接收器网络安装电阻匹配接地问题网络失效保护RS232与RS485 RS232接口标准出现较早。 接口的电平值较高,易损坏接口电路的芯片&#xff…

Hive3 安装方式详解,datagrid自定义驱动连接hive

1 Hive的安装方式 hive的安装一共有三种方式:内嵌模式、本地模式、远程模式。 元数据服务(metastore)作用是:客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接…

【部署】项目正式服部署更新

chihiro-notes 千寻简笔记 v0.1 内测版 📔 笔记介绍 大家好,千寻简笔记是一套全部开源的企业开发问题记录,毫无保留给个人及企业免费使用,我是作者星辰,笔记内容整理并发布,内容有误请指出,笔…

SCRM的全面了解

一、什么是SCRM SCRM(Social CRM,社会化客户关系管理),是以用户为中心,通过社交平台与用户建立联系,以内容、活动、客服、商城等服务吸引用户注意力,并不断与用户产生互动,实现用户…

离散数学笔记_第一章:逻辑和证明(1)

1.1命题逻辑1.1.1 命题 1.1.2 逻辑运算符 定义1: 否定联结词定义2: 合取联结词定义3: 析取联结词定义4: 异或联结词1.1.3 条件语句 定义5: 条件语句定义6: 双条件语句1.1.1 命题 1.命题:是…

(十六)、创建uni-admin后台管理项目【uniapp+uinicloud多用户社区博客实战项目(完整开发文档-从零到完整项目)】

1,打开hbuildx软件,新建项目 两步创建admin后台管理项目 一定要选择uni-admin模板! 关联服务空间: 用超级管理员账号登录后台管理系统后,如发现没有系统管理菜单;请检查数据库表opendb-admin-menus中…

【期末指北】嵌入式系统——选择题(feat. ChatGPT)

作者|Rickyの水果摊 时间|2023年2月20日 基本信息 ☘️ 本博客摘录了一些 嵌入式系统 的 常见选择题,供有需求的同学们学习使用。 部分答案解析由 ChatGPT 生成,博主进行审核。 使用教材信息:《嵌入式系统设计与应…

电子技术——反馈系统概述

电子技术——反馈系统概述 许多物理系统都会形成反馈系统。但是有趣的是,负反馈系统理论却是由电子工程师所完善的。自从1928年第一个负反馈放大器诞生开始,负反馈系统从此登上历史的舞台,现在负反馈系统不光只用在电子工程上,而且…

算法18:LeetCode_链表相关算法题

链表无小事,只要是涉及到链表的算法题,边界值的设定尤为重要,而且及其容易出错误。这就要求我们平时多加练习。但是,我们在面试和笔试的过程中往往会碰到链表相关的题目,所以我们在笔试的时候一般都会借助系统提供的工…

比特数据结构与算法(第三章_上)栈的概念和实现(力扣:20. 有效的括号)

一、栈(stack)栈的概念:① 栈是一种特殊的线性表,它只允许在固定的一端进行插入和删除元素的操作。② 进行数据插入的删除和操作的一端,称为栈顶 。另一端则称为 栈底 。③ 栈中的元素遵守后进先出的原则,即…

推荐系统[三]:粗排算法常用模型汇总(集合选择和精准预估),技术发展历史(向量內积,WideDeep等模型)以及前沿技术

1.前言:召回排序流程策略算法简介 推荐可分为以下四个流程,分别是召回、粗排、精排以及重排: 召回是源头,在某种意义上决定着整个推荐的天花板;粗排是初筛,一般不会上复杂模型;精排是整个推荐环节的重中之重,在特征和模型上都会做的比较复杂;重排,一般是做打散或满足…

Android OTA 相关工具(一) 虚拟 A/B 之 snapshotctl

Android 虚拟 A/B 分区推出快三年了,不论是 google 还是百度结果,除了源代码之外,竟然没有人提到这个 Android Virtual A/B 的调试工具 ,着实让人感觉意外。 所以我相信还有不少人不知道 Android OTA 到底都有哪些调试工具&#…

【React】react-router 路由详解

🚩🚩🚩 💎个人主页: 阿选不出来 💨💨💨 💎个人简介: 一名大二在校生,学习方向前端,不定时更新自己学习道路上的一些笔记. 💨💨💨 💎目…

力扣-查找重复的电子邮箱

大家好,我是空空star,本篇带大家了解一道简单的力扣sql练习题。 文章目录前言一、题目:182. 查找重复的电子邮箱二、解题1.正确示范①提交SQL运行结果2.正确示范②提交SQL运行结果3.正确示范③提交SQL运行结果4.正确示范④提交SQL运行结果总结…