自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

news2025/2/24 4:03:36

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

1.参考文献

《Masked Autoencoders that Listen》

2.背景

Transformers和self-supervised learning(自监督学习)占据了计算机视觉(Computer Vision,CV)和自然语言处理(natural language processing, NLP)的主导地位。

使用BERT进行屏蔽自动编码，通过对大规模语言语料库的自监督预训练，为各种NLP任务提供了一种新的最新技术。类似地，在CV社区中，Vision Transformers (ViT)变得越来越流行，在自监督的图像表示学习中，掩码自动编码器(MAE)使CV社区更接近BERT在NLP中的成功。

在这项工作中，主要研究了听的方面，即音频识别方面，如Audioset(规模最大的音频数据集)，环境声识别(ESC-50)，语音指令识别(SPC-2, SPC-1)，说话人识别(VoxCeleb)。

3.掩码自动编码器

MAE如上图所示。

①将音频的时频谱图分割成许多patch，对大部分patch进行掩码处理；

②通过把剩余可见的patch块进行编码操作；

③然后通过解码操作，对顺序恢复和掩码patch块进行重构输出；

④并与目标时频谱图计算MSE损失以此更新编码器和解码器；

这里编码器使用12-layer ViT-Base (ViT-B)

解码器用standard Transformer模块。

具体细节可以看原文。

4.微调至下游任务

MAE最终只保留编码器部分，解码器将删除，这样就能应用到下游任务。

5.结果

谱图修复结果如上图所示

MAE下游任务结果如上表所示

6.应用拓展

MAE预训练模型可以用于各种下游任务，对于提升识别率都很有效。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/158935.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

百度工程师带你玩转正则

百度工程师带你玩转正则

作者 | 向阳导读在很多技术领域，都有正则的身影。但许多像我一样的人，只闻其名。因此将正则常用知识汇总，便于查阅。正则表达式（Regular Expression）是用于描述一组字符串特征的模式，用来匹配特定的字符串…

阅读更多...

机械--UG NX2007改变零件的默认颜色

机械--UG NX2007改变零件的默认颜色

UG（现在的新版本叫NX，但一般人仍然沿用UG的叫法，下同），新建零件时，零件的默认颜色是橙色的，个人很不喜欢。当然，实体化以后，可以改变它的颜色，选中实体以后…

阅读更多...

傻瓜式裂变—竖屏视频超级原创，呆头鹅批量剪辑软件上万人使用

傻瓜式裂变—竖屏视频超级原创，呆头鹅批量剪辑软件上万人使用

呆头鹅批量剪辑软件优势： 专业的技术开发团队，成熟的技术架构，完整的售后服务，我们为您解决所有的后顾之忧 .几乎涵盖市面上已知的所有剪辑功能.几乎涵盖市面上已知的所有剪辑功能.完成通知，运行间隔提醒&#xf…

阅读更多...

201：vue+openlayers：加载geojson文件形成围栏，可添加、修改、删除feature，导出geojson

201：vue+openlayers：加载geojson文件形成围栏，可添加、修改、删除feature，导出geojson

第201个点击查看专栏目录本示例的目的是介绍演示如何在vue+openlayers中实现围栏列表与图中feature双向互动功能。利用GeoJSON().readFeatures获得到features，通过转换在地图上形成图形，通过新增、修改、删除feature，可以更改整体的features关系。点击导出可以将修改后的…

阅读更多...

工厂安全着装识别检测算法 python

工厂安全着装识别检测算法 python

工厂安全着装识别检测算法通过Python基于YOLOv5技术，对现场画面中的人员着装穿戴进行实时分析检测自动抓拍存档告警。Python是一种由Guido van Rossum开发的通用编程语言，它很快就变得非常流行，主要是因为它的简单性和代码可读性。它使程序员…

阅读更多...

现在才开始学测试晚了么

现在才开始学测试晚了么

相信问这样问题的朋友，对软件测岗位存在着很深的误解。实际上，相对于其他的技术岗位来讲，软件测试入门可以说是相对简单的了，因此多晚学习都来得及。其次，这个行业的就业前景广阔，像测试主管、自动化架构师…

阅读更多...

k8s之Service

k8s之Service

写在前面本文接k8s之DaemonSet 。通过Deployment我们可以实现一直有指定个数的POD在运行，而通过DaemonSet可以实现在每个Node上都有一个POD在运行，不管是这两种方式中的哪一种，都是仅仅实现了有若干个POD在运行的效果，但是还无法…

阅读更多...

【AdaBoost算法】

【AdaBoost算法】

AdaBoost算法的原理介绍 AdaBoost算法核心思想 AdaBoost算法 (Adaptive Boosting) 是一种有效而实用的Boosting算法， 它以一种高度自适应的方法顺序地训练弱学习器。AdaBoost根据前一次的分类效果调整数据的权重，上一个弱学习器中错误分类样本的权重会…

阅读更多...

【MySQL】易忘易错函数和经典例题

【MySQL】易忘易错函数和经典例题

目录一、函数1. UNION ALL 以及 UNIONUNION ALLUNION2. group_concat二、例题：1. 列转行2. 行转列3. 查找第N高的数据，没有则返回null一、函数 1. UNION ALL 以及 UNION union：对多个结果，去重排序 union all：对多个…

阅读更多...

AB测试——原理介绍（中心极限定理、大数定理、假设检验、两类错误）

AB测试——原理介绍（中心极限定理、大数定理、假设检验、两类错误）

作为AB测试的学习记录，本文主要整理总结了AB测试背后的数学原理和一些概念解释。 1、控制变量法基于控制变量法的思想，通过对比两组样本（实验组和对照组）的表现是否有差异，从而验证“变量”的作用。借用中学生物课…

阅读更多...

Linux常用命令——xauth命令

Linux常用命令——xauth命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) xauth 显示和编辑被用于连接X服务器的认证信息补充说明 xauth命令用于显示和编辑被用于连接X服务器的认证信息。语法 xauth(选项)(参数)选项 -f：不使用默认的认证文件，而使用指定的…

阅读更多...

动手深度学习-线性神经网络：softmax回归

动手深度学习-线性神经网络：softmax回归

目录1.分类问题2. 网络架构3.softmax运算4. 损失函数交叉熵损失函数参考教程：https://courses.d2l.ai/zh-v2/ 1.分类问题从回归到多类分类：对类别进行一位有效编码——独热编码（one-hot encoding）。独热编码是一个向量&#x…

阅读更多...

HTTP与HTTPS的区别，HTTPS提高性能，HTTP2的新特性

HTTP与HTTPS的区别，HTTPS提高性能，HTTP2的新特性

目录数据传输区别安全性区别端口区别交互区别HTTPS的工作流程HTTPS的实现原理机密性完整性身份认证和不可否认HTTPS 使用流程HTTPS性能优化点HTTP2的特性向下兼容HTTP/1头部压缩二进制虚拟流、多路复用数据传输区别 http也相当于HTTP协议，是超文本传输协议的意思&a…

阅读更多...

PyQt6快速入门-多文档界面(MDI)

PyQt6快速入门-多文档界面(MDI)

多文档界面(MDI) 文章目录多文档界面(MDI)1、子窗口创建2、主窗口创建3、运行结果多文档界面（Multi Document Interface,MDI）是一种应用程序界面管理方法。MDI应用程序一般由一个主窗口和多个子窗口组成，这些子窗口在主窗口里显示，并共享主窗口的菜单栏，工具栏。在MDI应用…

阅读更多...

netty（1）：NIO 基础之三大组件和ByteBuffer

netty（1）：NIO 基础之三大组件和ByteBuffer

1 三大组件 1.1 Channel & Buffer channel 有一点类似于 stream，它就是读写数据的双向通道，可以从 channel 将数据读入 buffer，也可以将 buffer 的数据写入 channel，而之前的 stream 要么是输入，要么是输出&…

阅读更多...

C++生成.dll文件后在Python中引用（包括传递参数是double型、char*数组，接收参数也为数组）

C++生成.dll文件后在Python中引用（包括传递参数是double型、char*数组，接收参数也为数组）

一、问题描述博主想要实现的C函数原型如下： double* getInfo(int flag, double xyz[], char *xodrPath)也就是需要传递参数为三个不同类型的参数，返回值为double类型的指针（数组）。那么如何在Python中如何通过这个函数生成的…

阅读更多...

完全兼容GM8775C方案|替代GM8775C设计|CS5518替代GM8775C DSI转双LVDS设计方案

完全兼容GM8775C方案|替代GM8775C设计|CS5518替代GM8775C DSI转双LVDS设计方案

GM8775C 型 DSI 转双通道 LVDS 发送器产品主要实现将 MIPI DSI 转单/双通道 LVDS功能。GM8775C输入端DSI符合协议支持 MIPI D-PHY 1.00.00 和MIPI DSI 1.02.00，可实现 1 到 4通道 DSI 信号接收。最大数据率 1Gbps/通道。视频输入格式支持 16bit RGB565、18bit RGB6…

阅读更多...

Mybatis 一对一、一对多、多对多

Mybatis 一对一、一对多、多对多

今天我们来复习一下 Mybatis 框架吧总所周知，Mybatis 是一款优秀的基于ORM 半自动轻量化的持久层框架 ORM：对象关系映射，简单的说就是表结构对应实体类半自动：可灵活配置SQL，优化代码性能轻量化&#xff1a…

阅读更多...

php源代码保护——PHP加密方案分析解密还原

php源代码保护——PHP加密方案分析解密还原

前言 php是一种解释型脚本语言.与编译型语言不同,php源代码不是直接翻译成机器语言.而是翻译成中间代码(OPCODE) ,再由解释器(ZEND引擎)对中间代码进行解释运行 . 在php源代码的保护在原理可以分为3大类. 源代码混淆(编码)OPCODE混淆(编码)修改解释引擎(虚拟机) 在部署上可…

阅读更多...

Vue学习笔记 ④

Vue学习笔记 ④

文章目录template 选项Vue 生命周期生命周期图示生命周期钩子beforeCreatecreatedbeforeMountmountedbeforeUpdateupdatedbeforeDestroydestroyed组件基础组件是什么？组件注册全局组件局部组件组件名组件复用自闭合组件组件的 data 选项单个根元素组件\_Prop注册自定…

阅读更多...

推荐文章

最新文章