机器学习:Self-supervised Learning for Speech and image

news2024/11/24 1:39:16

在这里插入图片描述

review : self-supervised learning for text

在这里插入图片描述

Self-supervised learning for speech

在这里插入图片描述
使用Speech版本的bert能比较好的作用于语音任务上,如果没有self-supervised的话,别的模型可能需要上万小时的数据。

Superb

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • ytb课程:MpsVE60iRLM
  • 工具:s3prl

Self-supervised Learning for Image

在这里插入图片描述
在这里插入图片描述

Generative Approaches

在这里插入图片描述

Speech

应用于语音上

  • Bert系列
    在这里插入图片描述

把声音信号的某些部分盖起来,让模型还原回来
在这里插入图片描述

  • GPT系列
    给定一个文字,预测下一个文字是什么;给定一段声音信号,预测接下来的语音什么:
    在这里插入图片描述
    文本是一个词,声音要大于三个词。

Image

应用于图像上,拉直成一维向量
在这里插入图片描述
然后盖住某些像素,预测下一个像素;或者给定一段像素,预测后面的像素是什么,之后接下游任务,比如分类。

2 Predictive Approach

在这里插入图片描述
语音和图像相较于文本来说包含了非常多的细节,往往更加困难一些。

Image——预测图片是否被旋转过

在这里插入图片描述

Image——内容预测

预测两个块 第二个小块在第一个小块的哪个方向。
在这里插入图片描述

不做生成就能自监督学习。
在这里插入图片描述
让机器预测产生cluster的结果。


Contrastive Learning——对比学习

在这里插入图片描述
在这里插入图片描述
让相同的向量越近越好,让不相同的向量越远越好。
但是不知道类别,怎么做呢?

SimCLR

对图像做data augmentation的图片是positive pair,如果是另外一张图片的data augmentation的图片是negative pair。
在这里插入图片描述
data augmentation:

  • random crop
  • color distortions
  • gaussian blur

语音版本的speech simclr

MoCo

在这里插入图片描述

语音版本的对比学习

  • CPC
  • Wav2Vec

在这里插入图片描述
可以将encoder用在下游任务里面或者将encoder和predicter一起用在下游任务里面。

在这里插入图片描述
在这里插入图片描述
将token盖起来,让bert学会做填空:

在这里插入图片描述

wav2vec 2.0版本将encoder和bert encode一起联合起来训练,将输入的某些部分mask,用输出的向量来预测mask的tokek是哪一个,越mask的3越近越好,与旁边的越远越好。

在这里插入图片描述
bert其实也是一种对比学习,也是让正确的答案越近越好
在这里插入图片描述

在这里插入图片描述

分类任务:分数越大越好
对比学习任务:分数越小越好

分类任务如果类别很多的话,random pair不可能穷举所有的其他组合,可以采用contrasive方式学习,让正确的embedding与last layer output的乘积越小越好,随机选取部分不正确的embedding与last layer output的乘积越大越好。

在这里插入图片描述
比较难穷举所有的负样本,只是想让embedding最能代表它本身,可以将bert当做对比学习的思想。
在这里插入图片描述

难点

选择负样本:

  • 选择够难的负样本,但不要太难的负样本(比如同类两张猫,将猫的向量也拉远了)
    在这里插入图片描述
    下面介绍避开挑选负样本的方法

4. Bootstrapping Approaches

在这里插入图片描述
没有负样本的话,只要给两个图片就给出两个非常接近的向量,这不是我们想要的结果:
在这里插入图片描述
只用正样本的话,一条通道接一个predictor,让两台通道产生embedding越相近越好,但只更新右边的通道,训练好了后将右边的通道参数同步到左边的通道:
在这里插入图片描述

  • 左右两边的架构要有点不同
  • 只训练某一边的encoder,再把训练好的参数复制到另外一边

两条通道不一样,让两个无法一起作弊,也可以以知识蒸馏的方式理解上面架构:

在这里插入图片描述
在这里插入图片描述
相关的算法:

  • Image
    • BYOL
    • SimSiam
  • Speech
    • Data2vec

5.Simply Extra Regularization

在这里插入图片描述
给的是一个batch,要求每个维度的差别要大于一个阈值:
在这里插入图片描述
在这里插入图片描述

最关键的是variance,后续可以加点优化Covariance, 语音方向有类似DeloRes

总结

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/777491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vulnhub打靶--lampiao

目录 vulnhub--lampiao1.扫描主机端口,发现1898端口部署web2.打开robots.txt发现CHANGELOG.txt文件3.发现drupal更新日志,drupal这个版本有公开exp。利用msf打下4.执行uname -a 或者上传漏洞suggest脚本,可以发现有脏牛提权5.上传脚本到目标&…

2023年7月19日,锁升级,网络编程

锁升级 锁的四种状态:无锁、偏向锁、轻量级锁、重量级锁(JDK1.6) 无锁:操作数据时不会上锁 偏向锁:会偏向于第一个访问锁的线程, 如果在运行过程中,只有一个线程访问加锁的资源,不存…

JavaWeb+Vue分离项目实现增删改查

文章目录 前言数据库后端代码util 代码listener 代码filter 代码po 代码dao 层增删改查代码service 层增删改查代码controller 层增删改查代码 前端代码查询操作删除功能增加功能修改方法路由传参修改会话存储修改 前言 提示:这里可以添加本文要记录的大概内容&…

Java037——多线程

当涉及到计算机操作系统中的并发执行时,进程和线程是两个核心概念。 一、程序(program) 程序(program)是为完成特定任务、用某种语言编写的一组指令的集合。即指一 段静态的代码,静态对象。 二、进程(Process) 进程&#xff0…

MD5数据加密方法

什么场景需要使用数据加密呢?比如秘密数据传输、用户密码加密存储等等 数据传输可使用密钥对的方式进行加密解密,使用签名方式验证数据是否可靠,而密码加密存储可使用MD5等一些算法对数据进行单向加密 一、MD5单向加密 1、百度说法&#x…

【基础统计学】带重叠差分置信区间的检验

一、说明 对于统计模式识别,需要从基本的检验入手进行学习掌握,本篇是对统计中存在问题的探讨:如果两个分布有重叠该怎么做。具体的统计学原理,将在本人专栏中系统阐述。 二、几个重要概念 2.1 什么是假设检验 假设检验是一种统计…

第二节 C++ 数据类型

文章目录 1. 概述1.1 数据类型的重要作用 (了解) 2. 数据类型2.1 什么是进制 ?2.1.1 存储单位 2.2 整数类型2.2.1 整数类型使用2.2.2 超出范围2.2.3 关键字 sizeof 2.3 实型(浮点型)2.3.1 setprecision()函数2.3.2 科学计数 (了解即可) 2.4 字符型2.4.1 字符型定义2.4.2 ASCII…

树-用Java托举

再讲完前面几个数据结构后,下面,我们开始对树进行一个讲解分析 树 引言 树是一种重要的数据结构,在计算机科学中有着广泛的应用。树是由节点和边组 成的非线性数据结构,具有层次结构和递归定义的特点。每个节点可以有多个子 节点…

【英杰送书第三期】Spring 解决依赖版本不一致报错 | 文末送书

Yan-英杰的主 悟已往之不谏 知来者之可追 C程序员,2024届电子信息研究生 目录 问题描述 报错信息如下 报错描述 解决方法 总结 【粉丝福利】 【文末送书】 目录: 本书特色: 问题描述 报错信息如下 Description:An attempt…

Docker 命令(二)

查看 docker 版本信息 docker version #查看版本信息docker 信息查看 docker info Client:Context: defaultDebug Mode: falsePlugins:app: Docker App (Docker Inc., v0.9.1-beta3)buildx: Build with BuildKit (Docker Inc., v0.5.1-docker)Server:Containers: 0 …

get请求传入[ ]这类字符 返回400错误解决

问题描述 使用get请求查询,传入特殊字符 []时,接口报错。 分析原因 高版本的tomcat,有个新特性: 严格按照RFC 3986规范进行访问解析,而 RFC3986规范定义了Url中只允许包含英文字母(a-zA-Z)、数…

【Python】数据分析+数据挖掘——Pandas中文件I/O操作

文章目录 前言1. 读入文本格式数据文件1.1 pd.read_csv实例 1.2 pd.read_table1.3 pd.read_excel实例 1.4 pd.read_sql 2. 保存数据文件2.1 保存数据文件到外部文件中2.2 保存数据文件到数据库中 结束语 前言 在数据分析和数据挖掘中,数据通常以文件的形式存储在磁…

静电消除风机风棒的工作原理

静电消除风机风棒的工作原理静电消除离子风机是一种专门用于消除静电的设备。静电是由于物体表面带有静电荷而引起的现象,容易导致尘埃吸附、静电放电等问题。静电消除离子风机通过释放负离子或正离子来中和空气中的静电荷,从而减少静电问题的发生。 静…

【基于CentOS 7的Rsync服务】

目录 一、概述 二、特性 1.快速 2.安全 3.应用场景 三、数据的同步方式 1.pull 2.push 四、rsync传输模式 1.本地传输 2.远程传输 3.守护进程 五、rsync应用 1.安装 2.监听端口 六、rsync命令 1.格式 1.1 作为远程命令 1.2 作为rsync服务 2.选项 3.举例 …

服务器数据恢复-ESX SERVER无法连接到STORAGE的数据恢复案例

服务器数据恢复环境: 某公司信息管理平台,数台VMware ESX SERVER虚拟机共享一台IBM某型号存储。 服务器故障: VC报告虚拟磁盘丢失,管理员ssh到ESX中执行fdisk -l命令查看磁盘,发现STORAGE已经没有分区表了。重启设备后…

2023-7-20-第二十一式访问者模式

🍿*★,*:.☆( ̄▽ ̄)/$:*.★* 🍿 💥💥💥欢迎来到🤞汤姆🤞的csdn博文💥💥💥 💟💟喜欢的朋友可以关注一下&#xf…

unity预制体打包

unity做好的预制体如果给别的工程使用,如果是单纯的ctrlcv会导致丢失引用,如材质信息等,我们可以将其打包好再导入给别的工程。 如打包这个cube: 点击Export,选择保存位置

【算法基础:搜索与图论】3.2 树与图的dfs和bfs

文章目录 例题846. 树的重心(深度优先遍历 / 树形DP)⭐⭐⭐⭐⭐🚹🚹🚹🚹🚹(重要!好题!)847. 图中点的层次 相关链接 要学会建树、建图的通用方法。…

【C++】C++ 11 新特性

文章目录 📕 ★ 右值引用 ★概念左值引用和右值引用的比较使用场景和意义移动构造左值引用的缺陷 完美转发属性丢失为什么会属性丢失解决方法 📕 新的类功能默认成员函数default 和 delete 关键字 📕 lambda 表达式问题的提出概念函数对象和 …

nuxt获取地址栏(路由)参数

要获取的路由地址(页面顶部地址栏):http://172.31.0.1:5353/judge-manage?id3694089482878918764&name%E6%B5%8B%E8%AF%95&judgeIde9IJWN5usmzbrtNC3zYSRtAcKu-M333h 1、获取域名或ip端口:172.31.0.1:5353 2、获取地址…