Meta AI 更新的 Data2vec 2.0 | 实现更快、更高效的视觉、语音和文本的自监督学习

news2024/11/29 4:52:17

文章目录

  • 一、前言
  • 二、data2vec 2.0 是如何工作的
  • 三、使用 data2vec 2.0 提高效率
  • 四、总结

CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

论文地址:Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

人工智能最近的许多突破都是由自监督学习(self-supervised learning)推动的,它使机器不依赖于标记数据进行学习。

但是目前的算法都有一些明显的局限性:

  • 通常包括专门用于单一模态(如图像或文本),并需要大量的计算资源(算力和内存);
  • 这与人类的学习形成了鲜明的对比:人类似乎比当前的人工智能学习效率更高,而且也以类似的方式从不同模态的信息(视觉、听觉、嗅觉)中学习,而不是依赖于图像、文本、语音和其他形式的单独学习机制。

Meta AI 在今年早些时候解决了这些限制之一,当时发布了 data2vec,这是第一个高性能的自监督学习算法,可以用同样的方式学习三种不同的模态:语音、视觉和文本。data2vec 使得将文本理解等前沿的研究进展应用于图像分割或语音翻译任务变得更加容易。

Meta AI 开源的 data2vec 2.0,这是一种新的算法,它的效率大大提高且性能优于其前身。它达到了与现有最流行的计算机视觉自监督算法相同的精度,但是速度快了 16 倍。为了使 data2vec 对其他研究人员开放,Meta AI 开源了代码和预训练好的模型。


二、data2vec 2.0 是如何工作的

自监督学习的基本思想是让机器通过观察世界自主来学习图像、语音和文本的结构,而无需标记信息。自监督学习的进展导致了语音(如 wave2vec)、计算机视觉(如 Masked Autoencoders)和自然语言处理(如 BERT)研究领域的许多突破。但是现代系统可能需要大量计算资源,因为训练非常大的模型需要许多 GPUs。

上图展示了 data2vec 2.0 训练的工作原理,可以单独对文本、语音或图像进行训练。

与最初的 data2vec 算法类似,data2vec 2.0 预测数据的上下文化表示(contextualized representations)或神经网络的 layers,而不是图像的像素、文本段落的词语或语音。与大多数其他算法不同,这些所谓的目标表示是 contextualized 的,这意味着它们将整个训练示例考虑在内。例如,单词 bank 的表示基于单词出现的整个句子来考虑,因此更容易表示单词的正确意思(“金融机构” 或 “河边的土地”)。研究者相信上下文化的目标(contextualized targets)会促进更丰富的学习任务,并使 data2vec 2.0 比其他算法学习得更快。

通过几种方式提高了原始 data2vec 算法的效率:

  • 首先,获取为特定训练示例构建的目标表示,并将它们重用于掩码版本(在掩码版本中,隐藏了训练示例的不同随机部分);将每个版本提供给学生模型(student model),学生模型为不同的 masked versions 预测相同的上下文化的目标表示;这有效地分摊了创建目标表示所需的计算工作。
  • 其次,类似于 masked autoencoders,对于训练示例中被删除的部分(在实验的例子中大约是图像的 80%)不运行学生编码器网络,从而显著节省了计算周期。
  • 最后,使用了一个更有效的解码器模型,它不依赖于 Transformer 网络,而是依赖于一个多层卷积网络。

三、使用 data2vec 2.0 提高效率

将 data2vec 2.0 训练到与同一硬件上流行的现有算法相同的精度时,相对训练时间得到明显改善。如下图所示:

为了更好地理解 data2vec 2.0 比它的前辈和其他算法高效多少,研究者在计算机视觉、语音和文本任务上对它进行了广泛使用的基准测试。考虑最终的精确度以及预训练模型所需的时间,在相同的硬件上测量了算法的速度(GPU 的数量等等)。

对于计算机视觉,在标准 ImageNet-1K 图像分类基准上评估了 data2vec 2.0,在那里它学会了表示图像。Data2vec 2.0 获得等同于掩码自动编码器(MAE)的准确性时,速度要快 16 倍(在对等设置中以挂钟时间衡量)。如下所示:

在这里插入图片描述

用于计算机视觉的 Data2vec 2.0:该图显示了在流行的 ImageNet-1K 基准数据集上不同算法的速度和图像分类精度。

对于语音,在 LibriSpeech 语音识别基准上进行了测试,它的表现比 wav2vec 2.0 快 11 倍以上,而且准确率相似。对于自然语言处理(NLP),在流行的通用语言理解评估(GLUE)基准上评估了 data2vec 2.0,在一半的训练时间内,它达到了与 RoBERTa (BERT 的重新实现)相同的精度。

在这里插入图片描述
如上所示,用于语音和 NLP 的 data2vec 2.0:第一张图显示了在 LibriSpeech 上预训练的模型的速度与语音识别单词错误率,在 10 小时的 Libri-light 数据上进行了微调,然后在 dev-other 上评估。第二张图显示了使用原始 BERT 设置时 GLUE 基准的自然语言理解准确性。


四、总结

Meta AI 宣布推出 data2vec 2.0,这是一种由 Meta AI 为语音、视觉和文本构建的新型通用自监督算法,在达到相同精度的同时,训练模型的速度比最流行的现有图像算法快 16 倍。

迈向高效学习的机器。Meta AI 正在构建一个更通用和有效的自监督学习算法,使用一个单一的学习目标却能从不同的模态有效学习。更有效地学习的能力对于视频这样的模态尤其重要,因为它需要大量的计算工作来处理。我们希望像 data2vec 2.0 这样更有效的自监督学习算法将使机器能够深入理解极其复杂的数据,例如整部电影的内容。

Github 代码:https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

论文:Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language


参考资料:

  • Meta AI | Data2vec 2.0: Highly efficient self-supervised learning for vision, speech and text
  • 论文 | Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/87981.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL - 1

Step1 : 下载 (https://downloads.mysql.com/archives/community/) ZIP版本免安装,直接解压 版本:5.7.31 文件名:Windows (x86, 64-bit), ZIP Archive Step2:解压 路径建议:C:\Program Files\m…

JAVA中的注解可以继承吗?

前言 注解想必大家都用过,也叫元数据,是一种代码级别的注释,可以对类或者方法等元素做标记说明,比如Spring框架中的Service,Component等。那么今天我想问大家的是类被继承了,注解能否继承呢?可…

五、Docker 镜像发布阿里云、私有库(详解、实操)第二篇

第一篇连接:https://blog.csdn.net/u011837804/article/details/128311791 3、本地镜像发布到私有库 3.1、Docker Registry是什么 Registry 是一个无状态、高度可扩展的服务器端应用程序,用于存储并允许您分发 Docker 镜像。 如果学过maven 就知道maven有私服,那这个就是…

[附源码]Python计算机毕业设计Django基于SpringBt的演唱会购票系统论文2022

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

技术分享 | 一文带你了解测试流程的体系

软件测试是软件质量保证的关键步骤。越早发现软件中存在的问题,修复问题的成本就越低,软件质量也就越高,软件发布后的维护费用越低。 为了能更好的保障软件质量,在软件测试的实践中,慢慢形成了一些流程用来达到这一目…

mybatis05:MyBatis核心配置文件深入、typeHandlers、plugins

目录 项目搭建前置准备 1.1 typeHandlers标签 1.2 plugins标签-分页 1.3知识小结 项目搭建前置准备 相关依赖 <dependencies><!-- mysql驱动 --><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId&…

IOS证书获取(证书profile文件,p12私钥证书,证书私钥密码,Bundle ID)

当我们在开发一个应用APP时需要真机测试&#xff0c;或者上架到对应的应用市场&#xff0c;这时就需要 App打包&#xff08;打包流程&#xff09;&#xff0c;那么打包时就需要Bundle ID、证书私钥密码、证书profile文件、私钥证书。 申请这些资料需要在苹果开发者中心获取 首…

【DBN回归预测】基于麻雀算法优化深度置信网络SSA-DBN实现数据回归多输出预测附matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …

基于C++开发的(控制台)学生管理系统【100010039】

一、项目技术路线说明 学生信息管理系统所使用的编程语言是C语言。C语言具有面向对象的特点&#xff0c;给编写程序带来了极大地方便。学生信息管理系统程序设计通过抽象、封装、继承和多态使程序代码达到了很大限度的可重用和可扩展。而程序中的多种多样的类是此次程序设计的…

网络工程毕业设计 SSM在线课堂学习设计与实现(源码+论文)

文章目录1 项目简介2 实现效果2.1 界面展示3 设计方案3.1 概述3.2 系统流程3.3 系统结构设计4 项目获取1 项目简介 Hi&#xff0c;各位同学好呀&#xff0c;这里是M学姐&#xff01; 今天向大家分享一个今年(2022)最新完成的毕业设计项目作品&#xff0c;【基于SSM的在线课堂…

JBoss漏洞 - CVE-2010-0738 CVE-2015-7501

文章目录CVE-2010-0738漏洞简介影响版本漏洞利用POCCVE-2015-7501漏洞简介漏洞环境漏洞搭建漏洞发现漏洞利用JMX Console安全验证绕过 CVE-2010-0738 漏洞简介 利用原理与CVE-2007-1036相同&#xff0c;只不过利用HEAD请求方法绕过GET和POST请求的限制 影响版本 jboss4.2.0-…

【Java版oj】day06把字符串转换成整数

目录 一、原题再现 二、问题分析 三、完整代码 一、原题再现 把字符串转换成整数_牛客题霸_牛客网 描述 将一个字符串转换成一个整数&#xff0c;要求不能使用字符串转换整数的库函数。 数值为 0 或者字符串不是一个合法的数值则返回 0 数据范围&#xff1a;字符串长度满足0…

qt的移植

1、下载qt-everywhere-opensource-src-4.8.1.tar.gz, 下载连接地址如下:http://download.qt.io/archive/qt/4.8/4.8.1/ 2. 解压qt压缩文件tar xvf qt-everywhere-opensource-src-4.8.1.tar.gz 3. 为了编译的方便编译 &#xff0c;写了一个配置文件bulid.sh 内容如下&#xff1a…

5G无线技术基础自学系列 | 下行链路预算

素材来源&#xff1a;《5G无线网络规划与优化》 一边学习一边整理内容&#xff0c;并与大家分享&#xff0c;侵权即删&#xff0c;谢谢支持&#xff01; 附上汇总贴&#xff1a;5G无线技术基础自学系列 | 汇总_COCOgsta的博客-CSDN博客 图10-2所示为下行链路预算的原理&#…

【lssvm回归预测】基于鲸鱼算法优化最小二乘支持向量机lssvm实现数据回归预测附matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …

Open AI——如何正确注册和使用Open AI进行GEE计算

Open AI 是很火的一个AI交互式服务&#xff0c;但苦于很多人不知道如何去注册使用&#xff0c;因为在中国大陆是无法使用正常的手机号进行注册的&#xff0c;因为官网会提示你当前区域不支持。值得注意的这里需要我们进行科学上网&#xff0c;中国的网址是无法进行登录的&#…

常见经典vue面试题(面试必问)

MVVM的优缺点? 优点: 分离视图&#xff08;View&#xff09;和模型&#xff08;Model&#xff09;&#xff0c;降低代码耦合&#xff0c;提⾼视图或者逻辑的重⽤性: ⽐如视图&#xff08;View&#xff09;可以独⽴于Model变化和修改&#xff0c;⼀个ViewModel可以绑定不同的…

[附源码]Python计算机毕业设计SSM基于JAVA语言的国风画展网站(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

接触网绝缘子缺陷检测项目

目录 1. 接触网绝缘子作用 2. 接触网绝缘子破损原因及危害 3.接触网绝缘子缺陷检测图像数据集介绍 4. 缺陷检测模型介绍 4.1 efficientnet模型介绍 4.2 YOLOv3模型介绍 4.3 efficientnet-YOLOv3模型介绍 5. 模型训练与测试 5.1 模型训练 5.2 检测性能测试 参考 1. 接触网…

基于鲸鱼算法优化的lssvm回归预测附matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …