Microsoft 图像BERT,基于大规模图文数据的跨模态预训练

news2024/9/29 11:32:08

视觉语言任务是当今自然语言处理(NLP)和计算机视觉领域的热门话题。大多数现有方法都基于预训练模型,这些模型使用后期融合方法融合下游任务的多模态输入。然而,这种方法通常需要在训练期间进行特定的数据注释,并且对于许多多模态任务来说,满足这一要求仍然非常困难和昂贵。Microsoft研究人员最近发表的一篇论文提出了一种新的视觉语言预训练模型,用于图像 - 文本联合嵌入,ImageBERT,它在MSCOCO(图像检索任务)和Flickr 30k(文本检索)数据集上都实现了SOTA性能。

与Google的BERT(来自变压器的双向编码器表示)语言模型一样,ImageBERT是基于Transformer的。它采用不同的模态(文本和视觉标记)作为输入,通过嵌入层编码到不同的嵌入中。然后将这些嵌入输入多层双向自注意力转换器,该转换器训练跨模态转换器来建模图像和文本之间的关系。

2023-08-16T04:13:38.png

ImageBERT模型架构

数据的数量和质量对于视觉语言任务的跨模型预训练至关重要,因此研究人员开发了一种弱监督方法,用于从互联网收集大规模图像文本数据,以提高预训练性能。他们的大规模weAk监督图像文本(LAIT)数据集包括10万个视觉语言对(图像+描述),并用于预训练ImageBERT模型。

2023-08-16T04:14:05.png

弱监督数据收集管道

在LAIT之后,研究人员在第二阶段对公共数据集概念标题(最广泛使用的图像文本预训练数据)和SBU标题(SBU标题照片数据集)对模型进行了预训练。该模型同时在研究人员设计的四个任务上进行预训练,以对文本和视觉内容及其相互关系进行建模:

**任务1:**掩蔽语言建模(MLM) –这与BERT培训中的MLM相同。它提出了一个新的预训练目标,并能够训练深度双向嵌入。

**任务2:**屏蔽对象分类 (MOC) – MLM 任务的扩展。

**任务3:**屏蔽区域特征回归 (MRFR) – 与 MOC 类似,此任务还通过更精确的对象特征预测工作对视觉内容进行建模。

**任务4:**图像文本匹配 (ITM) – 学习图像-文本对齐的任务。

实验结果表明,多阶段预训练方法比单阶段预训练方法取得了更好的效果。研究人员还进行了微调,并将预训练的ImageBERT模型与SOTA方法在图像检索和文本检索任务上进行了比较,其中ImageBERT在MSCOCO和Flickr30k数据集上都获得了最佳结果。

2023-08-16T04:14:50.png

研究人员希望他们的新模型和数据集能够进一步推进跨模态预训练的研究和发展。

论文ImageBERT:使用大规模弱监督图像文本数据的跨模态预训练发表在arXiv上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/887570.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[JavaWeb]【一】入门JavaWeb开发总概及HTML、CSS、JavaScript

目录 一 特色 二 收获​编辑 三 什么是web? 四 网站的工作流程 五 web网站的开发模式​编辑 六 web开发课程学习安排 七、初始web前端 八 HTML、CSS 8.1 什么是HTNL\CSS(w3cschool) 8.2 HTML快速入门 8.3 VS Code开发工具 8.3.1 插件 8.3.2 主题(改变颜色&…

vue组件封装——类似bootstraptable的模糊搜索功能,支持语音搜索

插件地址 懒得写了,直接上插件地址去看吧

后端返回图片资源错误404,前端使用默认图片

后端返回的图片资源可能会因为各种原因(后台误删,地址更改未及时更新,损毁)出现无法展示的情况,比如这种报错 就会导致图片资源错误,页面出现这种情况 用户体验很不好,为了改善这种情况&#xf…

从视觉装备到智能驾驶,天准科技能否打造第二增长极?

智能网联汽车已经成为了上市公司跨界布局的热门赛道。 天准科技是工业视觉智能装备领域的龙头企业,主要客户包括苹果、三星等企业。招股说明书显示,2016年至2018年,天准科技来源于苹果公司及其供应商的收入合计占比达到49.98%、67.99%及76.0…

角色入门01----MetaHuman创建角色

创建网址Epic Games 创建完成后,可以在bridge里边下载自己的模型,导入他。我们想用小白人控制他,还要导入第三人称游戏包,把小白人蓝图拿出来。 把小白人的蓝图复制到自己新建的文件夹,把下载好的metaHunmen的骨骼全部…

微服务概述-7

Shiro 框架 Shiro 是一个用于 Java 应用程序的安全框架。它提供了身份验证、授权、加密和会话管理等功能,可以帮助开发人员构建安全可靠的应用程序。 Java 中针对权限管理常见的有 2 个著名的框架:spring security 和 shiro shiro 基本概念 credentia…

ABAP 新语法--Data Processing

1. String Template 新语法引入了字符串模板,用于处理字符串连接以及格式转换 字符串模板在 | … | 之间定义,主要分为两部分,固定文本和变量 其中,变量只能在 { … } 内使用,大括号之外的所有字符均作为固定文本使用…

windows以管理员的身份运行CMD

电脑在装系统的时候,我的用户不是最高权限的管理员。 今天在工作的时候,使用CMD。运行失败,提示我需要使用管理员的身份运行CMD才可以。 使用右键点击左下角的windows图标 选择红框标注的那项。 以普通身份运行: 以管理员身份运行…

【iMessage频發软件苹果群发技术开源原创】当 APNs 发送通知到一个离线设备时,APNs 会把通知存储起来(一定的时间内),当设备上线时再递送给设备。

推荐内容IMESSGAE相关 作者✈️IMEAE推荐内容iMessage苹果推软件 *** 点击即可查看作者要求内容信息作者✈️IMEAE推荐内容1.家庭推内容 *** 点击即可查看作者要求内容信息作者✈️IMEAE推荐内容2.相册推 *** 点击即可查看作者要求内容信息作者✈️IMEAE推荐内容3.日历推 *** …

睿趣科技:抖音开网店现在做还来得及吗

随着社交媒体的迅速发展,抖音作为一款短视频平台,已经在年轻人中间取得了巨大的成功。而近年来,越来越多的人开始考虑在抖音上开设网店,以迎合这一潮流。那么,抖音开网店现在还来得及吗? 首先,要明确的是&…

C语言实现哈希搜索算法

一、哈希搜索算法原理 哈希搜索,也叫散列查找,是一种通过哈希表(散列表)实现快速查找目标元素的算法。哈希搜索算法通常适用于需要快速查找一组数据中是否存在某个元素的场景,其时间复杂度最高为 O(1),而平…

CSS(JavaEE初阶系列14)

目录 前言: 1.CSS是什么 1.1CSS基本语法 2.引入样式 2.1内部样式表 2.2行内样式表 2.3外部样式 3.选择器 3.1选择器的种类 3.1.1基础选择器 3.1.2复合选择器 4.常用元素属性 4.1字体属性 4.2文本属性 4.3背景属性 4.4圆角矩形 4.5元素的显示模式 4…

docker+haror

docker 2013年诞生,推荐单容器只运行一个程序或进程,形成一个分布式的应用模型。 总结下来就是:docker带来启动流程更快,运行效率较高、资源损耗较小,属于轻量级的服务。 docker的安装 推荐的一键化安装的脚本&#…

2022年第八届美亚杯个人赛

1.[单选题] 王晓琳在这本电子书籍里最后对哪段文字加入了重点标示效果(Highlight)?(2分) A. 卿有何妙计 B. 宝玉已是三杯过去了 C. 武松那日早饭罢 D. 就除他做个强马温罢 结合最后一题 2.[多选题] 王晓琳的手机里有一个 MTR Mobile (港)的手机程序(Mobile App)。 检视其数…

《QT+PCL》点云的点选与框选

《QT+PCL》点云的点选与框选 效果展示关键代码对应Qt6与pcl1.13对应Qt6与pcl1.12对应Qt5与pcl1.12对应Qt5与pcl1.11资源效果展示 关键代码 对应Qt6与pcl1.13 点选 //点选--------------回调函数 void MainWindow::pp_callback_PointsSelect(const

python中使用xml快速创建Caption和URL书签管理器应用程序

导语: 本文介绍如何使用wxPython库创建一个Caption和URL管理器应用程序。该应用程序具有图形用户界面,允许用户输入Caption和URL,并将其保存到XML文件中。此外,还提供了浏览文件夹并选择HTML文件的功能,并可以运行另一…

微信小程序前后端开发快速入门(完结篇)

这篇是微信小程序前后端快速入门完结篇了,今天利用之前学习过的所有知识做一个新的项目「群登记助手v1.0」小程序。 整体技术架构:小程序原生前端小程序云开发。 经历了前面教程的学习,大家有了一定的基础,所以本次分享重心主要是…

SOFABoot——基本使用(笔记)

文章目录 一、前言二、快速开始2.1 基本搭建2.2 测试是否成功2.3 其他部分日志测试异步启动 三、SOFABoot的模块化开发3.1 基于Spring上下文的隔离3.2 Root Application Context3.3 模块并行化启动3.4 JVM服务与RPC服务的发布与引用3.5 模块配置Module-NameRequire-ModuleSprin…