多模态速读:ViLT、ALBEF、VLMO、BLIP

news2025/1/9 5:56:38

ViLT : Vision-and-Language Transformer Without Convolution or Region Supervision

  • ViLT : Vision-and-Language Transformer Without Convolution or Region Supervision
    • Introduction
    • Approach
    • 参考
  • ALBEF: Vision and LanguageRepresentation Learning with Momentum Distillation
  • Introduction
    • Approach
    • 参考
  • VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
  • BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

ViLT : Vision-and-Language Transformer Without Convolution or Region Supervision

Introduction

请添加图片描述
把多模态分为三部分,一部分提取图像特征,然后提取文本特征,然后融合二者。在当时多模态领域研究中,最常见的是通过CNN提取特征然后通过目标检测网络提取一些候选框的特征,作者指出这种方法时间很长,提出了ViLT,文本与图像分别只通过一个Linear Embedding(在当时VIT刚发布)就可以达到与前者类似的性能,并且时间大大减少了。

这篇文章的主要贡献是替换了臃肿的目标检测模块,改成了更为轻量的Patch Embedding 模块,验证了可行性,然后首次引入了图像数据增强。

Approach

网络结构如下:
在这里插入图片描述

由于网络在后面研究中有很多模块被替换,就不再过多赘述。

参考

https://arxiv.org/pdf/2102.03334.pdf

ALBEF: Vision and LanguageRepresentation Learning with Momentum Distillation

Introduction

这篇文章与第一篇是同时期的文章,只差了一个月,所以作者认为用目标检测提取候选框的方法提取视觉特征,这种方法不能很好的与文本特征对齐,由于目标检测模型一般为pre-training model,文本输入与图像输入二者之间没有一个端到端对齐的过程。

所以作者提出了一个全新的Loss,可以使二者对齐并且可以去掉目标检测模块。

第二个问题是作者认为从互联网上爬去的图像文本对存在很多噪声,因为用来描述图像的文本,一般对搜索属性很友好,并不能很好的描述图像。

针对这个问题,作者提出了一个momentum model,去给数据打为标签,实现了一个半监督的过程。

根据上述改进,作者提出ALBEF,在VAQA与NLVR数据集上提高了2.3与3.84的表现,并且大大减少了训练时间。

Approach

在这里插入图片描述
ALBEF的image input是一个VIT,text input是Bert的前6层,然后得到图像与文本的特征后,通过二者的cls token 进行ITC loss ,也就是clip的loss,在融合前尽可能让二者相接近。然后把二者的特征送入cross attention 做进一步的模态融合,计算两个loss,一个ITM,就是一个二分类问题,用来衡量图像图文本是否匹配(还从ITCloss中提取hard negative loss用来辅助)。第二个loss就是传统的MLM Loss,也就是Bert loss。

参考

https://arxiv.org/pdf/2107.07651.pdf

VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

提出了新的模型结构:
在这里插入图片描述

与新的训练方式
在这里插入图片描述

  1. 首先训练 视觉文本,只训练V-FFN与backbone,然后训练文本,只训练L-FFN,冻结V-FFN与backbone,然后在模态融合阶段,输入图像文本对,微调所有参数。

参考:https://arxiv.org/pdf/2111.02358.pdf

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

结合以前的工作提出了新的架构:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/506773.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在香港服务器上进行网站迁移?五个主要步骤

​  服务器迁移是将大量关键信息从一台服务器移动到另一台服务器的过程,同时确保新服务器已正确配置以承载这些新信息。对于业务涉及中国大陆、香港及亚太区地区往来的用户,您可能需要将网站迁移到香港服务器上,来更好地发展业务。香港服务…

【c语言】字符串常用函数组件化封装 | 字符串总结

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c语言系列专栏&#xff1a;c语言之路重点知识整合 &#x…

【JavaScript】9.事件

事件 1. 注册事件&#xff08;绑定事件&#xff09; 给元素添加事件&#xff0c;称为注册事件或者绑定事件 1.1 注册事件两种方式 传统注册方式&#xff08;onclick&#xff09; 传统方式注册事件特点&#xff1a; 注册事件的唯一性同一个元素同一个事件只能设置一个处理函数…

离了大谱,公司测试岗却新来了个00后卷王,3个月薪资干到20K.....

最近聊到软件测试的行业内卷&#xff0c;越来越多的转行和大学生进入测试行业。想要获得更好的待遇和机会&#xff0c;不断提升自己的技能栈成了测试老人迫在眉睫的问题。 不论是面试哪个级别的测试工程师&#xff0c;面试官都会问一句“会编程吗&#xff1f;有没有自动化测试…

spring-web HandlerAdapter 源码分析

说明 本文基于 jdk 8, spring-framework 5.2.x 编写。author JellyfishMIX - github / blog.jellyfishmix.comLICENSE GPL-2.0 HandlerAdapter 接口 提供作为处理器适配器的能力。 supports 方法判断是否支持该 handler。 public interface HandlerAdapter {/*** 判断是否…

【跟着陈七一起学C语言】今天总结:初识C语言

友情链接&#xff1a;专栏地址 知识总结顺序参考C Primer Plus&#xff08;第六版&#xff09;和谭浩强老师的C程序设计&#xff08;第五版&#xff09;等&#xff0c;内容以书中为标准&#xff0c;同时参考其它各类书籍以及优质文章&#xff0c;以至减少知识点上的错误&#x…

Ansys Zemax | 设计抬头显示器时要使用哪些工具 – 第二部分

本文为使用OpticStudio工具设计优化HUD抬头显示器系统的第二部分&#xff0c;主要包含演示了如何使用OpticStudio工具设计分析抬头显示器&#xff08;HUD&#xff09;性能&#xff0c;即全视场像差&#xff08;FFA&#xff09;和NSC矢高图。&#xff08;联系我们获取文章附件&a…

RabbitMQ之工作队列 ( Work Queues )

Work Queues 1. 轮询分发消息1.1 抽取工具类1.2 启动两个工作线程1.3 启动一个发送线程1.4 结果展示 2. 消息应答2.1 概念2.2 自动应答2.3 消息应答的方法2.4 Multiple 的解释2.5 消息自动重新入队2.6 消息手动应答代码2.7 手动应答效果演示 3. RabbitMQ 持久化3.1 概念3.2 队列…

逍遥自在学C语言 | 条件控制的正确使用姿势

前言 在C语言中&#xff0c;有三种条件判断结构&#xff1a;if语句、if-else语句和switch语句。 一、人物简介 第一位闪亮登场&#xff0c;有请今后会一直教我们C语言的老师 —— 自在。 第二位上场的是和我们一起学习的小白程序猿 —— 逍遥。 二、if语句 基本语法 if (条…

大厂过来人忠告:学java有没有前途?想转行应该准备什么?

对于想转行学习java来人说&#xff0c;最可怕的问题就是信息闭塞。很多人开始的时候都是因为没能了解清楚情况&#xff0c;找不到学习思路&#xff0c;胡乱下手学习一通其实效果并不好&#xff0c;只是感动了自己&#xff0c;没有太大成效。毕竟时间这么宝贵&#xff0c;你也不…

ThingsBoard教程(四十):规则节点解析 计算增量节点 Calculate delta

本篇文章介绍一个ThingsBoard 规则引擎中的一个节点,Calculate delta Calculate delta 计算增量 该节点可以在规则中获取上一次遥测的值,以此可以实现二次遥测的差。比如一个设备,一天上传一次数据,如果你要对比今天和昨天的数据,并将两者数据差保存到数据库,就能够使用…

三子棋游戏的实现(C语言)

三子棋游戏的实现&#xff0c;在这里我们要求满足&#xff1a; 游戏不退出&#xff0c;继续下一把&#xff08;循环&#xff09;用多文件的形式实现&#xff0c;如下&#xff1a; 用game.h文件存放函数的声明并包含需要的头文件用game.c文件存放各个函数的具体实现用test.c文件…

【Linux】Keepalived+Haproxy实现数据库集群负载均衡

1、简介&#xff1a; 本文章的负载均衡和高可用是体现在两个从服务器上的。一般来说高可用是用在主服务器中的&#xff0c;例如双主多从的结构&#xff0c;双主做keepalived的高可用&#xff08;当然也可以加上haproxy做负载均衡&#xff09;&#xff0c;多从做haproxy的负载均…

微盟餐饮SaaS蜕变时刻:战略投资奥琦玮,领军之势已成

从火爆了整个春天的淄博烧烤&#xff0c;到“五一”人山人海的全国各地核心商圈&#xff0c;餐饮业热度狂飙不止。餐饮SaaS领域&#xff0c;大事件也在发生。 5月8日&#xff0c;微盟集团&#xff08;2013.HK&#xff09;宣布以“资产现金”方式&#xff0c;向餐饮行业数字化服…

前端get请求参数包含数组的情况

前端get请求参数包含数组的情况 问题描述解决办法文章参考 问题描述 当我们使用post传数组参数的时候&#xff0c;是没有问题的&#xff0c;可以不经过参数处理即可正常传参&#xff0c;但是当我们使用get请求传数组参数的时候&#xff0c;会出现下图这样的情况&#xff1a; a…

如何通过云平台加快Blender渲染?

Blender是一款专业自由及开放源代码的三维计算机图形软件&#xff0c;也是免费的开源3D创作套件&#xff0c;支持整个3D流程——建模、UV、贴图、材质、骨骼、动画、渲染、后期、合成、剪辑、跟踪和抠像等等&#xff0c;CG行业内也有不少大佬们通过Blender制作出了许多优秀作品…

代码随想录 LeetCode数组篇 螺旋矩阵II Java实现

文章目录 &#xff08;中等&#xff09;59. 螺旋矩阵II&#xff08;中等&#xff09;54. 螺旋矩阵&#xff08;简单&#xff09;JZ29 顺时针打印矩阵 &#xff08;中等&#xff09;59. 螺旋矩阵II 因为我是先做的JZ29&#xff0c;所以看到这题的时候&#xff0c;几乎就是一样的…

SpringCloud入门实战之项目(一)

一、新建父工程 以“下单”需要调“支付”模块为例&#xff0c;从零开始搭建springcloud-001项目&#xff0c;陆续集成相关组件。 新建服务提供者cloud-payment工程&#xff0c;服务调用者cloud-order工程&#xff0c;完成order对payment的调用。 只留下pom文件&#xff0c;其…

基于人工智能AI视频分析的智慧安监解决方案

方案背景 为了保证对园区环境风险进行有效识别&#xff0c;传统视频监控存在视频结构化利用率低的问题&#xff0c;在实际使用过程中&#xff0c;安全管理人员工作效率低下&#xff0c;依靠人工肉眼查看灵活度低&#xff0c;风险漏报概率高&#xff0c;出现异常情况跟踪不及时&…

中文润色神器-中文润色软件

中文写作润色软件 中文写作润色软件是一种基于自然语言处理技术和人工智能算法的工具&#xff0c;旨在提高中文文本的语言风格、表达能力和可读性。它可以自动检测文本中出现的语法、拼写、标点符号等语言问题&#xff0c;并给出相应的修正和修改建议。 中文写作润色软件的主…