多模态之ViLBERT:双流网络,各自为王

news2024/11/28 16:44:43

通篇读完这个论文,需要解决如下问题:

  1. ViLBERT架构是什么样子的?
  2. ViLBERT预训练任务是什么?
  3. ViLBERT实现细节有哪些?

我之前写了两个多模态基础的文章,没看过的同学可以先看看这两个文章:

分别是 在解决多模态任务的时候需要重点解决的6个问题如何把BERT的两种预训练任务扩展到多模态数据中去

1. ViLBERT架构是什么样子的?

首先我们来聊第一个问题:ViLBERT架构是什么样子的?

直接看图:

img

这个图其实很不错,我简单来概述一下,如下:

首先ViLBERT包含两个并行的流,上面的那个是图片流,下面那个是文本流;

每个流是由一些TRM Blocks和 co-attentional TRM layers【Co-TRM】组成;

需要注意的是TRM Blocks 和Co-TRM 可以是多层的;

这里面最主要的部分其实就是这个Co-TRM;

在那个虚线框中,我们可以看到Co-TRM有两个部分,真正的Co-TRM和后连接的TRM;

首先我们要明确,从图片流前半部分【未交互之前】出来的是一个个图片regions的embeddings;

从文本流前半部分出来的是一个个文本tokens的embeddings;【需要注意的是文本这有一个L-K X的符号,其实代表的就是构建多层的TRM,在本文就是一个BERT-Base】;

知道各自流前半部分出来的是什么之后,就到了重头戏上的Co-TRM这个架构,直接来看论文中的图:

img

其实这个结构很简单,就是在做attention的时候,做一些改动;

在上面这个图片流,我的Q矩阵来自图片信息,但是我的K和V矩阵来自文本信息;

在下面这个文本流,我的Q矩阵来自文本信息,但是我的K和V矩阵来自图片信息;

简单说,就是做了一个在文本条件下的图片的attention和在图片条件下的文本的attention;

也就是在文本和图片之间做了一个信息的交互;

这里需要注意的是,在交互之后,各自走自己独立的TRM结构,而并没有拼接在一起走TRM结构;

我自己在之前的多模态落地讲解文章中有谈到,我的baseline架构和这个很类似,只不过,我是做了双方面的attentinon之后,直接拼接接了任务相关的结构;

2. ViLBERT预训练任务是什么?

然后我们再来看ViLBERT预训练任务是什么?

之前文章谈到,多模态的预训练任务从BERT演化而来,可以分为两类任务:重建任务和匹配任务;

那么在ViLBERT也是这两类;

重建任务就是文本重建和图片重建;

匹配任务是是否匹配;

需要注意的是重建任务构建的时候并么有保持另一个模态数据保持完整;匹配任务是H_cls和H_img相乘接了一个MLP做分类;

也是直接来看图:

img

这么看文本和图片的任务是合在一起训练了,其实从模型架构我们可以看到两个流在最后是各自分支输出的,这点需要注意;

3. ViLBERT实现细节有哪些?

实现细节这里其实可说的没有多,主要是ViLBERT本身的预训练和在四个下游任务进行迁移学习;

在预训练的时候,数据使用的是330万个图像-字幕对;

这个很有意思,相当于是一种无监督的语料,但是怎么处理文本和字母不相关的问题,因为并不是每时每刻都是相关的,想一下电视剧的情景;所以这种数据噪声估计很严重,需要清理;

论文使用的数据来自ACL2018论文搞出来的数据,比较干净一点;

由于担心训练时间,ViLBERT中的BERT这个流使用的是bert-base,后来发现bert-large可能会有更好的表现;

使用FasterRCNN,通过卡阈值的方式来提取图像中的置信度比较高的候选框【10-36个】,使用 mean-pooled convolutional feature 作为这个候选区域的特征向量;

其他的:8个TitanX GPUs / batch size of 512 /10 epochs / Adam optimizer / initial learning rates of 1e-4.

下游任务中的几个任务:Visual Question Answering (VQA);Grounding Referring Expressions;Caption-Based Image Retrieval;‘Zero-shot’ Caption-Based Image Retrieval;

做了两个对比实验:

  1. 第一个是使用了单流的bert-videobert;没怎么改变bert的架构;

这个其实对照到文本相似度这边,其实属于交互式模型,所以这种模型存在的一个问题是没有办法很好的缓存单个文本或者单个图片的embedding,这样在做一些检索任务的时候就非常的不方面;

为啥DSSM 架构这么有名,效果是一方面,速度更加的被大家看重;

  1. 第二个实验是相同的 ViLBERT架构,但是并没有在我们的图像-字幕数据集中进行预训练;

这个实验是为了 看一下 架构和预训练数据的作用,从而来证明,架构是有用的,预训练也是有用的;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1176957.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

工程(十二)Ubuntu20.04LSD_SLAM运行

LSD_SLAM适配于ubuntu20.04修改过程的参考连接如下 Ubuntu20.04配置并运行LSD_SLAM,实测可行_nice-wyh的博客-CSDN博客 【已解决】/lib/x86_64-linux-gnu/libapr-1.so.0: undefined reference to uuid_generateUUID_1.0_Mr.Winter的博客-CSDN博客 博主将修改好的…

Linux进程的优先级

Linux进程的优先级 📟作者主页:慢热的陕西人 🌴专栏链接:Linux 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 本博客主要内容讲解Linux中进程的优先级&#xff0…

用sqlyog远程连接LINUX系统的MYSQL出现错解决方法

文章目录 一、错误显示二、解决方法 一、错误显示 使用sqlyog连接linux数据库显示如下错误,这应该是linux mysql数据库并没有支持远程软件连接数据库 二、解决方法 1、打开终端(Xshell / SecureCRT / 其他) 2、以 root 权限登录 mysql -…

一文搞定新程序员所有下单入口

“请问《新程序员》”该走哪里下单呢? 在日常的办公中,遇到不少用户提出这样的疑问。 目前《新程序员》可以中两个地方下单,一个是 CSDN 商城,另一个是微信小程序。 在 CSDN 公众号推文中,我们会中文章中重点放微信…

10.(vue3.x+vite)组件间通信方式之props与$emit

前端技术社区总目录(订阅之前请先查看该博客) 示例效果 父组件代码 <template><div><div>{{message }}</div><Child

react-app-env.d.ts是什么?

react-app-env.d.ts这个文件是使用CRA脚手架生成react项目时自动生成的&#xff0c;在平时的开发过程中看到这个文件就会感觉很疑惑&#xff0c;出于好奇心&#xff0c;在网上查找资料&#xff0c;得出下文 前置知识 这个是一个类型声明文件 它的内容很短&#xff0c;就一行…

使用Java AOP实现面向切面编程

简介 面向切面编程&#xff08;AOP&#xff09;是一种编程思想&#xff0c;它将程序中的关注点分离&#xff0c;使得开发人员可以专注于核心业务逻辑而不必过多关注横切关注点。Java中的AOP可以通过使用AspectJ等框架来实现&#xff0c;本文将介绍如何使用Java AOP实现切面编程…

DevChat:编程不再孤单,这里有你的小伙伴和导师

DevChat&#xff1a;编程不再孤单 前言定义注册前置使用实测优点 主页传送门&#xff1a;&#x1f4c0; 传送 前言 在当今这个信息爆炸的时代&#xff0c;随着AI技术的日益发展&#xff0c;它与我们的生活的联系已经越来越密切&#xff0c;尤其是对我们程序员来说更是如此。 利…

【性能测试】数据库索引问题定位/分析+ 架构优化+ SQL优化+ 代码优化(详全)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 索引问题定位与分…

UE5——源码阅读——101——渲染——高清截图

获取当前World和时间 世界存在 并准备进行更改的时候 视口是否使用立体渲染 捕获调试画布 设置RenderingTarget 设置主画布&#xff0c;按比例缩放到渲染目标上 拿到引擎的Flag,覆盖函数 为视口设置FSceneViewFamily 每英寸内像素的点数 当前视口是否支持HDR 设置焦点…

Writing an OS in Rust : Allocator Designs 分配器设计与实现

原文地址 为了保证概念的严谨性&#xff0c;翻译时保留了英文原文。 This post explains how to implement heap allocators from scratch. It presents and discusses different allocator designs, including bump allocation, linked list allocation, and fixed-size blo…

JAVA深化篇_34—— 全网最全JAVA多线程总结思维【不看保准后悔,可供下载】

全网最全JAVA多线程总结思维导图奉上&#xff1a;&#xff08;下载后为超高清图&#xff09; 文章上方提供PDF版本&#xff0c;有需要的小伙伴可以自取呦&#xff01;感谢小伙伴支持&#xff01;

浅谈能耗系统在马来西亚连锁餐饮业的应用

1.背景信息 Background 针对连锁餐饮业能耗高且能源管理不合理的问题&#xff0c;利用计算机网络技术、通讯技术、计量控制技术等信息化技术&#xff0c;实现能源资源分类分项计量和能源资源运行监管功能&#xff0c;清晰描述各分店总的用能现状&#xff1b;实时监测各供电回路…

python_寻找N字型下跌

目录 写在前面&#xff1a; 思路拆解&#xff1a; 代码&#xff1a; 验证&#xff1a; 写在前面&#xff1a; 1 由于日线骗线多&#xff0c;本文寻找N字型下跌形态在周线级别操作 2 N字型下跌形态&#xff0c;技术辅助寻找的点&#xff1a; 1&#xff09;左连阴 连阳 …

【加载自定义控制器 Objective-C语言】

一、接下来要做的操作,就比较关键了 1.前面,我们在从UI基础,然后到UI进阶,第一天,然后到目前为止, 所有的应用程序,新建的项目,启动以后,加载的控制器,是不是都是Main.storyboard里面带箭头儿的那个控制器, 然后呢,你也可以通过新建一个storyboard,然后呢,给它…

JavaScript_DOM概述

1、DOM 概述 2、节点 7种节点的类型&#xff1a; 3、节点树 4、Node.nodeType属性 不同节点的nodetype属性值和对应的常量如下&#xff1a;

微服务之Nacos注册管理

文章目录 一、Nacos安装步骤1.安装地址2.安装版本3.目录说明4.端口配置5.启动 二、Nacos服务注册1.Nacos依赖2.客户端修改配置文件3.启动效果图4.总结 三、Nacos服务集群属性1.服务跨集群调用问题2.服务集群属性3.总结 四、Nacos根据集群负载均衡1.修改配置文件2.设置集群服务类…

领跑中国APM市场,博睿数据蝉联第一!

近日&#xff0c;全球领先的IT市场研究和咨询公司IDC发布《中国IT统一运维软件产品市场跟踪报告&#xff0c;2023H1》&#xff0c;报告显示&#xff0c;博睿数据以市场份额20.14%再创新高&#xff0c;蝉联APM市场第一。 2023年上半年&#xff0c;APM市场呈现同比增长的趋势。在…

润和软件HopeStage与奇安信网神终端安全管理系统、可信浏览器完成产品兼容性互认证

近日&#xff0c;江苏润和软件股份有限公司&#xff08;以下简称“润和软件”&#xff09;HopeStage 操作系统与奇安信网神信息技术&#xff08;北京&#xff09;股份有限公司&#xff08;以下简称“奇安信”&#xff09;终端安全管理系统、可信浏览器完成产品兼容性测试。 测试…

win中安装nvm进行Node版本控制

之前有安装node.js安装包的需要先给卸载掉先通过官网下载安装包nvm-setup.zip nvm官网地址命令行打开输入nvm -v&#xff0c;测试安装是否成功 此时如果进行node相关版本安装的话&#xff0c;可能下载速度过慢&#xff0c;此时需要更换镜像源。 斜体样式找到nvm的安装路径 &am…