经典论文解读 — 端到端的VL预训练网络SOHO

经典论文解读 — 端到端的VL预训练网络SOHO

news2025/7/5 15:29:15

来源：投稿作者：摩卡

编辑：学姐

论文标题： Seeing Out of tHe bOx :End-to-End Pre-training for Visual-Language Representation Learning》

Motivation

本文针对目前大量Visual-Language(VL) tasks使用由Faster-RCNN提取出的region features这一问题，提出了使用region features的三个缺点：

使用region features会忽略掉bounding box外的visual context，从而导致模型理解VL错误；
模型理解图像会受限于region features预先定义好的类别(e.g., MSCOCO数据集对bounding box定义了1600个类别)；
由于region features由目标检测模型提取出来的会出现数据质量低，有噪声，过采样等问题。

图1：在VQA任务和图像检索任务中Baseline和本文提出模型的结果对比

Method

由上述原因，本文提出了使用global features的预训练模型SOHO。此外受到语言模型字典的启发，本文提出了visual dictionary的概念，将图像特征进行聚类，每一个类别的每个图像特征都用其聚类中心的特征所代替。

做完这些工作后在其提出的三个预训练任务(Masked Language Modeling, Masked Visual Modeling, Image-Text Matching)上进行训练，每个任务的损失函数都采用同样的权重。

图2：SOHO模型框架

Result

预训练完成后在下游任务上fine-tuning，分别在VQA，Image-Text Retrieval(ITR), Visual Reasoning with Natural Language(NLVR), Visual Entailment上进行验证。

在VQA任务上test-dev达到了73.25，test-std达到了73.47(相比于其基线LXMERT提高了0.83，0.93)，在其他任务上也有不同程度的提高。

表1：SOHO在图像检索任务上的结果(MSCOCO dataset)

表2：SOHO在图像检索任务上的结果(Flickr30K dataset)

表3：SOHO在VQA任务上的结果

表4：SOHO在NLVR任务上的结果

最后

通过对视觉字典中部分 ID 对应的图片内容进行可视化（如图5所示），研究员们发现即使没有强监督的视觉类别标注，SOHO 也可以将具有相似语义的视觉内容聚类到同一个字典项中。

相对于使用基于目标检测的视觉语言模型，SOHO 摆脱了图片框的回归需求，推理时间（inference time）也加快了10倍，在真实场景应用中更加实际和便捷。

图5：Visual Dictionary 部分 ID 对应图片内容的可视化

关注下方《学姐带你玩AI》🚀🚀🚀

回复“500”获取更多经典高分论文

码字不易，欢迎大家点赞评论收藏！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/492395.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

余弦相似度公式推导及代码实现

余弦相似度公式推导及代码实现

余弦相似度公式推导 1. 为什么使用余弦值相似度？2. 公式推导2.1 三角函数余弦公式推导2.2 三角函数向量余弦公式推导 3. 余弦相似度代码实现 1. 为什么使用余弦值相似度？ 空间维度上两个点之间相似定义在空间维度上两个点之间是有夹角和方向&#xff0…

阅读更多...

计算机操作系统实验：页面置换算法的实现

计算机操作系统实验：页面置换算法的实现

目录前言实验目的实验内容实验过程最佳置换算法代码实现算法流程流程图设计思路运行结果先进先出算法代码实现算法流程流程图设计思路运行结果最近最久未使用算法代码实现算法流程流程图设计思路运行结果总结前言本实验的目的是通过编程模拟不同的页面置换算法&#xff…

阅读更多...

基于思科模拟器的路由与交换实训报告（单臂路由、三层交换机实现vlan通信、ospf、rip、dhcp、acl、nat技术总结）

基于思科模拟器的路由与交换实训报告（单臂路由、三层交换机实现vlan通信、ospf、rip、dhcp、acl、nat技术总结）

本博客是路由与交换实训报告，基于思科模拟器分别做了单臂路由、三层交换机实现vlan间通信、ospf、rip、dhcp、nat的实验，最后的nat综合实验是本次实训的大拓扑，综合了上述的几个技术。大家可以当作一些思科小实验的总结，供网络工…

阅读更多...

数据库管理-第七十二期复盘（20230505）

数据库管理-第七十二期复盘（20230505）

数据库管理 2023-05-05 第七十二期复盘1 再测试2 对照分析： 3 如何解决总结第七十二期复盘上一期的内容，我承认主要是在放假，分析过程还是水了一点，SR转回国内之后，处理效率还是提升了一大截。 1 再测试在客户…

阅读更多...

Linux - 第11节 - 网络基础(一)

Linux - 第11节 - 网络基础(一)

1.计算机网络背景 1.1.网络发展独立模式：计算机之间相互独立在早期的时候，计算机之间是相互独立的，此时如果多个计算机要协同完成某种业务，那么就只能等一台计算机处理完后再将数据传递给下一台计算机，然后下一台计…

阅读更多...

Python进阶——实现人脸识别

Python进阶——实现人脸识别

前言嗨喽，大家好呀~这里是爱看美女的茜茜呐今天我们来实现一下人脸识别~ 先问大家一个问题什么是百度Aip模块？ 百度AI平台提供了很多的API接口供开发者快速的调用运用在项目中本文写的是使用百度AI的在线接口SDK模块（baidu-aip&#…

阅读更多...

单链表——单链表的定义及基本操作（初始化、头插法尾插法建表、查找、插入、删除、判空等）

单链表——单链表的定义及基本操作（初始化、头插法尾插法建表、查找、插入、删除、判空等）

单链表的定义由于顺序表存在以下缺陷，所以衍生出了链表，而链表种类有很多种，今天我们讲的是单链表。顺序表存在的问题如下 1.中间/头部的插入删除，时间复杂度为O(N) 2. 增容需要申请新空间，拷贝数据，释…

阅读更多...

CPU 架构（x86/ARM）简介

CPU 架构（x86/ARM）简介

CPU 架构通过指令集的方式一般可分为复杂指令集（CISC） 和精简指令集（RISC） 两类，CISC 主要是 x86 架构，RISC 主要是 ARM 架构，还有 MIPS、RISC-V、PowerPC 等架构。本文重点介绍 x86 和 ARM…

阅读更多...

idea中maven的几个操作按钮：clean、validate、compile...

idea中maven的几个操作按钮：clean、validate、compile...

idea中Maven生命周期指令 clean命令清除由项目编译创建的target validate命令验证项目是否正确，并且所有必要的信息均可用 compile命令编译项目的源代码 test命令使用合适的单元测试框架来测试编译的源代码。这些测试不应要求将代码打包或部署 verify命令 …

阅读更多...

智安网络|一文看懂内核平台和系统服务的联系

智安网络|一文看懂内核平台和系统服务的联系

内核平台和系统服务是操作系统中两个非常重要的组成部分。内核平台是系统底层的核心，负责管理和控制计算机硬件和资源的访问。而系统服务则是在内核之上运行的程序集合，为操作系统提供各种功能和服务。内核平台和系统服务的关联非常密切。系统服务必须…

阅读更多...

Emqx的简单使用

Emqx的简单使用

Emqx 是一个mqtt 的服务器产品。之前activemq可以作为mqtt协议的服务器，但是功能相对来说比较单一。Emqx作为跟Mqtt协议相关的新一代产品，功能实际上更为强大。它的功能也主要体现在可视化/认证/规则/httpApi 上面。 1.Emqx 的安装这里采用了docker…

阅读更多...

JMeter 计算上一个接口取值到本次接口进行四则运算赋值

JMeter 计算上一个接口取值到本次接口进行四则运算赋值

项目场景： 公司项目需要接口关联计算进行赋值： 项目场景：A接口提取的返回值，在传到B接口使用时，需要先进行四则运算后，再赋值使用。 A接口提取的值 B接口需要使用计算后的值问题描述使用beanshell预…

阅读更多...

必须掌握的ArrayList,LinkedList,HashMap,HashTable,Collection,Colections

必须掌握的ArrayList,LinkedList,HashMap,HashTable,Collection,Colections

人的自由并不在于可以做他想做的事，而在于可以不做他不想做的事。 ArrayList和linkedList的区别 Array数组是基于索引（index）的数据结构，它使用索引在数组中搜索和读取数据是很快的 Array获取数据的时间复杂度是o(1)&#xff…

阅读更多...

南卡OE系列再添新成员，造型犀利有型，性能强劲动听！

南卡OE系列再添新成员，造型犀利有型，性能强劲动听！

科技的快速发展让消费者对智能互联、操作体验、设计审美、安全健康等需求越发高涨，蓝牙耳机也正在由功能性向舒适性方向发展。如何提高蓝牙耳机的舒适度、拥有更舒适的听歌体验，成为蓝牙耳机品牌和消费者共同努力的方向。 Nank南卡：更专业的骨…

阅读更多...

【Linux】单机版QQ之管道中的命名管道

【Linux】单机版QQ之管道中的命名管道

还记得上一篇的匿名管道吗？ 文章目录前言一、命名管道总结前言命名管道是什么呢？ 管道应用的一个限制就是只能在具有共同祖先（具有亲缘关系）的进程间通信。如果我们想在不相关的进程之间交换数据，可以使用FIFO文…

阅读更多...

一百零七、MySQL数据库的数据备份与数据恢复

一百零七、MySQL数据库的数据备份与数据恢复

MySQL数据库的数据备份与恢复主要有3种方法，前两种都是MySQL dump命令，第三种则是用Navicat工具直接备份。相比而言，第三种方法更加简单！ 1 方法一（MySQL dump命令） 1.1 登录MySQL [roothurys22 ~]# mysq…

阅读更多...

Maya云渲染如何使用，Maya云渲染流程实操！

Maya云渲染如何使用，Maya云渲染流程实操！

Maya 是一款专业的 3D 软件，用于创建逼真的角色和大片的效果，Maya可以加速工作流程，帮助您专注于创造力并按时完成任务。也可以为角色和场景添加精美的细节，并提供让客户满意的优质作品。更有无数业内顶级艺术家依靠 Maya来创作更…

阅读更多...

【Halcon】新建程序读取图片路径设置

【Halcon】新建程序读取图片路径设置

文章目录 1 新建程序2 读取一张图片3 图片路径4 图片格式读取报错5 快速添加绝对路径 1 新建程序点击新程序图标，即可新建； 程序另存为，会弹出保存路径 2 读取一张图片 read_image(Image,fabrik)此时工程路径下并没有图片； …

阅读更多...

SpringBoot2 集成 ELK 实现日志收集

SpringBoot2 集成 ELK 实现日志收集

目录一简介二 ELK 各组件作用三 ELK 各组件安装四 Spring Boot2 集成 logstash 一简介 ELK 即 Elasticsearch、Logstash、Kibana 组合起来可以搭建线上日志系统，本文主要讲解使用ELK 来收集 SpringBoot2 应用产生的日志。二 ELK 各组件作用 Elasticsea…

阅读更多...

基于FPGA和Matlab实现的FFT功能验证

基于FPGA和Matlab实现的FFT功能验证

一、FFT设计验证思路 1、基于Matlab与FPGA的混频sin信号的FFT验证，分别在Matlab和FPGA开发环境上实现相同的FFT功能设计。 2、Matlab平台开发，使用自带的fft函数与相关操作函数，绘制出混频sin信号，经过fft功能处理后的频谱图。 3…

阅读更多...

推荐文章

最新文章