X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

news2026/2/15 13:14:58

Title：X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

Code

1. Motivation

CLIP这一类方法只能进行图片级别的视觉和文本对齐；
也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐，但是只能编码目标内部的特征，无法有效表达多目标上下文关联；
本文致力于进行多粒度（objects, regions, and images）的视觉文本对齐预训练任务；

2. 模型结构

在这里插入图片描述

3. 损失函数

3.1 contrastive loss

文本特征和视觉特征之间的相似性定义：

在这里插入图片描述
3. vision-to-text similarity

在这里插入图片描述
4. text-to-vision similarity

5. GT：one-hot

6. cross-entropy loss

在这里插入图片描述

3.2 matching loss

For each visual concept in a mini-batch, we sample an in-batch hard negative text by following $p^{v2t}(V)$ . （与当前视觉特征越接近的文本越可能被采样）
We also sample one hard negative visual concept for each text.
put the pairs as inputs for the fusion module, and then we use xcls, the output [CLS] embedding of the fusion module, to predict the matching probability $p^{match}$ , and the loss is:

3.3 masked language modeling loss (MLM)

在这里插入图片描述

3.4 bbox loss

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1000457.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

WMS仓储-亿发数字化工厂库存管理系统，提升中小企业仓储管理效率

WMS仓储-亿发数字化工厂库存管理系统，提升中小企业仓储管理效率

中小企业竞争日益激烈的市场中，仓库管理的重要性不可低估。为了适应不断变化的业务规模和模式，中小企业对仓库管理提出了更高水平的智能化要求。数字化工厂库存管理系统，正是应运而生，助力企业加强仓库智能作业效率，并…

阅读更多...

CRM销售管理系统如何提高销售效率

CRM销售管理系统如何提高销售效率

CRM销售管理系统是帮助企业对销售活动进行管理、执行和优化的软件系统。它可以帮助企业提高销售效率，提高客户转化率，实现企业的业绩增长。那么，CRM销售管理系统好用吗？ CRM销售管理系统的功能线索管理： CRM系统可…

阅读更多...

金蝶云星空管理中心反序列化RCE漏洞复现附POC

金蝶云星空管理中心反序列化RCE漏洞复现附POC

文章目录金蝶云星空管理中心反序列化RCE漏洞复现0x01 前言0x02 漏洞描述0x03 影响范围0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现4.进行ipconfig命令测试 0x06修复建议金蝶云星空管理中心反序列化RCE漏洞复现 0x01 前言免责声明：请勿利用文…

阅读更多...

iframe 实现跨域，两页面之间的通信

iframe 实现跨域，两页面之间的通信

一、背景一个项目为vue2，一个项目为vue3，两个不同的项目实现iframe嵌入，并实现通信二、方案 iframe跨域时，iframe组件之间常用的通信，主要是H5的possmessage方法三、案例代码父页面-vue2（端口号为…

阅读更多...

日常开发小汇总（5）元素跟随鼠标移动（在视口下移动）

日常开发小汇总（5）元素跟随鼠标移动（在视口下移动）

<div class"mark"><h1>title</h1><div><p>title 鼠标移动盒子整体移动</p><p>test</p><p>Lorem ipsum dolor sit amet, consectetur adipisicing elit. Modi, porro.</p></div></div>cons…

阅读更多...

微信商城小程序开发

微信商城小程序开发

微信小程序商城制作流程详解微信小程序商城的出现为商家提供了一个全新的线上销售平台，让商家能够在微信生态系统中直接向用户展示和销售自己的产品。本文将详细介绍微信小程序商城的制作流程，帮助商家和开发者更好地理解和掌握这一新兴技术。一、注…

阅读更多...

python+chdb 向量检索，百万数据秒级查询

python+chdb 向量检索，百万数据秒级查询

随机生成向量数据集 import numpy as np import pandas as pddata_vectors [(i, np.random.random(300)) for i in range(1000000)] df pd.DataFrame(data_vectors) df.columns [idx, vector] df转化成parquet格式，分批转化，一次会爆炸 import pyar…

阅读更多...

yolov5添加ECA注意力机制

yolov5添加ECA注意力机制

ECA注意力机制简介论文题目：ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 论文地址：here 基本原理 🐸 ECANet的核心思想是提出了一种不降维的局部跨通道交互策略，有效避免了降维对于通道注意…

阅读更多...

HbuilderX uniapp项目转cli项目全过程记录

HbuilderX uniapp项目转cli项目全过程记录

1、按照官网步骤准备环境 (1) 全局安装 vue-cli npm install -g vue/cli (2) 创建uni-app 使用正式版（对应HBuilderX最新正式版 vue create -p dcloudio/uni-preset-vue my-project 使用alpha版（对应HBuilderX最新alpha版 vue create -p dcloudio/un…

阅读更多...

jar包依赖冲突排查思路和解决方法，以及类加载机制排查（系统原因也导致预发布环境和本地环境的差异）

jar包依赖冲突排查思路和解决方法，以及类加载机制排查（系统原因也导致预发布环境和本地环境的差异）

冲突提示信息「java.lang.ClassNotFoundException」：类型转换错误，本应该引入的是 logback 包的类，但是实际引入的是 slf4j 下的同名类，导致类型转换错误。「java.lang.NoSuchMethodError」：找不到特定方法&#x…

阅读更多...

【css】linear-gradient()的用法

【css】linear-gradient()的用法

linear-gradient() CSS函数创建一个由两种或多种颜色沿一条直线进行线性过渡的图像,其结果是<gradient>数据类型的对象,此对象是一种特殊的<image> 数据类型。语法 /* 渐变轴为 45 度，从蓝色渐变到红色 */ linear-gradient(45deg, blue, red);/* 从右…

阅读更多...

Transformer-2. 注意力分数

Transformer-2. 注意力分数

上一节记录了注意力机制的基础，这一节主要做几个实现，沐神说qkv在不同任务中的角色不一，所以后续内容才会搞懂qkv是啥玩意。上节使用了高斯核来对查询和键之间的关系建模。高斯核指数部分可以视为注意力评分函数（attention sco…

阅读更多...

C高级shell脚本

C高级shell脚本

#!/bin/bash function fun() {sum0i0b($*)while [ $i -lt ${#b[*]} ]do((sum ${b[i]}))((i))doneecho $sum }read -p "请输入数组" -a a fun ${a[*]}function fun2() {aid -ubid -gecho $a $b } p(fun2) uid${p[0]} pid${p[1]} echo $uid $pidXMind

阅读更多...

项目上线部署--》网站运行机制

项目上线部署--》网站运行机制

网站运行机制 🌟名词解释域名 DNS 服务器服务器 🌟 网站请求流程静态页面动态页面前后端分离的页面前后端不分离的页面 🌟写在最后 🌟名词解释域名 www.baidu.comwww.taobao.comwww.qq.com 域名俗称网址&#xf…

阅读更多...

远程恋爱网站部署秘籍——群晖虚拟机助ni秀恩爱

远程恋爱网站部署秘籍——群晖虚拟机助ni秀恩爱

文章目录前言1. 安装网页运行环境1.1 安装php1.2 安装webstation 2. 下载网页源码文件2.1 访问网站地址并下载压缩包2.2 解压并上传至群辉NAS 3. 配置webstation3.1 配置网页服务3.2 配置网络门户 4. 局域网访问静态网页配置成功5. 使用cpolar发布静态网页，实现公网…

阅读更多...

基于Python和mysql开发的看图猜成语微信小程序(源码+数据库+程序配置说明书+程序使用说明书)

基于Python和mysql开发的看图猜成语微信小程序(源码+数据库+程序配置说明书+程序使用说明书)

一、项目简介本项目是一套基于Python和mysql开发的看图猜成语微信小程序，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者。包含：项目源码、项目文档、数据库脚本等，该项目附带全部源码可作为毕设使用。项目都…

阅读更多...

C高级第四天

C高级第四天

#!/bin/bash#1.实现一个对数组求和的函数,数组通过实参传递给函数 read -p "输入数组" -a arr sum0 function add() {for i in ${arr[*]}do((sumi))done } add arr echo $sum#2.写一个函数,输出当前用户的uid和gid,并使用变量接收结果 function my_id() {num1id -unu…

阅读更多...

Prometheus-PushGateway自定义监控项

Prometheus-PushGateway自定义监控项

文章目录一、前言二、PushGateway安装三、PushGateway的使用四、PushGateway脚本思路一、前言 pushgateway相比较exporter是主动向服务器发送请求，pushgateway本身也是一个程序，可以运行在任意节点上(不是必须在被监控端)，运行本身没有抓取…

阅读更多...

固态硬盘(Solid State Disk)上的数据丢失了，我们要如何恢复？

固态硬盘(Solid State Disk)上的数据丢失了，我们要如何恢复？

文章目录固态硬盘简介固态硬盘数据恢复立即停止使用SSD从备份恢复数据使用专业数据恢复工具使用数据恢复服务避免DIY尝试如何避免SSD数据丢失推荐阅读固态硬盘简介固态硬盘（Solid State Disk或Solid State Drive，简称SSD），是…

阅读更多...

Ubuntu使用命令行界面配置静态IP地址

Ubuntu使用命令行界面配置静态IP地址

参考地址：https://www.zhihu.com/tardis/sogou/art/46544606 方法一：配置/etc/network/interfaces文件首先查看网卡接口名称：ip a 知道网卡接口名称之后，在 /etc/network/interfaces 文件中配置： auto enp0s31f6 …

阅读更多...

推荐文章

最新文章