GLIP，FLIP论文阅读

GLIP，FLIP论文阅读

news2026/2/13 2:31:06

Scaling Language-Image Pre-training via Masking（FLIP，2023）👍

请添加图片描述

贡献：

1.图像端引入MAE的随机MASK，image encoder只处理未mask的patches（和之前的MAE方法一致），减少了输入序列长度加速训练，减少memory开销。

text端没引入mask是因为text信息比较dense（图片信息比较稀疏），mask掉效果反而不好，之后是选择mask掉text
padding的地方提升了精度。

2.做了三个方面的scale：说明model和data的scale还是很重要的，不同数据集相同大小也会对模型造成影响

model scaling：vit变大，效果很直观的好
data scaling：将预训练数据集从LAION-400M扩展到更大的数据集LAION-2B（固定训练过程采样的样本总量）
schedule scaling：增加训练过程的采样数据量（从12.8B->25.6B，即训练epochs从32增加至64）

请添加图片描述
下图绿色划线：增大VIT有利于transfer learning，增加数据量有利于做zero shot

模型

请添加图片描述

Ablation study

请添加图片描述

（a）我觉得可能提升的一个因素是bz大了，负样本也多了，效果好，作者不做相同bz的实验
（d）说明了减少mask率微调几个epoch有有助于提升精度

GLIP：Grounded Language-Image Pre-training（2022）👍

模型：

请添加图片描述

Language-Aware Deep Fusion：

1.image encoder 和 text encoder 抽取图像和文本的特征
请添加图片描述
2.对抽取的特征进行cross attention ，获得更好的交互后的特征：

X-MHA：cross-modality multi-head attention module，类似cross attention，qk算attn，各自的v分别算一次

请添加图片描述
上图（B）是在（A）的基础上添加了deep fusion，涨点还是很明显的，增加数据量涨点也很明显

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1125784.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

5年经验之谈 —— 手把手教你接口性能测试之JMeter性能测试篇！

5年经验之谈 —— 手把手教你接口性能测试之JMeter性能测试篇！

本文是我们《手把手教你接口性能测试》系列文章中的完结篇，介绍如何使用JMeter工具进行接口测试和并发测试。一、Jmeter 简介 Jmeter是由Apache公司开发的一个纯Java开源项目，即可以用于做接口测试也可以用于做性能测试，具备高移植性和扩展…

阅读更多...

QUIC协议包头保护(四)

QUIC协议包头保护(四)

一：为什么要有包头保护学过HTTP和HTTPS都知道，随着网络的普及，人们对于信息的保护，个人的隐私越发的重视。信息加密对于未来协议的发展肯定是越来越趋于严格。QUIC作为新生代的协议，必然要站着前辈的肩膀上发展&#…

阅读更多...

基于Python实现的复制、移动、离线化你的 Markdown 文档，清理 Markdown 引用路径中的垃圾文件

基于Python实现的复制、移动、离线化你的 Markdown 文档，清理 Markdown 引用路径中的垃圾文件

Markdown 工具箱完整代码下载地址： Markdown 工具箱 🚩 简介 Markdown 工具箱，是我为 Markdown 笔记管理做的一个工具集。目前有以下几个功能： 复制批量将 md 笔记（连带它的相对路径引用的图片、附件）…

阅读更多...

c#中使用stringbuilder的Append方法写sql语句

c#中使用stringbuilder的Append方法写sql语句

c#中使用stringbuilder的Append方法写sql语句 c#中使用stringbuilder的Append方法写sql语句_c#strsql.append_安静点DGC的博客-CSDN博客https://blog.csdn.net/qq_26925297/article/details/81586884 特此记录 anlog 2023年8月8日

阅读更多...

PMP考试中有哪些疑点、难点？

PMP考试中有哪些疑点、难点？

目前PMP考试的内容只有最后5个月是按照旧考纲，后面的考试基本上都是按照新考纲进行。因此，备考的朋友们需要学习很多新的知识点和敏捷学习方法。所以现在是给今年想要备考的朋友们提供学习建议的时候了。 01、新版考纲将主要关注以下三个新领域&#xf…

阅读更多...

一、XSS加解密编码解码工具

一、XSS加解密编码解码工具

一、XSS加解密编码解码工具解释：使用大佬开发的工具，地址：https://github.com/Leon406/ToolsFx/blob/dev/README-zh.md 在线下载地址： https://leon.lanzoui.com/b0d9av2kb(提取码：52pj)（建议下载jdk8-w…

阅读更多...

每天一道算法题——动态规划

每天一道算法题——动态规划

找到工作就不更新了~ 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢？ 注意：给定 n 是一个正整数。示例 1： 输入： 2 输出： 2 解释： …

阅读更多...

博客系统自动化测试

博客系统自动化测试

1、博客列表页面测试测试内容测试代码： TestMethodOrder(MethodOrderer.OrderAnnotation.class) public class BlogListTest extends Autotest{public static ChromeDriver driver createDriver();// 准备工作TestBeforeAllstatic void ready() {driver.get(&q…

阅读更多...

适用于 Mac 电脑的 10 款最佳数据恢复工具集

适用于 Mac 电脑的 10 款最佳数据恢复工具集

无论是个人照片还是重要的商业文档，对于那些依赖计算机获取重要文件的人来说，数据丢失都是一场噩梦。值得庆幸的是，Mac用户可以使用各种数据恢复工具，可以帮助您恢复丢失或意外删除的文件。在本文中，我们将采用适用于…

阅读更多...

RAM（recognize anything）—— 论文详解

RAM（recognize anything）—— 论文详解

一、概述 1、是什么 RAM 论文全称 Recognize Anything: A Strong Image Tagging Model。区别于图像领域常见的分类、检测、分割，他是标记任务——即多标签分类任务（一张图片命中一个类别），区分于分类（一张图片命中一个…

阅读更多...

Unity Meta Quest 一体机开发：前期准备和环境配置（2023 版，Oculus Integration v57）

Unity Meta Quest 一体机开发：前期准备和环境配置（2023 版，Oculus Integration v57）

文章目录 📕教程说明📕思维导图概括📕开发者模式📕可下载的软件⭐Oculus 电脑客户端⭐SideQuest⭐Meta Quest Developer Hub⭐Unity Hub 📕安装 Unity 时需要添加的模块📕设置 Unity 的 Build Settings…

阅读更多...

构建高性能应用的利器：Nginx反向代理及配置详解

构建高性能应用的利器：Nginx反向代理及配置详解

一、Nginx概念解读对于新事物的理解，最好的方式就是从概念入手，本文作为《Nginx专题》系列文章的第一篇，先从Nginx的名称开始来分解这个神秘的引擎。 Nginx，是engine X的缩写，发音也是engine x，2004年由…

阅读更多...

安装dai li

安装dai li

https://xn–6nq44r2uh9rhj7f.com/#/knowledge 先gomai订阅， 在打开使用文档

阅读更多...

【大数据】Kafka 实战教程（二）

【大数据】Kafka 实战教程（二）

Kafka 实战教程（二） 1.下载2.安装3.配置4.运行4.1 启动 Zookeeper4.2 启动 Kafka 5.第一个消息5.1 创建一个 Topic5.2 创建一个消息消费者5.3 创建一个消息生产者 1.下载你可以在 Kafka 官网：http://kafka.apache.org/downloads&#xff0c…

阅读更多...

绝对不可错过的6个搜索引擎网站，超级值得收藏

绝对不可错过的6个搜索引擎网站，超级值得收藏

https://www.gobaidugle.com/ 一个全能的搜索引擎网站，支持设置多种搜索模式，可以根据需求选择双搜、三搜、单搜等方式。如果是双搜的话你可以看到多种搜索结果，能够一键搜索到自己需要的内容，非常简单快捷。 2、懒盘搜索 htt…

阅读更多...

物联网AI MicroPython传感器学习之 GC7219点阵屏驱动模块

物联网AI MicroPython传感器学习之 GC7219点阵屏驱动模块

学物联网，来万物简单IoT物联网！！ 一、产品简介 LED-8 * 32点阵屏显示板由 4 块单色 8x8 共阴红色点阵单元组成，通过 SPI 菊花链模式将多块显示屏连接后可以组成更大的分辨率显示屏幕，任意组合分辨率。可用于简单仪表显…

阅读更多...

义乌再次位列第一档！2022年跨境电商综试区评估结果揭晓！

义乌再次位列第一档！2022年跨境电商综试区评估结果揭晓！

义乌跨境电商综试区捷报频传，在商务部公布的“2022年跨境电子商务综合试验区评估”结果中，中国（义乌）跨境电子商务综合试验区（以下简称：“跨境综试区”）评估结果为成效明显，综合排名…

阅读更多...

Qt扫盲-QImage 理论总结

Qt扫盲-QImage 理论总结

QImage 理论总结一、概述二、读写图像文件三、图像信息四、像素操作1. 32位2. 8位五、图像格式六、图像转换一、概述 QImage类提供了一个独立于硬件的图像表示，允许直接访问像素数据，并且可以用作绘画设备。Qt提供了四个类来处理图像数据&#xff1a…

阅读更多...

volatile-可见性案例详解

volatile-可见性案例详解

6.3 volatile特性 6.3.1 保证可见性保证不同线程对某个变量完成操作后结果及时可见，即该共享变量一旦改变所有线程立即可见不加volatile，没有可见性，程序无法停止加了volatile，保证可见性，程序可以停止 public…

阅读更多...

爱创科技携手洽洽食品，探索渠道数字化最优解！

爱创科技携手洽洽食品，探索渠道数字化最优解！

坚果的下半场，是从吃到喝。消费升级大潮下，健康养生理念逐渐深入人心。以“天然健康”为核心的食品新消费潮流正加速形成，一个个打着“美味与营养”黄金设定的品类风口正被不断创建，其中人气有增无减的当属植物基饮品。据相关报告…

阅读更多...

推荐文章

最新文章