论文阅读——BLIP

news2024/11/19 6:21:11

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

(1)单模态编码器,它分别对图像和文本进行编码。图像编码器用ViT,并使用附加的 [CLS] 标记来表示全局图像特征。文本编码器与 BERT 相同(Devlin et al., 2019),其中 [CLS] 标记附加到文本输入的开头以总结句子。

(2)基于图像的文本编码器,通过在文本编码器的每个变换器块的自注意(SA)层和前馈网络(FFN)之间插入一个额外的交叉注意(CA)层来注入视觉信息。特定于任务的 [Encode] 标记被附加到文本中,并且 [Encode] 的输出嵌入用作图像-文本对的多模态表示。

(3)基于图像的文本解码器,用因果自注意力层替换基于图像的文本编码器中的双向自注意力层 [Decode] 标记用于表示序列的开始,序列结束标记用于表示序列的结束。

三个损失:

Image-Text Contrastive Loss (ITC)

Image-Text Matching Loss (ITM):

        图像文本匹配损失(ITM)激活图像文本编码器。它的目的是学习图像文本多模态表示,捕获视觉和语言之间的细粒度对齐。 ITM 是一项二元分类任务,其中模型使用 ITM 头(线性层)来预测图像文本对在给定多模态特征的情况下是正(匹配)还是负(不匹配)。

Language Modeling Loss (LM):

        语言建模损失(LM)激活基于图像的文本解码器,其目的是根据给定的图像生成文本描述。它优化了交叉熵损失,训练模型以自回归方式最大化文本的可能性。在计算损失时,我们应用 0.1 的标签平滑。与 VLP 中广泛使用的 MLM 损失相比,LM 使模型具有泛化能力,可以将视觉信息转换为连贯的字幕。

CapFilt:处理网络图像文本对数据大量噪声

我们提出了字幕和过滤(CapFilt),这是一种提高文本语料库质量的新方法。图 3 给出了 CapFilt 的图示。它引入了两个模块:一个用于在给定网络图像的情况下生成字幕的字幕生成器,以及一个用于消除噪声图像文本对的过滤器。字幕生成器和过滤器都是从相同的预训练 MED 模型初始化的,并在 COCO 数据集上单独进行微调。微调是一个轻量级的过程。具体来说,字幕生成器是一个基于图像的文本解码器。它通过 LM 目标进行微调,以解码给定图像的文本。

给定网络图像 Iw,字幕生成器生成合成字幕 Ts,每个图像一个字幕。该过滤器是一个基于图像的文本编码器。它根据 ITC 和 ITM 目标进行了微调,以了解文本是否与图像匹配。该过滤器会去除原始网络文本 Tw 和合成文本 Ts 中的噪声文本,其中如果 ITM 头预测文本与图像不匹配,则文本被认为是噪声文本。最后,我们将过滤后的图像文本对与人工注释对结合起来形成一个新的数据集,我们用它来预训练新模型。

实验:

模型在 PyTorch 中实现,并在两个 16-GPU 节点上进行预训练。图像转换器是从 ImageNet 上预训练的 ViT 初始化的,文本转换器是从 BERTbase 初始化的。

使用 AdamW (Loshchilov & Hutter, 2017) 优化器,权重衰减为 0.05。学习率预热至 3e-4 (ViT-B) / 2e-4 (ViT-L),并以 0.85 的速率线性衰减。我们在预训练期间随机采集分辨率为 224 × 224 的图像,并在微调期间将图像分辨率提高到 384 × 384。我们使用预训练数据集总共 1400 万张图像,包括两个人工注释数据集(COCO 和 Visual Genome )和三个网络数据集(Conceptual Captions 、Conceptual 12M),SBU captions)。我们还尝试了另一个网络数据集 LAION,其中包含 1.15 亿张图像,其中文本噪声较多1。

 CapFilt 可以通过更大的数据集和更大的视觉主干进一步提高性能,这验证了其在数据大小和模型大小方面的可扩展性。

   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1525596.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【题目】【网络系统管理】2022年甘肃省职业院校技能大赛-网络构建-试卷

极安云科专注职业教育技能竞赛培训4年,包含信息安全管理与评估、网络系统管理、网络搭建等多个赛项及各大CTF模块培训学习服务。本团队基于赛项知识点,提供完整全面的系统性理论教学与技能培训,成立至今持续优化教学资源与讲师结构&#xff0…

s2fft库介绍:可微分和加速球谐变换

一、说明 科学和工程的许多领域都会遇到在球体上定义的数据。对此类数据进行建模和分析通常需要傅里叶变换的球面对应物,即球面谐波变换。我们简要概述了球谐变换,并提出了一种新的可微分算法,该算法专为GPU上的加速而定制[1]。该算法在最近发…

basic_string.h不同版本引起的异常崩溃

程序运行时报错,查看core文件,发现basic_string.h报错 经过排查发现 编译文件CMakeLists中设置了_GLIBCXX_USE_CXX11_ABI 0 _GLIBCXX_USE_CXX11_ABI 是C中的编译宏, 用来控制string及list使用的版本。 该宏仅在GCC5.1及后续版本中有效。 s…

说说JVM的垃圾回收机制

简介 垃圾回收机制英文为Garbage Collection, 所以我们常常称之为GC。那么为什么我们需要垃圾回收机制呢?如果大家有了解过Java虚拟机运行时区域的组成(JVM运行时存在,本地方法栈,虚拟机方法栈,程序计数器,堆&#xf…

第六节:使用SMB开发WebService

一、概述 webservice在日常开发中是常用的接口形式,SMB在设计之初就将webservice作为重要的代理协议。在组件库中提供了webservice input和webservice output两个组件,分别用于发布接口和调用接口。 二、发布webservice 在csdnProject工程中创建名为c…

C语言易错知识点:scanf函数

scanf在C语言学习中比较常用,但因为其涉及屏幕缓冲区导致有的时候会调入陷阱,下面分享一下常见的需要注意的事项: 1.输入末尾带有回车\n 当我们输入数据后,最后按下回车时,屏幕缓冲区的末尾都会含有这个字符 scanf的…

综合知识篇08-数据库系统考点(2024年软考高级系统架构设计师冲刺知识点总结系列文章)

专栏系列文章: 2024高级系统架构设计师备考资料(高频考点&真题&经验)https://blog.csdn.net/seeker1994/category_12593400.html案例分析篇00-【历年案例分析真题考点汇总】与【专栏文章案例分析高频考点目录】(2024年软考高级系统架构设计师冲刺知识点总结-案例…

【工具推荐】tmux 终端与会话分离神器 | 再也不用担心训练到一半不小心关闭终端导致训练终止了

文章目录 [toc] 0 什么是终端?什么是会话?1 tmux的安装2 tmux的基本操作2.1 启动与退出(杀死tmux)2.2 分离会话2.3 重接会话2.4 当前已有的会话查看2.5 切换会话 0 什么是终端?什么是会话? tmux是一个 ter…

每个私域运营者都必须掌握的 5 大关键流量运营核心打法!

很多人觉得私域运营比较简单,只是运营的事情,但事实并非如此,私域运营体系非常大,包含了公私域联动、品牌运营、品类战略,它是一个自上而下,由内到外的系统化工程。 很多人天天在想着如何引流拓客&#xf…

人民币跨境支付系统CIPS应用架构设计

人民币跨境支付系统(Cross-border Interbank Payment System,简称CIPS)作为中国重要的金 融市场基础设施之一,为境内外机构提供人民币跨境支付清算服务及其他相关服务。随着CIPS网络延伸 和规模扩大,为保障公司核心竞争…

每日一题——LeetCode1694.重新格式化电话号码

方法一 模拟: 首先去除number里面的破折号和空格,取出纯数字组成的字符串str。 对于str每三个数分成一组,加一个破折号,当str的长度小于等于4时再分情况讨论,如果等于4就分为22形式,如果小于4&#xff0c…

网络编程--高并发服务器

这里写目录标题 引入场景 多进程并发服务器二级目录二级目录二级目录 多线程并发服务器二级目录二级目录二级目录 多路IO转接服务器设计思路对比引入 select函数简介参数介绍第一个参数第234参数返回值对于第234参数的应用对于最后一个参数总结 附加操作(附加四个函…

一招搞定:教你用苹果手机截取滚屏网页

打开Safari浏览器,进入需要截取的网页。 点击屏幕底部的分享按钮,即中间有一个向上箭头的矩形图标。 在弹出的分享菜单中,向左滑动找到“截屏”选项,点击后选择“整页”。 系统会自动将网页保存为PDF文件,并自动打开…

【Redis知识点总结】(五)——Redis实现分布式锁

Redis知识点总结(五)——Redis实现分布式锁 setnxsetnx expiresetnx expire lua脚本set nx exset nx ex 随机值set nx ex 随机值 lua脚本set ex nx 随机值 lua脚本 锁续期RedissonRedLock 在Redis的众多应用场景中,分布式锁是Redis比…

Ypay源支付2.8.8免授权聚合免签系统

本帖最后由 renleixiaoxu 于 2024-3-15 09:46 编辑 产品介绍 XPay是专为个人站长打造的聚合免签系统,拥有卓越的性能和丰富的功能。采用全新轻量化的界面UI,让您可以更加方便快捷地解决 知识付费和运营赞助的难题。同时,它基于高性能的Thin…

算法练习:前缀和

目录 1. 一维前缀和2. 二维前缀和3. 寻找数组中心下标4. 除自身以外数组的乘积5. !和为k的子数字6. !和可被k整除的子数组7. !连续数组8. 矩阵区域和 1. 一维前缀和 题目信息: 题目链接: 一维前缀和思路:求前缀和数组,sum dp[r] …

预应力锚杆测力计安装埋设

锚杆测力计用于观测预应力锚杆预应力的形成与变化。当前,预应力锚杆广泛地应用于岩土工程的锚固结构中,通过安装测力计观测锚杆,可以了解锚固力的形成与变化,从而保证监测工程的质量与安全。测力计的安装包括安装测力计和观测锚杆…

【LeetCode热题100】 226. 翻转二叉树(二叉树)

一.题目要求 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 二.题目难度 简单 三.输入样例 示例 1: 输入:root [4,2,7,1,3,6,9] 输出:[4,7,2,9,6,3,1] 示例 2: 输入:…

餐饮店引流活动方案与最佳营销方案揭秘

想开实体店或正在创业的朋友们,大家好!我是一名资深的实体店创业者,本人经营鲜奶吧5年时间,做的是社区店,今天我将分享一些餐饮店引流活动和营销方案的干货,希望能给大家带来一些启发和帮助。 一、引流活动…

【人工智能】英文学习材料02(每日一句)

🌻个人主页:相洋同学 🥇学习在于行动、总结和坚持,共勉! 目录 Supervised Learning(监督学习) Unsupervised Learning(无监督学习 ) Semi-supervised Learning&#…