多模态论文串讲(bryanyzhu老师)记录

news2025/1/18 16:53:35

文章目录

  • 回顾ViLT和CLIP
  • 序言
  • ALBEF
    • 摘要
    • 方法
    • 实验
  • VLMo
    • 引言
    • 方法
    • 实验
  • BLIP
    • 引言
    • 实验
  • CoCa
  • BeiTv3
    • 摘要
    • 方法
    • 实验
  • 总结

传统的多模态:
检索, 视觉问答(闭集,分类,开集,生成), 视觉推理(判断文本能否描述图像), 视觉蕴含(给定假设能否推理出前提)

新颖的多模态:
language-guided detection, language-guided segmentation, text2img generation

只用Transformer Encoder的一些方法:
CLIP, ViLT, ALBEF, VLMo

同时使用Transformer Encoder和Decoder的一些方法:
BLIP, CoCa, BEIT v3, PaLI

截止时间为2022年12月12日.

回顾ViLT和CLIP

请添加图片描述

ViLT的研究动机是给视觉编码器减负.

a. VSE等, 视觉端庞大, 简单的模态交互;
b. CLIP等;
c. OSCAR, UNITER等, 复杂的模态交互(意识到模态交互的重要性);
d. ViLT等;

Textual Embedding : Tokenizer;
Visual Embedding : Patch Embedding;
Modality Interaction : 借鉴c类VLM.

缺陷: 性能比不过c类的方法. 训练复杂度较高.

序言

好的多模态模型是什么样的?

  1. 更大更强的视觉模型;
  2. 好的模态融合模型;

即c类模型.

那么目前的有哪些训练目标呢?

  1. Image Text Contrastive;
  2. Mask Language Modeling;
  3. Image Text Matching;
  4. WPA Loss(目标检测).

ALBEF

请添加图片描述

  1. 图像编码器大(12>6);
  2. 融合模块大(6);

符合先前工作的一些总结.

摘要

第一个贡献为: Align before Fuse
目标检测器得到的视觉特征和文本特征难以对齐(ViLT也抵制, 但是出发点是加快推理速度), 因为目标检测器提前训练好, 没有进行End2End的训练.

那么如何在MultiModal之前, 让图文特征对齐? 即提前用CLIPLoss对齐图文编码.

第二个贡献为: Momentum Distillation.
采用了MoCo提出的Momentum Encoder的形式, 提出了Momentum Model, 构建伪标签以达到自训练的结果, 目的是为了对抗噪声样本(Noisy Web Data).

通过互信息最大化的角度对ALBEF做理论分析, ITM MLM ITC最终的作用都是为同一个图像文本对提供不同的视角, 变相的在做一种data augmentation, 即语义匹配的图像文本对应该被认为是一对.

八卡机, 4m数据, 训练四天.

方法

Vision Transformer采用DEiT在Image-1k上训练出来的参数初始化. 文本模型采用BertModel. 为了控制计算复杂度, 最优配比, 模态融合, 将BertModel劈开, 另一半用作模态融合.

ITC: 取出图文编码器的cls token, 映射为256维度. 负样本储存在一个队列中.

ITM: 二分类, 加FC层. 过于容易, 于是在选取负样本的同时设置约束.

MLM: 在计算ITC和ITM Loss的时候都是原始的I和T, 在计算MLM时则是mask的T. 因此, ALBEF进行了两次前向过程.

Momentum Distillation: Noisy Data会带来一些偏差(负样本的文本包含图像中的一些描述, 甚至比正样本还要好, 这对ITC有很强的负面影响, MLM同理, 会有一些更好的词适合完形填空. 采用one-hot的形式一味地惩罚负样本对, 这对ITC和MLM不是很友好, 所以构建一个多类标签是自然而然的).

本文希望既能学到one-hot label的知识, 也能够学到pseudo targets的知识(当one-hot的知识不准确时), 于是选取相加的形式.

这一思想应用在ITC和MLM中. ITM是一个二分类任务, 且设计了特殊的负样本选取方式, 这是与动量蒸馏冲突的, 因此不采用.

请添加图片描述
上图展示了pseudo targets的效果.

数据集:

  1. CC3M, SBU, COCO, VG (CC3M和SBU已经丢失了近百万的数据) 图像有4M, 图文对有5.1M.
  2. CC12M, , SBU, COCO, VG 14M.

实验

四个标准实验 + VisualGrounding

请添加图片描述

  1. 增加ITC后提升巨大;
  2. Hard Negtive较为有效;
  3. Momentum Distillation有效但提升不大;
  4. 数据量的增加是有效的.

VLMo

  1. 模型结构的改进;
  2. 训练方式的改进.

引言

研究动机1: 目前多模态的领域有两种结构, 第一种是双塔结构(CLIP, ALIGN), 融合模块简单, 做检索时可预先抽取特征再做简单推理, 十分高效, 但是融合方式简单, 无法做到较好的对齐(VQA, NLVR). 第二种是单塔结构, 弥补了双塔的缺陷, 但是检索时要把所有可能的图文对进行推理. 综上所述, 简单任务, 有速率要求选双塔, 难任务, 选单塔. 因此, 本文想提出一种可选的结构.

VLMo的训练目标和ALBEF保持一致.

VLMo发表时LAION还没出现, 且CLIP的WIT并没有公布, 所以苦于多模态数据较少. 本文提出先在各自模态的数据上预训练, 对图文编码器有很好的初始化参数.

方法

请添加图片描述

针对不同的模态, 有不同的FFN. 在block中, MHSA是共享的.

自由选择用哪个modality expert, 自由选择模式.

VLMo的训练代价很大, 64张V100也要训练两天.

请添加图片描述
视觉上训练后, 在文本上冻住, 只微调L-FFN, 效果不错.

进行多模态融合时, 全部打开.

VLMo最大的贡献应该是证明了参数共享是有效的!

实验

请添加图片描述

Unimodality能够帮助Multimodality. 反之或许也可以.

BLIP

引言

动机1 : Encoder Only的结构很难用于生成任务; 对于Decoder Only, 则很难用于image-text retrieval tasks(与VLMo类似)
动机2: 目前的模型在网上爬取的噪声数据训练, 使用嘈杂数据做预训练效果还是不好的, 虽然提升数据量可以缓解.

请添加图片描述
Filt模型判断是否匹配, Cap模型生成对应描述.

实验

请添加图片描述

ALBEF在文本编码器端, 把N层劈成N-L和L层, 目的是为了限制计算量.

VLMo统一不同模块的结构, 共享参数, 在使用时选取相应部分.

BLIP则是参考了ALBEF和VLMo的结构设计思想.

BLIP的左侧部分完全是ALBEF, 但是借鉴了VLMo的参数共享策略(共享参数控制了计算量).

因为有VLMo的参数共享策略, 所以直接增加了生成模块.

LM中的第一层是因果自注意力, 是不共享参数的.

对于三个文本模型, 用到的Token并不一样.

请添加图片描述

Filter如何训练? 把已经训练好的BLIP的ITM拿出来, 在COCO上做一些微调, 微调后的BILP就是Filter.

为什么还要captioner? BLIP的Decoder太强了, 在COCO上微调一下, 得到Captioner. 把网上爬取的图像, 生成文本, 然后FIlter筛选, 得到新的高质量的图文对.

CoCa

请添加图片描述
是ALBEF的后续工作.

两个区别:

  1. 视觉端后接Attentional Pooling;
  2. 文本端统一用decoder.

VLMo, ALBEF等模型在一个epoch中需要forward几次, 比较费时间, 所以CoCa希望能够在一个epoch中forward一次.

为了让ITC Loss和Captioning Loss能够同时计算, 所以文本端一开始就要用Causal Self Attention.

训练数据规模达到几十亿, 所以MLM已经没有必要了.

因为方法很简单, 所以可以scaled非常好.

BeiTv3

摘要

Motivation: 做大一统的视觉语言模型.

损失函数: Mask Modeling(多个损失函数依赖调参, 互补性和互斥性难以确定, 这带来Scaling困难的问题). 将Image视为Imglish, 统一为文本.

模型: Multiway Transformer(VLMo).

数据.

方法

请添加图片描述
请添加图片描述

实验

请添加图片描述

不是目标函数越多越好, 关键是能否互补.

数据也不是越多越好(BeiTv3 > CoCa).

总结

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/943903.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

韶音的耳机怎么样,韶音骨传导耳机防水吗

韶音耳机在电声学这方面还是有着比较成熟的骨传导技术,现如今关于骨传导领域的耳机是有着韶音OpenRun Pro以及OpenSwim,很显然,通过名字就可以看出是将运动跟游泳给区分开了。 其中韶音OpenRun Pro也是存在着一定的亮点 亮点一: …

简易虚拟培训系统-UI控件的应用1

前言 前面的文章介绍了关于Oculus设备与UI控件的关联,从本文开始采用小示例的方式介绍基本的UI控件在系统中的基本作用(仅介绍“基本作用”,详细的API教程可参考官方文档)。应用的背景是工程场景类的虚拟培训系统,系统…

最简单的爬虫!只需要粘贴你要爬虫的网址

依赖 必须按照这个库,爬虫必备! pip install requests四行代码 import get import save spider_text get.html("https://www.baidu.com/") save.file(spider_text)使用 更改 get.html() 中的参数,改成你想要爬取的网站的地址&…

如何打造创新文化虚拟展厅?一文了解虚拟展厅优势

引言: 时光荏苒,科技在不断进步,创新也不再局限于产品和服务,而是深刻融入各行业的方方面面。在这个充满机遇与挑战的时代,创新文化虚拟展厅应运而生,成为展示创新实力、推动文化传承的独特方式。 一&…

数字孪生技术:智能化引领产业变革

数字孪生作为一项创新性技术,正逐渐引发全球范围内的广泛关注。它不仅仅是一种模拟或仿真工具,更是一种能够深刻影响人类生活和产业的前沿技术。数字孪生的终极价值在于为现实世界带来了前所未有的智能化、精准化和高效化,以及对未来可持续发…

42、基于51单片机的蓝牙智能手环系统(全套资料)

编号:42 基于51单片机的蓝牙智能手环系统 功能描述: 本设计由STC89C52单片机最小系统ADXL345三轴加速传感器模块DS1302时钟模块DS18B20温度传感器模块Pulse Sensor心率采集模块BT06蓝牙模块LCD1602显示模块键盘模块组成 1、采用STC89C52单片机为主控制…

Leetcode Top 100 Liked Questions(序号75~104)

75. Sort Colors 题意&#xff1a;红白蓝的颜色排序&#xff0c;使得相同的颜色放在一起&#xff0c;不要用排序 我的思路 哈希 代码 Runtime 4 ms Beats 28.23% Memory 8.3 MB Beats 9.95% class Solution { public:void sortColors(vector<int>& nums) {vector…

Ping32客户端安装注册

登录Ping32&#xff0c;进入主界面 回到“开始”界面 在桌面会生成客户端安装程序

EOCR电机保护器MODBUS通讯的使用

在工厂自动化中&#xff0c; 数据连接是必不可少的&#xff0c; 尤其是在工业4.0概念不断扩大其覆盖范围的今天。而通过EOCR的MODBUS通讯&#xff0c;用户可将电动机的运行状态、运行电流、故障原因及时间等信息传输至上位机中&#xff0c;以方便用户实时监测电动机的状态&…

《Linux多线程服务端编程》读书笔记(一)

线程安全 一个线程安全的类应该满足下面三个条件 多个线程同时访问&#xff0c;其表现出正确的行为无论操作系统如何调度这些线程&#xff0c;无论这些线程的执行顺序如何交织调用端代码无需额外的同步或其他协调动作 对象的线程安全 对象构造要做到线程安全&#xff0c;唯…

弹幕引擎使用教学

欢迎阅读 弹幕引擎 / 弹幕会模板 使用教学&#xff01; 不知道您是否听说过“弹幕游戏”&#xff0c;Scratch 闯关游戏作品&#xff1a;东方虹魔馆 如果听说过&#xff0c;那就太好啦&#xff01;您很有可能已经对“弹幕”甚至“符卡”有了认识基础。没有也不要紧&#xff0c;您…

智能化新十年,“全栈智能”定义行业“Copilot智能助手”

“智能化转型是未来十年中国企业穿越经济周期的利器”&#xff0c;这是联想集团执行副总裁兼中国区总裁刘军在去年联想创新科技大会上做出的判断&#xff0c;而2023年正值第四次工业革命第二个十年的开端&#xff0c;智能化是第四次工业革命的主题。2023年初&#xff0c;基于谷…

红盟云卡系统v1.1.17虚拟商品在线售卖平台源码

红盟云卡系统是一款基于PHPMySQL开发的虚拟商品在线售卖平台 v1.1.17.20230627 增加强制登录插件 增加QQ微信防红插件 增加首页弹窗插件 增加鱼儿游背景特效插件 官方微信支付插件增加jsapi类型 后台订单列表增加下单必填项字段显示 修复分站个人中心开通分站报错的问题 修复提…

FAST协议详解3 可null(空)类型

一、概述 所谓可null、可空&#xff0c;其实是一个特性的两个方面&#xff0c;某些情况下&#xff0c;我们不需要传递某个字段的值&#xff0c;则可以将该字段“空”起来&#xff0c;不赋值&#xff0c;则接收方在收到该字段时会自动解析为null值。所以空是对于发送方而言&…

控制各种开环伺服阀放大器

控制不带电气位置反馈模块式伺服阀开环控制&#xff0c;最大电流10mA至1000mA范围可选&#xff1b; 常规可选电流档位&#xff1a;10mA、15mA、20mA、40mA、100mA、300mA等&#xff1b; 前面板电位器或者上位机精细调整零位及增益。 颤振频率以及颤振幅度可选。 快速电流驱…

初入职场六个注意

点击下方关注我&#xff0c;然后右上角点击...“设为星标”&#xff0c;就能第一时间收到更新推送啦~~~ 作为一个职场新人&#xff0c;最重要的变化是从学校的学习生活转变进入职场的工作生活&#xff0c;一切都是新鲜的&#xff0c;步入职场就是进入了社会。 其实学校也是一个…

高忆管理:成交量突然放大股价下跌?

在出资股票时&#xff0c;咱们常常看到股票价格急剧跌落&#xff0c;而此时成交量正在暴增。许多出资者进入股市的初期或许会产生困惑&#xff0c;将“成交量忽然扩大股价跌落”视为出资时的一般改变和常态&#xff0c;但其实并不总是如此。这种现象或许暗示着不同的问题和情况…

Qt:界面实时响应鼠标拖动绘制

采用双缓冲实现界面实时响应鼠标的拖动绘制。 思想如下&#xff1a;首先需要两张画布pix和tempPix&#xff0c;他们都是QPixmap实例&#xff1b;pix用来保存初始界面或上一阶段以完成的绘制&#xff1b;tempPix用来作为鼠标拖动时的实时界面绘制&#xff1b;当鼠标左键按下后拖…

C# 生成唯一ID

1.首先通过nuget安装yitter.idgenerator 下面的三行代码搞定

文心一言 VS 讯飞星火 VS chatgpt (83)-- 算法导论8.1 4题

四、用go语言&#xff0c;假设现有一个包含n个元素的待排序序列。该序列由 n/k 个子序列组成&#xff0c;每个子序列包含k个元素。一个给定子序列中的每个元素都小于其后继子序列中的所有元素&#xff0c;且大于其前驱子序列中的每个元素。因此&#xff0c;对于这个长度为 n 的…