【论文笔记】Flamingo: a Visual Language Model for Few-Shot Learning

news2024/12/25 1:53:53

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Flamingo: a Visual Language Model for Few-Shot Learning
作者: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob L Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikołaj Bińkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karén Simonyan
发表: Advances in Neural Information Processing Systems 35 (NeurIPS 2022)
arxiv: https://arxiv.org/abs/2204.14198

基本信息

摘要

构建仅使用少量标注示例即可快速适应新任务的模型,是跨模态机器学习研究的一个开放挑战。

我们介绍了Flamingo,这是一系列具有这种能力的视觉语言模型(VLM)。
我们提出了关键架构创新:

  1. 连接强大的预训练视觉和语言模型。
  2. 处理任意交织的视觉和文本数据序列。
  3. 无缝地摄入图像或视频作为输入。

得益于其灵活性,Flamingo模型可以在包含任意交织文本和图像的大规模多模态网络语料库上进行训练,这对于赋予它们上下文少样本学习能力至关重要。

我们对我们的模型进行了彻底的评估,探索并测量了它们快速适应各种图像和视频任务的能力。

这些任务包括开放性任务,如视觉问答,其中模型被提示一个问题,它必须回答;字幕任务,评估描述场景或事件的能力;以及封闭性任务,如多项选择视觉问答。对于这个范围内的任何任务,单个Flamingo模型可以通过提示特定任务的示例,仅通过少样本学习实现新的最先进水平。

在众多基准测试中,Flamingo优于在数以千计的任务特定数据上微调的模型。

主要贡献

  1. 引入了Flamingo系列VLM,它可以从少量输入/输出示例中执行各种多模态任务(如标题生成、视觉对话或视觉问答)。得益于架构创新,Flamingo模型可以高效地接受任意交织的视觉数据和文本作为输入,并以开放式生成文本。
  2. 定量评估了Flamingo模型如何通过少样本学习适应各种任务。
  3. Flamingo在16个多模态语言和图像/视频理解任务上达到了少样本学习的SOTA水平。

概览图表

选自Flamingo-80B的输入和输出示例。Flamingo能够通过少量提示快速适应各种图像/视频理解任务(顶部)。开箱即用,Flamingo还具备多图像视觉对话功能(底部)。

Flamingo结果概述。左:我们最大的模型,称为Flamingo,在16个任务中有6个优于最先进的微调模型,且未进行微调。对于9个已发布少量样本结果的任务,Flamingo设定了新的少量样本最佳水平。注意:我们省略了第16个基准RareAct,因为它是一个零样本基准,没有可比较的微调结果。右:Flamingo的性能随着模型大小和样本数量的增加而提高。

方法

整体架构

Flamingo架构概述。Flamingo是一种视觉语言模型(VLM)家族,它以视觉数据与文本交织的形式作为输入,并产生自由形式的文本作为输出。

  • Visual Encoder: NFNet-F6,由像素图像得到视觉特征。
  • Perceiver Resampler: 类似 Perceiver 和 DETR,转换视觉特征到固定数量的视觉输出。

GATED XATTN-DENSE layers

GATED XATTN-DENSE layers。为了使语言模型对视觉输入进行条件化,我们在现有的预训练和冻结的语言模型层之间插入新的交叉注意力层。这些层的键和值来自视觉特征,而查询来自语言输入。随后是密集的前馈层。这些层是门控的,以确保在初始化时语言模型保持完整,从而提高稳定性和性能。

在各个 LM block 之间插入 GATED XATTN-DENSE 来获取视觉特征。

Multi-visual input support: per-image/video attention masking

通过 Mask 限制每个文本 token 能够看到的视觉 token。模型仅能关注到之前的一个视觉 token,而非前文出现过的所有视觉 token。这一限制比允许模型直接注意所有视觉 token 效果更好。

训练

使用三类数据进行训练:

  1. M3W,交错图像和文本数据。
  2. ALIGN,图像文本对数据。
  3. LTIP,视频文本对数据。

实验

主实验

与SOTA方案的比较

Flamingo模型在广泛的图像(I)和视频(V)理解任务中,通过少样本学习达到了SOTA水平,显著优于之前最佳的无样本和少样本方法,只需四个示例即可。更重要的是,仅使用32个示例且未调整任何模型权重,Flamingo在七个任务上优于当前最佳方法——这些方法是在数千个标注示例上微调的。

微调Flamingo与SOTA方案的比较

作者在Flamingo使用少量样本学习未能达到SOTA的九项任务上对Flamingo进行了微调。在其中的五项任务上,Flamingo创造了新的SOTA,超越了使用诸如模型集成或特定领域指标优化(例如CIDEr优化)等技巧的方法(标记为†)。

消融实验

消融实验

  1. 训练数据混合的重要性。(i)对训练数据进行了消融实验,特别是对M3W图文交织数据的有无进行了消融,发现图文交织数据能提供大约17%的提升。
  2. 视觉训练的冻结LM。(iii)不使用tanh gating会导致约4.2%的性能下降,且会使训练不稳定。(iv)使用GATED XATTN-DENSE比使用原始的Transformer交叉注意力效果更好。
  3. 计算/内存与性能权衡。(v)添加新的GATED XATTN-DENSE块的频率越高,模型效果越好,但模型的可训练参数数量和时间复杂度会显著增加。每四个块插入一次可以加速训练66%,同时整体分数仅下降1.9%。(vi)MLP和原始Transformer在性能和速度上都不如Perceiver。
  4. 视觉编码器。(vii)NFNet-F6的效果比CLIP ViT-L/14好5.8%,比NFNet-F0好8.0%。
  5. 冻结LM组件可防止灾难性遗忘。(viii)训练随机初始化的LM层,性能会下降12.9%。微调预训练LM也会导致性能下降8.0%。这表明模型出现了“灾难性遗忘”,即模型在训练新目标时逐渐忘记了其预训练。在本文的设置中,冻结语言模型是比在混合中使用预训练数据集(MassiveText)进行训练更好的替代方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2181475.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

16.安卓逆向-frida基础-HOOK类方法2

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于:图灵Python学院 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要盲目相信。 工…

链表的基础知识

文章目录 概要整体架构流程 小结 概要 链表是一种常见的数据结构,它通过节点之间的连接关系实现数据的存储和访问。链表由一系列节点(Node)组成,每个节点包含数据和指向下一个节点的指针。链表的特点是物理存储单元上非连续、非顺…

《基于多视角深度学习技术的乳腺X线分类:图网络与Transformer架构的研究》|文献速递-基于多模态-半监督深度学习的病理学诊断与病灶分割

Title 题目 Mammography classification with multi-view deep learning techniques:Investigating graph and transformer-based architectures 《基于多视角深度学习技术的乳腺X线分类:图网络与Transformer架构的研究》 01 文献速递介绍 乳腺X线摄影是乳腺癌…

鸿蒙开发(NEXT/API 12)【请求用户授权】手机侧应用开发

为保护用户隐私,Wear Engine的API需要用户授权才可以正常访问。建议开发者在用户首次调用Wear Engine开放能力的时候执行本章节操作。 申请用户穿戴设备权限 应用拉起华为账号登录和授权界面,由用户授权相应的数据访问权限。用户可以自主选择授权的数据…

828华为云征文|华为云Flexus云服务器X实例——uniapp功能开发、搭建股票系统选择用什么服务器比较好?

在二次开发、安装搭建股票系统时,选择华为云Flexus X服务器是一个值得考虑的优质选项。以下是一些具体的建议: 测试环境:Linux系统CentOS7.6、宝塔、PHP7.3、MySQL5.7,根目录public,伪静态thinkphp,开启ssl…

1、深入理解Redis线程模型

文章目录 一、Redis是什么?有什么用?1、Redis是什么?2、2024年的Redis是什么样的? 二、Redis到底是单线程还是多线程?三、Redis如何保证指令原子性1、复合指令2、Redis事务3、Pipeline4、lua脚本5、Redis Function6、R…

CTFshow信息搜集web1~web20详解

目录 1、web1 源码泄露 2、web2 页面源代码泄露 3、 web3 响应头泄露 4、web4 robots协议 5、web5 phps源码泄露 6、web6 源码压缩包泄露 7、web7 GIT泄露 8、web8 SVN泄露 9、web9 vim缓存 10、web10 cookie 11、web11 域名解析 12、web12 网站公开信息 13、web13 技…

python4_画方格

python4_画方格 import turtledef cell():# 画第一个方格# 设置画笔宽度为1turtle.width(1)# 下笔,这样,路径就会画出来turtle.pendown()# 前进30px像素turtle.forward(30)# 设置为黑色turtle.color("black")# 方向转90度turtle.left(90)# 前进30px像素t…

HTML+CSS基础 第二季课堂笔记

一、列表 列表都不是单打独斗的,通常都是一组标签组成 1 无序列表 作用:定义一个没有顺序的列表结构 由两个标签组成,ul(容器级标签),li(容器级) ul:英文ulordered …

828华为云征文 | 华为云Flexus云服务器X实例搭建企业内部VPN私有隧道,以实现安全远程办公

VPN虚拟专用网络适用于企业内部人员流动频繁和远程办公的情况,出差员工或在家办公的员工利用当地ISP就可以和企业的VPN网关建立私有的隧道连接。 通过拨入当地的ISP进入Internet再连接企业的VPN网关,在用户和VPN网关之间建立一个安全的“隧道”&#xff…

探索顶级低代码开发平台,实现创新

文章盘点ZohoCreator、OutSystems等10款顶尖低代码开发平台,各平台以快速开发、集成、数据安全等为主要特点,适用于不同企业需求,助力数字化转型。 一、Zoho Creator Zoho Creator 是一个低代码开发平台,它简化了应用开发中的复杂…

解决MySQL命令行中出现乱码问题

在MySQL命令行中遇到乱码问题通常是由于字符编码设置不正确导致的。以下是一些解决步骤: 1. **检查和设置字符集**: 首先,您需要确保MySQL服务器、客户端和数据库使用的是正确的字符集。您可以通过执行以下命令来查看当前的字符集设置&…

领英(LinkedIn)高效开发国外客户的6个技巧

社媒开发客户大家现在用的都挺多,每个社媒平台都有自己的特点,领英(LinkedIn)因为他特殊的职场定位,这上面有非常多的大客户,适合做B端的外贸企业,今天就来给大家分享一下如何利用领英高效开发国…

【无人机设计与控制】Multi-UAV|多无人机多场景路径规划算法MATLAB

摘要 本研究探讨了多无人机路径规划问题,提出了三种不同算法的对比分析,包括粒子群优化(PSO)、灰狼优化(GWO)和鲸鱼优化算法(WOA)。利用MATLAB实现了多场景仿真实验,验证…

关于 JVM 个人 NOTE

目录 1、JVM 的体系结构 2、双亲委派机制 3、堆内存调优 4、关于GC垃圾回收机制 4.1 GC中的复制算法 4.2 GC中的标记清除算法 1、JVM 的体系结构 "堆"中存在垃圾而"栈"中不存在垃圾的原因: 堆(Heap) 用途&#xff…

python-金币/打分/小理学数列3

一:金币 题目描述 国王将金币作为工资,发放给忠诚的骑士。 第一天,骑士收到一枚金币;之后两天(第二天和第三天)里,每天收到两枚金币;之后三天(第四、五、六天&#xff09…

数值计算 --- 平方根倒数快速算法(下)

平方根倒数快速算法(下) --- 向Greg Walsh致敬! 数值计算 --- 平方根倒数快速算法(上)_开根号倒数快速-CSDN博客文章浏览阅读712次,点赞31次,收藏30次。由于平方根倒数快速算法实在是太过经典,出于对code中magic number"0x5f…

Temu、亚马逊如何建立稳固的测评系统、避免挂单?

在跨境电商的测评与补单过程中,许多卖家和测评工作室常常面临由于技术环境不足导致的下单成功率低的问题。尤其是新账号在首次下单时,往往会遇到F号或砍单的困扰,进而陷入频繁购买和账号损失的恶性循环。这不仅消耗了大量时间和精力&#xff…

【真实访问】那些选择土木专业的学生,后来怎么样了?

“你会让孩子报土木专业吗?” 7月15日,澎湃新闻在微博上发起线上调研,截至16日12时,8000多人参与了投票,结果显示近7000人选择“不会,天坑专业”。短短几年时间,土木工程专业的报考从“香饽饽”…

Android Studio 新版本 Logcat 的使用详解

点击进入官方Logcat介绍 一个好的Android程序员要会使用AndroidStudio自带的Logcat查看日志,会Log定位也是查找程序bug的第一关键。同时Logcat是一个查看和处理日志消息的工具,它可以更快的帮助开发者调试应用程序。 步入正题,看图说话。 点…