提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)

news2025/1/22 16:43:33

原创/文 BFT机器人


研究论文地址:https://arxiv.org/abs/2212.00794

 计算机视觉和深度学习领域大神何恺明携团队再发新作!论文围绕近来火热的CLIP(Contrastive Language-Image Pre-Training)模型展开研究,并提出了一种高效训练CLIP的图像处理新方法——FLIP(Fast Language-Image Pre-training)。

 该方法在训练中对图像块进行大比例的随机Mask遮蔽,在有限的时间内从更多的image-text数据集中学习,并且在每次迭代对比更多样本的情况下,保持相似的内存占用率。何恺明团队在4亿对image-text的训练实验中,对训练准确度和训练速度进行了利弊权衡,FLIP无论是在准确性还是速度方面的表现均优于CLIP。在加速训练能力的推动下,何恺明团队还探索了扩展模型尺寸、数据集大小、训练周期,最终成果喜人。


方法示意

  • 图像遮蔽:论文中采用的是ViT作为图像编码器,图像首先被划分为一个不重叠的网格,参考MAE随机地遮蔽掉大比例的区块(比例为50%、75%),这种方法可以将训练时间复杂度相应降低为原来的一半,甚至四分之一,且减少内存占用。关于MAE的详解可参考何恺明另一篇论文《Masked Autoencoders Are Scalable Vision Learners》。
  • 文本遮蔽:同样的方法,还可以用于文本遮蔽上。当执行Mask时,研究人员仅对可见token进行编码处理,和BERT的处理机制不一样的是:采用Learned Mask Token进行替换。这种稀疏计算也能够在一定程度减少文本编码所需要的时长。但团队认为,因为文本编码器比较小,所带来的加速效果难以导致更好的均衡。
  • 训练目标:Image/Text编码器采用对比损失进行训练优化。但和MAE不同的是,本文中的FLIP重建被遮蔽的图像内容,同时丢弃了解码器,由此取得了进一步的加速。

MAE架构

  •  解除遮蔽:虽然编码器是在Masked图像上来实现预训练的,但是它仍然可以像MAE那样直接作用到无干扰的图像,此可作为对标的基线。为进一步降低因Mask而产生的分布差异,作者将Mask比例设为0并进行少量的连续预训练,这种处理方法可以使得训练时间和准确性达到良好的均衡。

训练过程

在训练的具体过程中,研究人员依据CLIP和OpenCLIP,做出了一些改变:

CLIP架构

  • 图像编码器使用ViT,但在补丁嵌入后并未使用其余的图层规范,并且在图像编码的末端增添了GAP。
  • 论文运用Non-AutoRegressive Transformer编码,并使用WordPiece算法。
  • 将图像编码器与文本编码器的输出分别投射到相同的嵌入空间,再用LTP(Learnable Temperature Parameter)进行缩放,从而得到两者的Cosine相似度。

实验结果

从最终的实验结果来看,当mask为75%的时候,FLIP同基线模型CLIP的性能达到一致,训练速度却是CLIP的3.7倍!换句话说,假设CLIP完成一个周期的训练需要花费2500TPU-days,而FLIP仅需700TUP-days。

消融实验结果对比


ImageNet-1K分类数据集结果对比

实验结果告诉我们,FLIP能够在准确性和训练时间之间实现有利的权衡。在对4亿图像-文本对的实验中,FLIP提高了no-masking基线的准确性和速度。在大量downstream任务上,FLIP的性能明显优于在相同数据上训练的CLIP工作。

 

结语

 据悉,何恺明已经连续三年CVPR达到最高引用量,论文内容均为研究监督学习领域,且都具备一个共同的特点,都是研究范式转换的一个节点,而不是固有研究范式中的新方法或新解释。既MoCo、SimSiam、MAE之后,这次的FLIP又会带来多大的影响力呢?


文章参考:
https://mp.weixin.qq.com/s/-vZvBDPjyv6CKRlQPSYehg
https://blog.csdn.net/xixiaoyaoww/article/details/128179973

论文原文pdf:请扫本公众号原文下方二维码


更多精彩内容请关注公众号:BFT机器人
(公众号后台回复“优惠活动”查看BFT机器人年终钜惠福利内容)

本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/105542.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python怎么进行时区的转换

pytz 是一个用于处理时区的 Python 库,它为 Python 提供了对时区的支持。 它提供了大量的时区信息,包括时区名称、偏移量、是否使用夏令时等。你可以使用 pytz 库来处理本地时间、UTC 时间和其他时区之间的转换。 它提供了许多函数来帮助你处理时区相关的信息。 …

C++之多态(中篇)(最全总结)

这里接上面C之多态(上篇) 本篇目录4.多态的原理4.2 多态的原理4.3 C 11 override和final4.4 重载、重写(覆盖)、隐藏(重定义)的对比 (函数之间的关系)5.抽象类5.1概念5.2接口继承和实…

三、基于kubeadm安装kubernetes1.25集群第二篇

在上一篇中我们已经安装kubernetes要求做了服务器初始化,看这篇之前,建议先看下上篇:https://blog.csdn.net/u011837804/article/details/128350651 那我们正式开始kubernetes1.26集群安装 1、每台机器安装docker20.10.22 docker的安装细节…

数据结构训练营4

开启蓝桥杯备战计划,每日练习算法一题!!坚持下去,想必下一年的蓝桥杯将会有你!!笔者是在力扣上面进行的刷题!!由于是第一次刷题!找到的题目也不咋样!所以&…

itop-imx8m开发板gstreamer日志级别设置

gst 的日志等级分为 none(0)error(1) warning(2) info(3) debug(4) log(5)。默认 gst 的日志等级为 1,即 error 打印,出错时会打印。 1)全局日志级别设置 如果需要更高级别打印,修改环境变量 GST_DEBUG 即可。如需要 warning 级别…

基于python的transform行人车辆识别

Transformer是一种神经网络体系结构,由于它能够有效地处理顺序数据中的长期依赖性,因此在自然语言处理(NLP)任务中受到欢迎。它还被应用于各种其他任务,包括图像分类、对象检测和语音识别。 在车辆和行人识别方面,transformer可用…

浅谈安科瑞电能预付费系统在大电力客户中的设计及应用分析

摘 要 随着我国供电企业的不断发展,而用电模式也在不断改革,预付费技术在气、电等部门得到普遍的使用,本文主要针对预付费系统在大电力客户中的使用情况进行分析,提高用电用户的缴费率,有效的避免了客户恶意偷窃电行…

【小5聊】Winform从指定服务器下载文件的方式

在一些实际项目中,我们往往需要上传一些excel、word等办公文件,甚至是mp3、mp4等音频视频文件。 当然,大多数小型网站会放到自己服务器,如果文件量不大的话 如果文件数量会很多,那么就需要考虑使用第三方来保管存储 不…

Elasticsearch:使用 NLP 问答模型与你喜欢的圣诞歌曲交谈

自然语言处理 (NLP) 是人工智能 (AI) 的一个分支,旨在通过将计算语言学与统计、机器学习和深度学习模型相结合,尽可能接近人类解释地理解人类语言。 NLP 的最大挑战之一是在考虑到各种语言表示的情况下预训练文本数据的过程。 2018 年,谷歌…

企业报表插件怎么用?

最近因为单位年底要做部门总结汇报,需要使用很多的数据以报表的形式来引证今年的工作情况,内部的 OA、ERP 这些业务系统是指望不上了。作为懂一点 SQL、又经常用 Excel 来给领导做报表的我,在网上一轮操作(就是百度啦)…

算法通关手册 刷题笔记1 数组基础

算法通关手册 刷题笔记1 数组基础 持续更新中 文章目录算法通关手册 刷题笔记1 数组基础数组操作题目0189 轮转数组AC自己的解法其他解法知识点查漏补缺关于python中的数组赋值python中对象的引用0066 加一AC自己的解法其他解法知识点查漏补缺0724 寻找数组的中心下标AC自己的解…

大数据必学Java基础(一百一十六):Application域监听器

文章目录 Application域监听器 一、认识Application域监听器 二、监听器代码 Application域监听器 一、认识Application域监听器

关于金字塔格式转tiff并且openslide能获取到缩略图等标签信息

我们都知道openslide通过openslide_get_associated_image_names获取相关的图像名称,比如"thumbnail",“label”,“macro"等。那我们将"thumbnail”,“label”,"macro"写入tiff的时候,如何才能保证openslide能够获取到呢&a…

2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 建模方案及代码实现(更新中)

【BetterBench原创】2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 建模方案及代码实现(更新中) 更新进展 2022年12月20日 22:00 发布初步思路 (待更新)发布初步思路实现代码 …

即时通讯音视频开发视频编解码预测技术

目的是去除空间冗余和时间冗余。因为视频存在大量的空间冗余和时间冗余,包括空间冗余、时间冗余,预测后得到去除大部分空间或时间冗余的残差。 图像空间相邻像素具有很强的相关性,帧内预测技术去除空间冗余。 视频图像在时间上有较强的相关性…

组团出海抢抓跨境电商外贸,有利于2023“开门稳”

组团出海抢抓跨境电商外贸,有利于2023“开门稳” 我国是货物贸易第一大国,强大的生产能力、出色的产业配套、完善的物流供应、充足高效的劳动力,都为我国成为贸易强国提供了有利条件。 近几年,中国跨境电商产业进入快速发展阶段&a…

区块链北大肖老师学习笔记4

第五节 比特币系统的实现 区块链是去中心化的账本,比特币使用的是基于交易的这种账本模式(transaction[交易]-based ledger[账本])。系统当中并不会显示每个账户有多少钱。 比特币系统的全节点要维护一个叫UTXO(unspent transaction output)(还没有被花出去的交易的…

成为2.2亿儿童主动要吃的天然营养,AMSTRONG维小壮做对了什么?

文|螳螂观察(TanglangFin) 随着疫情防控政策的调整,在人们开始注重提升身体免疫力以抗击病毒的措施中,在国外流行多年的接骨木莓,开始受到国内消费者的青睐。 接骨木莓的功效早已被美国FDA和加拿大FDA双重认证&#…

VUE3-Pinia的使用《三》

pinia的官网是简介 | Pinia。 它的功能和vuex差不多,但是pinia更加优于vuex。主要用于状态管理,管理全局的变量,也可以存储页面A的值,然后在页面B中直接访问,不分父子组件之间的关系,可以任意传值&#xf…

设计模式之状态模式

State design pattern 状态模式的概念、状态模式的结构、状态模式的优缺点、状态模式的使用场景、状态模式的实现示例、状态模式的源码分析 1、状态模式的概念 对有状态的对象,把复杂的判断逻辑提取到不同的状态对象中,允许状态对象在其内部状态发生改变…