【多模态】ALIGN——使用噪声文本数据进行视觉语言感知预训练

news2025/1/10 1:33:33

ALIGN: A Large-scale ImaGe and Noisy-text embedding

目录

🍭🍭1.网络介绍

🍭🍭2.大规模噪声图像文本数据集

🐸🐸2.1图像过滤器

🐸🐸2.2文本过滤器

🍭🍭3.预训练和迁移任务

🐸🐸3.1噪声数据预训练

🐸🐸3.2图文匹配

🐸🐸3.3视觉分类

🐸🐸3.4仅带图像编码的视觉分类

🍭🍭4.消融实验

🐸🐸4.1网络结构

🐸🐸4.2超参数

🐸🐸4.3不同数据集

🐸🐸4.4权衡数据数量和数据质量 

🍭🍭5.效果展示

🐸🐸5.1图像检索

🐸🐸5.2图像和文本输入检索图像 

整理不易,欢迎一键三连!!!


摘要:预训练的表征对于许多NLP和感知任务变得至关重要。虽然NLP中的表示学习已经过渡到在没有人工注释的情况下对原始文本进行训练,但视觉和视觉语言表示仍然严重依赖于昂贵或需要专家知识的精心策划的训练数据集。对于视觉应用程序,表示大多是使用具有明确类标签的数据集(如ImageNet或OpenImages)来学习的。对于视觉语言,像概念字幕、MSCOCO或CLIP这样的流行数据集都涉及到一个非琐碎的数据收集(和清理)过程。这种代价高昂的管理过程限制了数据集的大小,因此阻碍了训练模型的扩展。在本文中,我们利用了一个由超过10亿个图像-文本对组成的噪声数据集,该数据集在概念字幕数据集中无需昂贵的过滤或后处理步骤即可获得。一个简单的双编码器架构学习对齐图像的视觉和语言表示

🍭🍭1.网络介绍

        如左上角示意图所示,图像和文本编码器通过对比损失来进行学习,将互相匹配的文本-图像对嵌入到一起,将不匹配的分开,将配对文本视为图像的细粒度标签,我们的图像与文本对比损失类似于传统的基于标签的分类目标;关键区别在于文本编码器生成“标签”权重。

        对齐的图像和文本表示自然适合于跨模态匹配/检索任务,并在相应的基准中实现最先进的(SOTA)结果。例如,在大多数零样本和微调中,ALIGN比以前的SOTA方法好7%以上R@1Flickr30K和MSCOCO中的度量。此外,当将classname输入文本编码器时,这种跨模态匹配自然能够实现零样本图像分类,在不使用任何训练样本的情况下,在ImageNet中实现76.4%的top-1精度。图像表示本身在各种下游视觉任务中也实现了卓越的性能。例如,ALIGN在ImageNet中达到了88.64%的top-1精度。图1-底部(a)-(c)显示了来自ALIGN构建的真实检索系统的跨模态检索示例。

  1. 输入文本——输出图像检索
  2. 输入图像——输出文本检索
  3. 输入图像+文本 ——输出图像检索

🍭🍭2.大规模噪声图像文本数据集

        我们的工作重点是扩大视觉和视觉语言表征学习。为此,我们采用了比现有数据集大得多的数据集。具体来说,我们遵循构建概念字幕数据集的方法来获得原始英语文本数据的版本(图像和文本对)。在这里,为了达到缩放的目的,我们通过放松原作中的大部分清洁步骤,以质量换取大规模。相反,我们只应用基于最小频率的过滤器,如下所述。结果是一个更大(1.8B的图像-文本对)但噪声更大的数据集。图2显示了数据集中的一些示例图像-文本对。

🐸🐸2.1图像过滤器

        基于图像的过滤。继Sharma等人(2018)之后,我们删除了色情图像,只保留短边大于200像素和纵横比小于3的图像,我删除了超过1000个相关文本的图像。为了确保我们不会在测试图像上进行训练,我们还删除了所有与下游评估数据集中重复或接近重复的测试图像

🐸🐸2.2文本过滤器

        基于文本的筛选。我们删除了10张以上图片共享的文本。这些文本通常与图像的内容无关(例如,“1920x1080”、“alt-img”和“cristina”)。我们还丢弃了包含任何罕见标记的文本(原始数据集中1亿个最频繁的unigram和bigram之外),以及那些太短(<3个unigram)或太长(>20个unigrams)的文本,这可以去除诸如“image tid 25&id mggqpuweqdpd&cache 0&lan code 0”之类的嘈杂文本,或者过于通用而无用的文本。

🍭🍭3.预训练和迁移任务

🐸🐸3.1噪声数据预训练

        我们使用双编码器架构预训练ALIGN。该模型由一对图像和文本编码器组成,顶部具有余弦相似性组合函数。我们使用具有全局池化的EfficientNet(不训练分类头中的1x1 conv层)作为图像编码器,使用具有class token嵌入的BERT作为文本嵌入编码器(我们从训练数据集中生成100k个单词片词汇)。在BERT编码器的顶部添加了一个具有线性激活的完全连接层,以匹配图像的尺寸。图像和文本编码器都是从头开始训练的。

        图像和文本编码器通过归一化softmax损失进行优化。在训练中,我们将匹配的图像-文本对视为正样本,将批训练中可以形成的所有其他随机图像-文本配对视为负样本,这一点跟CLIP等文章是相同的。

损失函数:

🐸🐸3.2图文匹配

🐸🐸3.3视觉分类

🐸🐸3.4仅带图像编码的视觉分类

        表5将ALIGN与ImageNet基准测试上以前的方法进行了比较。在冻结功能的情况下,ALIGN略微优于CLIP,并实现了85.5%的SOTA结果,排名前1。经过微调后,ALIGN实现了比BiT和ViT模型更高的精度,并且只比元伪标签差,元伪标签需要在ImageNet训练和大规模未标记数据之间进行更深的交互。与同样使用EfficientNet-L2的NoisyStudent和Meta-Pseudeo标签相比,ALIGN通过使用较小的测试分辨率(600而不是800)节省了44%的FLOPS。

        在VTAB评估中,我们遵循附录I中所示的超参数扫描,每个任务进行50次试验。每个任务在800个图像上进行训练,并且使用200个图像的验证集来选择超参数。

        在扫描之后,所选择的超参数用于对每个任务的1000个图像的组合训练和验证分割进行训练。表6报告了三次微调运行的平均准确度(包括每个小组的分解结果)和标准偏差,并表明在应用类似的超参数选择方法的情况下,ALIGN优于BiT-L。

        表7将ALIGN与BiT-L和SAM进行了比较,它们都对所有任务应用了相同的微调超参数。2对于这样的小任务,微调中的细节很重要。因此,我们列出了baseline结果,但没有使用SAM优化进行更公平的比较。在不调整优化算法的情况下,我们的结果(三次运行的平均值)与SOTA结果相当。

🍭🍭4.消融实验

🐸🐸4.1网络结构

        图3显示了图像和文本backbone的不同组合的MSCOCO零样本检索和ImageNet KNN结果。除了ImageNet KNN度量在EfficientNet-B7和EfficientNet-L2的情况下从BERT Base开始饱和到BERT Large之外,使用更大的backbone可以很好地提高模型质量。正如预期的那样,扩大图像编码器容量对于视觉任务更为重要(例如,即使使用BERT Mini文本塔,L2也比使用BERT Large的B7表现更好)。在图像文本检索任务中,图像和文本编码器的能力同样重要。基于图3所示的良好缩放特性,我们只使用EfficientNet-L2+BERT-Large对模型进行微调。

🐸🐸4.2超参数

        表8描述了关键的架构超参数,包括嵌入维度、批次中随机阴性的数量和softmax温度。表8将许多模型变体与使用以下设置训练的基线模型(第一行)进行了比较。

🐸🐸4.3不同数据集

🐸🐸4.4权衡数据数量和数据质量 

🍭🍭5.效果展示

🐸🐸5.1图像检索

🐸🐸5.2图像和文本输入检索图像 

整理不易,欢迎一键三连!!!

送你们一条美丽的--分割线--


🌷🌷🍀🍀🌾🌾🍓🍓🍂🍂🙋🙋🐸🐸🙋🙋💖💖🍌🍌🔔🔔🍉🍉🍭🍭🍋🍋🍇🍇🏆🏆📸📸⛵⛵⭐⭐🍎🍎👍👍🌷🌷

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/831269.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ubuntu服务器配置ftp服务

需求&#xff1a;配置ftp服务用于在windows电脑上直接浏览、下载、上传ubuntu服务器上的文件&#xff0c;用于文件共享&#xff0c;方便实用 效果&#xff1a;用户打开windows资源管理器后输入ftp://xxx.xxx.xxx.xxx &#xff08;公网IP地址&#xff09;后&#xff0c;即可浏览…

《在细雨中呼喊》阅读笔记

《在细雨中呼喊》阅读笔记 2023年2月5号在家读完&#xff0c;本书就是以作者者回忆的形式来写&#xff0c;男一号叫孙光林&#xff0c;有一个哥哥孙光平&#xff0c;一个弟弟叫孙光明&#xff0c;父亲叫孙光才。书中写了四篇故事。 第一篇写的就是作者对于老家生活的回忆 小的时…

问道管理:股票总市值高好还是低好?

股票的总市值是指公司一切流通股票的总价值。在股票交易商场中&#xff0c;总市值一般是考虑一家公司在商场上的规模和影响力的重要指标之一。可是&#xff0c;总市值在股票投资中究竟是高好仍是低好呢&#xff1f;以下从几个视点进行分析。 商场份额视点 从商场份额的视点来看…

【解放ipad生产力】如何在平板上使用免费IDE工具完成项目开发

前言 很多人应该会像我一样吧&#xff0c;有时候身边没电脑突然要写项目&#xff0c;发现自己的平板没有一点作用&#xff0c;毫无生产力可言&#xff0c;在了解了几家IDE工具后&#xff0c;给大家罗列出来&#xff0c;根据自己的需求进行挑选 现在IDE工具不少&#xff0c;像l…

easyexcel 导出下拉框

官方文档&#xff1a;https://github.com/alibaba/easyexcel 目标&#xff1a;导出的 excel 是下拉框 maven 导入依赖 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.3.2</version> &…

右值引用带来的效率提升(C++11)

文章目录 一.左值引用和右值引用二.C11区分左值和右值的语法设计意义--对象的移动构造和移动赋值场景分析1:C11之前C11之后 场景分析2:函数std::move右值引用的广泛使用 三.引用折叠 一.左值引用和右值引用 左值:可以取到地址的对象(可以出现在赋值符号的左边),对左值的引用称…

“Rust难学”只是一个谎言

近年来Rust的存在感日渐升高&#xff0c;但是其陡峭的学习曲线似乎总是令人望而生畏。不过谷歌的一项内部调查表明&#xff0c;关于Rust的“难学”或许只是一种谣传。 Rust到底难不难学&#xff1f;谷歌有了Go&#xff0c;为何还要支持Rust&#xff1f;频频陷入内斗的Rust领导…

FPGA学习——蜂鸣器实现音乐播放器并播放两只老虎

文章目录 一、蜂鸣器简介1.1 蜂鸣器分类1.2 PWM 二、C4开发板原理图三、如何产生不同的音调四、代码实现及分析五、总结 一、蜂鸣器简介 1.1 蜂鸣器分类 蜂鸣器一般分为有源蜂鸣器和无源蜂鸣器。二者的区别在于&#xff0c;有源蜂鸣器内部含有振动源和功放电路&#xff0c;只…

【雕爷学编程】 MicroPython动手做(35)——体验小游戏3

知识点&#xff1a;什么是掌控板&#xff1f; 掌控板是一块普及STEAM创客教育、人工智能教育、机器人编程教育的开源智能硬件。它集成ESP-32高性能双核芯片&#xff0c;支持WiFi和蓝牙双模通信&#xff0c;可作为物联网节点&#xff0c;实现物联网应用。同时掌控板上集成了OLED…

计算机和汇编语言

1.用电表示数字 我们已经学习过二进制来表示数字 二进制计数采用0和1组合表示数字 0和1很适合使用开关闭合&#xff0c;导线上有电流是1&#xff0c;无电流是 我们还可以加上小灯泡&#xff0c;来表示数 2.二进制加法机 上述这个加法机器是接受左边和下面的输入&#xff0c;把…

【沁恒蓝牙mesh】CH58x系统时钟配置与计算

本文主要记录了【沁恒蓝牙mesh】CH58x系统时钟配置与计算 &#x1f496; 作者简介&#xff1a;大家好&#xff0c;我是喜欢记录零碎知识点的小菜鸟。&#x1f60e;&#x1f4dd; 个人主页&#xff1a;欢迎访问我的 Ethernet_Comm 博客主页&#x1f525;&#x1f389; 支持我&am…

侧边栏的打开与收起

侧边栏的打开与收起 <template><div class"box"><div class"sideBar" :class"showBox ? : controller-box-hide"><div class"showBnt" click"showBox!showBox"><i class"el-icon-arrow-r…

云渲染:为你的设计作品增添细节与逼真感!

在设计作品中&#xff0c;细节和逼真感是展现作品品质和吸引观众眼球的关键要素。而云渲染技术则是让我们能够以更高的水平来增添细节和逼真感的利器。让我们一起深入了解云渲染&#xff0c;探索它如何为我们的设计作品带来更出色的效果。 云渲染技术利用云计算的强大能力&…

webshell详解

Webshell详解 一、 Webshell 介绍二 、 基础常见webshell案例 一、 Webshell 介绍 概念 webshell就是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境&#xff0c;也可以将其称做为一种网页后门。黑客在入侵了一个网站后&#xff0c;通常会将asp或php后门文件与…

千元左右初学者性价比吉他推荐,VEAZEN费森VZ90和布鲁克S25怎么样?各方面评测对比,哪一款更出众!

在1500元左右价位里的吉他品牌来说&#xff0c;可谓群雄割据&#xff0c;根本无法判断到底是谁更出众。那么今天就用这个价位里我们觉得比较受欢迎的两款产品&#xff0c;VEAZEN费森VZ90系列和BROOK布鲁克S25系列详细对比评测&#xff0c;希望能给琴友一个很好的选择参考。 15…

批量创建可配置物料参数文件

启用可配置物料之后&#xff0c;每次创建新的物料需要通过CU41创建可配置物料&#xff0c;没找大批量创建的程序&#xff0c;所以SHDB录屏搞了一个代码。 前提&#xff1a;物料主数据初始化通过程序导入时&#xff0c;可配置物料参数文件已按照物料代码赋值。 ​效果&#xf…

同比环比使用方法

一、解释&#xff1a; 1.同比&#xff1a;本期与去年同期相比 &#xff0c;如2023年8月 比 2022年8月 2.环比&#xff1a;本期与上期相比 &#xff0c;如2023年8月 比 2023年7月 二、应用&#xff1a; 1.场景&#xff1a;统计日报、周报、月报、年报下进店客流的同比和环…

Stable Diffusion教程(6) - 图片高清放大

放大后细节 修复图片损坏 显存占用 速度 批量放大 文生图放大 好 是 高 慢 否 附加功能放大 一般 否 中 快 是 图生图放大 好 是 低 慢 是 tile模型放大 非常好 是 高 快 是 通过文生图页面的高清修复 优点&#xff1a;放大时能添加更多细节&am…

LeetCode--HOT100题(18)

目录 题目描述&#xff1a;73. 矩阵置零&#xff08;中等&#xff09;题目接口解题思路1代码解题思路2代码 PS: 题目描述&#xff1a;73. 矩阵置零&#xff08;中等&#xff09; 给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都…

【Linux】网络基础之IP协议

目录 &#x1f338;1、基本概念&#x1f33a;2、IP协议报文结构&#x1f368;2.1、4位版本号&#x1f369;2.2、4位首部长度和16位总长度&#x1f36a;2.3、8位生存时间&#xff08;TTL&#xff09;&#x1f36b;2.4、8位协议&#x1f36c;2.5、16位首部校验和&#x1f36d;2.6…