图文多模态模型CLIP

news2025/1/23 3:50:10

前言

CLIP带给我的震撼是超过transformer的,这是OpenAI的重要贡献之一。就如官网所描述的:

CLIP: Connecting Text and Images

用对比学习(Contrastive Learning)来对齐约束图像模型和文本模型。用文本嵌入指导图像学习,图像嵌入指导文本学习。这样一来,图像分类进入了CLIP时代,不需像传统深度学习图像分类一样,先定义出类别范围,然后准备各类别的数据(比如MNIST的十分类,ImageNet的千分类)。

我们有了CLIP,可以直接任意给出一个class set如{“cat”,“dog”, “horse”,“Other”},然后给定一张图片,CLIP自然会给出图片的类别的score。

第一次见识到CLIP能力是在MSRA的分享会上,表现出的效果非常Impressive。首先,CLIP有强大的zero-shot功能,能够在零样本的基础下在ImageNet-1K的表现超过ResNet-50.

按照惯例
论文标题:Learning Transferable Visual Models From Natural Language Supervision
论文链接:https://arxiv.org/abs/2103.00020
github: https://github.com/OpenAI/CLIP


CLIP
CLIP
CLIP的大体思路就如上图所示,咱们有一个Image Encoder和一个Text Encoder分别把图像和文本编码为1024-d或者768-d的向量,我们叫做image embeddingtext embedding。CLIP的思想是将image embeddingtext embedding放到一个域里,让相应的image embeddingtext embedding有更大的相似性。

这里相似性的评估是余弦相似性,概念十分简单,即两个向量夹角的余弦值。想进一步了解Cosine Similarity的可戳《【AI数学】余弦相似性(含python实现)》。

对于n个图文对,咱们可以得到一个nxn的余弦相似性矩阵,只要使对角线的位置尽可能的接近1,而其他位置尽可能接近0,这就达到了我们优化的目的。先不急着看loss function,先看对比学习的思想,作者也引用了这篇2016年的文章《Improved Deep Metric Learning with
Multi-class N-pair Loss Objective》,大概看一张图就可以:
contrastive learning
传统的深度神经网络训练方法是比较输出值和标注值的差别,让正例离近一点,让负例远离一点;而对比学习找一大堆样例,互相之间的异类尽量远。回到CLIP,对于每一个batch,只有绑定的图文对(自己)才是正例,而其他所有图文对,都构成两两之间的负例关系。

在这里我分享自己做实验的经验,CLIP这种大规模数据集的对比学习训练依赖超大的batch size,理论上batch size越大越好,一般参考值也在4096以上。而且,如果没有较大的batch size,CLIP甚至训不收敛(与训练时间无关),因为每个batch没有足够大的对比视野。想训标准版CLIP,请考虑16卡A100以上的训练条件。

我们看CLIP的训练伪代码:
CLIP训练代码
这里构造了一个symmetric cross entropy,也很简单。只是把针对image部分和针对text部分的交叉熵损失函数加到一起。

我学习到这里的时候有一个疑问,为什么labels用np.arange(n)而不是用one-hot?相信很多同学也有这个疑问。我们想让相似性矩阵到对角线接近1,而其他位置为0,难道不是用一个对角阵当label吗

事实上,代码中构造的labels等价于构造对角阵label,仔细对比我们可以发现,labels的维度是n,而logits的维度是nxn,labels维度低于logits,这是one-hot的另一种表达方式,等价于nxn的对角阵。对这点还有不明白的,可戳《【AI数学】交叉熵损失函数CrossEntropy》, 最后面有这种用法的详解。

有疑问可留言交流~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/64974.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++11特性-其他特性

1.字符串的原始字面量 表达式:R"xxx(原始字符串)xxx"或者R"(原始字符串)",xxx要写的话,必须一样 //两种申明形式string a "aaa";//没有转义的时候就是原始字面量string b R"aaa(…

Ansible最佳实践之 AWX 作业创建和启动

写在前面 分享一些 AWX 作业创建和启动的笔记博文内容涉及: 创建作业模板涉及相关参数,作业模板角色配置介绍运行作业模板并测试的Demo 食用方式: 需要了解 Ansible理解不足小伙伴帮忙指正 傍晚时分,你坐在屋檐下,看着…

Js逆向教程20-Hook基础

Js逆向教程19-Hook基础 一、jshook Hook就是在这些流程任意环节插入自己的代码,让浏览器先执行自己的代码 然后再执行原本网站的 hook在以下流程中可以做的事情: 1.1 html流程 联机服务器:获取ip地址,ws获取参数拿回资源&…

IntelliJ IDEA 2022.3正式发布,配置云同步支持Redis好用到炸

本文已被https://yourbatman.cn收录;女娲Knife-Initializr工程可公开访问啦;程序员专用网盘https://wangpan.yourbatman.cn;技术专栏源代码大本营:https://github.com/yourbatman/tech-column-learning;公号后台回复“…

【iOS】AFNetworking

AFNetworking是MAC/iOS为了简化网络操作设计的一套网络框架,专注与网络数据传输 ,以及网络中多线程的处理,只需要简单几步就可以完成网络请求任务。 小说明 ANF的特性: 登录传参数时 , 传递 字典 即可 .( 键名为参数名 , 键值为…

【网络层】IP组播(多播)、硬件组播、IGMP、组播路由选择协议、移动IP、路由器详解、路由表和路由转发

注:最后有面试挑战,看看自己掌握了吗 文章目录IP多播----只给有相同需求的路由器传信息以看视频为例-----组播路由器支持--------运行组播协议的路由器IP组播地址------多播组的设备都有一个组播组IP地址---------一群共同需求主机的相同标识-------看直…

数据安全事故频发以及防范措施

误删除事故 最近在和IT群友的聊天中得知,一个小伙因为看错了一个语句,直接将生产数据库中所有数据全部删除了,并且该库在设计的时候虽然做了备份,但在运行过程中因某些原因把备份关闭了。 传统数据运维模式 受到科技制裁的原…

opencv c++ 霍夫直线检测

目的:在进行图像边缘提取后,将数据从平面坐标转换到极坐标空间,即完成了直线的信息提取。 1、原理 平面坐标系:通过之间的斜率k和截距b来确定一条直线。y kxb 极坐标系:通过半径r、角度θ来确定一条直线。r xcosθ …

计算机毕业设计基于Springboot+vue口腔牙科诊所管理系统

项目介绍 口腔卫生是关系民生的一个重要问题。口腔健康会直接影响全身的健康,口腔基本常见的有龋齿,牙周炎等问题,而且人类的牙齿只有2次更换周期,一旦牙齿彻底完成更换终生将不再更换,所以越来越多的人开始关系口腔问…

C++中的多态和虚函数及多态原理

定义 多态:事物的一种形态,在不同的子类中表现为多种形态,就称为多态; 分类 多态分为静态和动态多态 静态多态包括运算符重载和函数重载,复用函数名; 动态多态包括虚函数派生类; 区别&…

【Flask框架】——03 应用程序的参数加载

目录1.从配置对象中加载2.从配置文件中加载3.从环境变量中加载4.从Pycharm中的运行时设置环境变量的方式加载5.企业项目开发常用的方式应用程序配置参数设置的是一个Web应用工程的相关信息,比如: 数据库的连接信息 日志的配置信息 自定义的配置信息 ……

【苹果家庭推源码】利用新的Alloc Replication方法建立一个对象

推荐内容IMESSGAE相关 作者推荐内容iMessage苹果推软件 *** 点击即可查看作者要求内容信息作者推荐内容1.家庭推内容 *** 点击即可查看作者要求内容信息作者推荐内容2.相册推 *** 点击即可查看作者要求内容信息作者推荐内容3.日历推 *** 点击即可查看作者要求内容信息作者推荐…

[Database] 脏读、幻读这些都是什么?事务隔离级别又是什么?MySQL数据库的事务隔离级别都有哪些?

文章目录前言事务隔离级别三种数据不一致问题1. 脏读2. 不可重复读3. 幻读不可重复读 vs 幻读四种事务隔离级别1. READ UNCOMMITTED2. READ COMMITTED3. REPEATABLE READ4. SERIALIZABLE不同事务隔离级别会面临的问题不同隔离事务级别的使用率排名实战查看事务隔离级别更改事务…

linux篇【11】:计算机网络—网络基础

目录 一.网络基础 1.认识 "协议" 2.协议分层 (1)软件分层 (2)协议分层 3.OSI七层模型 4.TCP/IP五层(或四层)模型 5.网络和操作系统之间的关系 6.数据包的封装(封包)和解包,分用 (1&…

四、文件管理(一)文件系统基础

目录 1.1文件的基本概念 1.2文件控制块和索引结点 1.3文件的操作 1.4文件保护 1.5文件的逻辑结构 1.5.1无结构文件(流式文件) 1.5.2有结构文件(记录式文件) 1.5.2.1顺序文件 1.5.2.2索引文件 1.5.2.3索引顺序文件 1.5…

数据库之架构

一、数据库架构原则 高可用 高性能 一致性 扩展性 二、常见的架构方案 方案一:主备架构,只有主库提供读写服务,备库冗余作故障转移用 jdbc:mysql://vip:3306/xxdb 1、高可用分析:高可用,主库挂了,kee…

[ vulhub漏洞复现篇 ] Apache Solr RemoteStreaming 文件读取与SSRF漏洞 (CVE-2021-27905)

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

C++11特性-易用性改进

1.字符串的原始字面量 表达式:R"xxx(原始字符串)xxx"或者R"(原始字符串)",xxx要写的话,必须一样 //两种申明形式string a "aaa";//没有转义的时候就是原始字面量string b R"aaa(…

总体设计阶段复习

总体设计总体设计(概要设计/初步设计):确定系统模块及相互关系,划分程序,文件,数据库,文档等物理元素设计原理:启发规则图形工具:面向数据流设计方法(SD)总体设计(概要设计/初步设计):确定系统模块及相互关系,划分程序,文件,数据库,文档等物理元素 系统设计阶段 数据流图分析方…

一篇五分生信临床模型预测文章代码复现——Figure 4-6 临床模型构建(六)

之前讲过临床模型预测的专栏,但那只是基础版本,下面我们以自噬相关基因为例子,模仿一篇五分文章,将图和代码复现出来,学会本专栏课程,可以具备发一篇五分左右文章的水平: 本专栏目录如下: Figure 1:差异表达基因及预后基因筛选(图片仅供参考) Figure 2. 生存分析,…