EVA-CLIP: Improved Training Techniques for CLIP at Scale论文解读

news2024/9/25 12:19:32

文章目录

  • 前言
  • 一、摘要
  • 二、引言
  • 三、贡献
  • 四、模型方法
  • 五、论文链接
  • 总结


前言

最近,我一直在搞多模态大模型相关工作,也深知CLIP结构重要性,而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick,实现优越CLIP模型的方法,恰巧该EVA-CLIP也被CogVLM模型作为图像特征提取。为此,我将在本博客对EVA-CLIP论文进行解读。


一、摘要

对比图形文本预训练模型,简称CLIP,因其在多个场景潜力受到很多人关注。在这篇文章,我们提出一系列EVA-CLIP模型,显著提高CLIP训练性能与效果。我们方法包含新的学习表征、优化器和增强,使EVA-CLIP实现更高性能,与先前相同参数下的CLIP模型相比,且更少训练成本。明显的,我们最大5B参数模型在9B课件样本实现82%zero-shot top-1精度在ImageNet-1K val数据上。更小430million参数和6B可见样本在ImageNet-1K val数据上实现80.4%zero-shot top-1精度。为了促进开放存取和开放研究,我们向社区发布了完整的EVA-CLIP代码。

在这里插入图片描述

二、引言

CLIP模型是一个很强的视觉语言基准模型,通过图像文本对比学习在大规模数据上预训练学习丰富视觉特征表达。CLIP模型显示了稳定的zero-shot迁移,能增强木多模态和单模态视觉任务,列如AI生成应用包含[41,20,32,45].尽管CLIP有很重要意义,但CLIP模型因其高计算成本和训练不稳定问题构成一个挑战。

在这篇文章,我们提出EVA-CLIP模型,一系列模型提供灵活、有效解决CLIP训练问题。我们方法包含一系列技术,能减少训练成本,使其稳定训练和提高泛化性能,包含CLIP预训练初始化EVA[20,19]方法,LAMB[52]优化器方法,随机drop 输入tokens[33]方法,和加速trick叫flash attention[15]方法。在这些技术下,我们能极大稳定CLIP模型训练,减少计算成本和改善性能。之后描述就是摘要实验结果。

三、贡献

集成众多论文一系列trick,减少CLIP模型训练成本、训练稳定、提供性能与泛化。

四、模型方法

该模型是对CLIP进行一系列trick优化其训练方法,至于众多优化方法来源不同文章方法,我将其罗列如下,至于更深入理解可自习根据论文查看。

CLIP初始化借鉴:
Exploring the limits of masked visual representation learning at scale
A visual representation for neon genesis

优化器借鉴:
Large batch optimization for deep learning: Training bert in 76 minutes

drop token借鉴:
Scaling language-image pre-training via masking

加速flash attention借鉴:
Flashattention: Fast and memory-efficient exact attention with io-awareness

五、论文链接

该论文有部分注释,下载链接如下:
链接:https://pan.baidu.com/s/1osN_qmRyrrMdQQ0S9GWVRA
提取码:clip


总结

一系列模型改善,使用其它模型系列方法改善CLIP训练的论文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1380234.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录算法训练营第四天 |链表总结

1、每次先加判断: if (head null) {return head;} 2、ListNode dummy new ListNode(-1, head);和ListNode dummy new ListNode(-1);区别: 在Java中,ListNode dummy new ListNode(-1, head); 和 ListNode dummy new ListNode(-1); 的主…

C语言数组基础知识

目录 一维数组: 一维数组的创建: 一维数组的访问: 一维数组在内存中的存储: 二维数组: 二维数组的创建: 二维数组的初始化: 二维数组的使用: 二维数组在内存中的存储&#x…

RK3568驱动指南|第十二篇 GPIO子系统-v

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…

码牛课堂首推——鸿蒙南北双向开发学习路线图标准版~

鸿蒙!鸿蒙!鸿蒙! 要说2023-2024年IT圈最火爆的名词,一定是鸿蒙! 2023年9月25日,华为发布会正式宣布2024年第一季度将推出HarmonyOS NEXT版本,这意味着鸿蒙原生应用开发将彻底摆脱Android手机系…

基于视频智能分析技术的AI烟火检测算法解决方案

一、背景需求 根据国家消防救援局公布的数据显示,2023年共接报处置各类警情213.8万起,督促整改风险隐患397万处。火灾危害巨大,必须引起重视。传统靠人工报警的方法存在人员管理难、场地数量多且分散等问题,无法有效发现险情降低…

2024年美赛数学建模思路 - 复盘:校园消费行为分析

文章目录 0 赛题思路1 赛题背景2 分析目标3 数据说明4 数据预处理5 数据分析5.1 食堂就餐行为分析5.2 学生消费行为分析 建模资料 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 赛题背景 校园一卡通是集…

ArrayList源码阅读

文章目录 简介例子继承结构概览代码分析成员变量方法迭代器子列表 总结参考链接 本人的源码阅读主要聚焦于类的使用场景,一般只在java层面进行分析,没有深入到一些native方法的实现。并且由于知识储备不完整,很可能出现疏漏甚至是谬误&#x…

activiti流程图+动态表单

使用技术 jeecg-bootactivitivue3form-create 简单效果展示 流程图绘制 审批人配置 动态表单配置 流程审批 流程审批记录 填写表单信息 源码地址 后台:https://gitee.com/houshixin/jmg-boot前端:https://gitee.com/houshixin/jmg-ui

【MySQL】导入导出SQL脚本及远程备份---超详细介绍

目录 前言: 一 navcat导入导出 1.1 导入 1.2 导出 二 mysqldump 导入导出 2.1 导入 2.2 导出 三 load data infile命令导入导出 3.1 导入 3.2 导出 四 远程备份 五 思维导图 前言: 随着当今企业发展,数据库的数据越来越多&…

HTML标签(一)

目录 HTML语法规范 基本语法概述 标签关系 HTML基本结构标签 第一个HTML网页 开发工具 VSCode的使用: VScode工具生成骨架标签新增代码 文档类型声明标签 lang语言种类 字符集 总结 HTML常用标签 标签语义 标题标签 段落标签 换行标签 文本格式化…

vue前端开发自学,异步加载组件,提升用户端的客户体验度

vue前端开发自学,异步加载组件,提升用户端的客户体验度!现实项目开发时,组件的数量非常庞大,如果都是一口气加载完,对手机用户来说,体验度会很差。因此,非常有必要使用异步加载。 那就是,用到了…

【贪心】重构字符串

/*** 思路:如果s长度小于2,直接返回s,假设字符串s的长度为n。* n为偶数,如果字符串中的某个字符数量超过 n/2 则肯定会存在相邻的字符。* n为奇数,如果字符串中的某个字符的数量超过 (n1&am…

强力推荐:本地文件加密软件—超详细加密步骤来了!

在数字化时代,数据安全问题日益受到人们的关注。 为了保护个人和企业的重要信息不被泄露,越来越多的人开始使用文件加密软件。 尤其是常常会有数据泄露风险的企业更是需要一款非常给力的加密工具来保护企业数据安全。 一、选择合适的加密软件 在选择加…

HackTheBox - Medium - Linux - Shared

Shared Shared 是一台中等难度的 Linux 机器,它具有通向立足点的 Cookie SQL 注入,然后通过对 Golang 二进制文件进行逆向工程并利用两个 CVE 来获得 root shell 来提升权限。 外部信息收集 端口扫描 循例nmap Web枚举 查看证书 看到这个扫了一下vhos…

DNS解析和它的三个实验

一、DNS介绍 DNS:domain name server 7层协议 名称解析协议 tcp /53 主从之间的同步 udp/53 名字解析 DNS作用:将域名转换成IP地址的协议 1.1DNS的两种实现方式 1.通过hosts文件(优先级最高) 分散的管理 linux /etc/hos…

如何高效进行项目文档的编制及管理?

“做完一个项目到底会产出多少份文档?” 今天看到这样一个吐槽贴:小李作为刚入行的项目经理,每天上班期间电话、会议、邮件各种不停歇,晚上还要加班做各种文档;由于经验不足,熬到十一二点还做不完是常态。…

jmeter请求发送加密参数

最近在做http加密接口,请求头的uid参数及body的请求json参数都经过加密再发送请求,加密方式为:ase256。所以,jmeter发送请求前也需要对uid及json参数进行加密。我这里是让开发写了个加密、解密的jar,jmeter直接调用这个…

模板与STL(C++)

七、模板与STL(泛型编程)7.1 模板的概念7.2 函数模板7.2.1 函数模板的定义7.2.2 函数模板的实例化7.2.3 模板参数7.2.4 函数模板的特化 7.3 类模板7.3.1 类模板的定义7.3.2 类模板实例化7.3.3 类模板特化 七、模板与STL(泛型编程)…

获得利润和成长,应采取什么步骤, 澳福认为只需坚持一点

大多数交易者通常会考虑在外汇交易中获取利润,但只有少数人会思考这样一个问题:为了获得利润和专业成长,应该采取什么步骤。像“外汇交易怎么赢利”这样的文章很受市场欢迎,但是很少有人在交易中使用这些文章中给出的建议,因为在生…

python设计模式有哪几种

Python 中常见的设计模式有以下几种 一 单例模式(Singleton Pattern):确保一个类只有一个实例,并提供全局访问点。 二 工厂模式(Factory Pattern):使用工厂方法来创建对象,而不是直…