(2024,弱到强蒸馏,开源 CLIP,模型扩展)EVA-CLIP-18B:将 CLIP 扩展到 18B 参数

news2025/1/19 17:21:08

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

1. 简介

2. 弱到强视觉扩展

3. 实验


0. 摘要

扩展对比语言-图像预训练(contrastive language-image pretraining,CLIP)对于强化视觉和多模态模型至关重要。我们介绍 EVA-CLIP-18B,迄今为止最大且最强大的开源 CLIP 模型,具有18B 参数。仅在看到 6B 训练样本的情况下,EVA-CLIP-18B 在 27 个广泛认可的图像分类基准测试中取得了卓越的 80.7% 零样本 top-1 准确性,优于其前身 EVA-CLIP(5B 参数)和其他开源CLIP 模型很大一部分。值得注意的是,尽管保持固定的来自 LAION-2B 和 COYO-700M 的 20B 图像文本对训练数据集,但我们观察到 EVA-CLIP 模型尺寸扩大时始终保持一致的性能改善。此数据集是公开可用的,比其他最先进的 CLIP 模型中使用的内部数据集(例如 DFN-5B,WebLI-10B)要小得多。EVA-CLIP-18B 展示了 EVA-style 弱到强(weak-to-strong)视觉模型扩展的潜力。通过公开提供我们的模型权重,我们希望促进未来在视觉和多模态基础模型领域的研究。

代码:baaivision/EVA/EVA-CLIP-18B

1. 简介

近年来,大型多模态模型(Large Multimodal Models,LMM)[3, 64, 62, 69, 5, 46] 迅速增长,CLIP 模型 [53, 19, 63, 43, 75, 28, 17] 作为基础视觉编码器,提供强大而可迁移的视觉表示,而大型语言模型(Large Language Models,LLM)[65, 54] 则作为在不同模态之间进行推理的通用接口。然而,随着 LLMs 的规模扩大到约 100B 参数或更高 [11, 20, 65],采用的视觉基础模型仍然在一个较小的尺度上运行,远远落后于 LLM。

本文介绍了 EVA-CLIP-18B,这是具有 18B 参数的最大的开源 CLIP 模型,以缩小这一差距。EVA-CLIP [63] 开源了一系列有效且高效的 CLIP 模型,这些模型已被许多在 2D/3D 视觉和多模态建模领域有影响力的工作所采用 [42, 78, 77, 50, 69, 64]。基于 EVA [30, 29] 和 EVA-CLIP [63] 的扩展理念,我们进一步扩大了 EVA-CLIP 的规模。仅看到 6B 训练样本,并在公开可用的数据集上进行训练,EVA-CLIP-18B 在 27 个广泛认可的图像分类基准测试上取得了卓越的 80.7% 平均零样本 top-1 准确性,明显优于其前身 EVA-02-CLIP-E/14+ (5B 参数) 和其他开源 CLIP 模型。此外,这些模型没有显示出性能饱和的迹象,为进一步扩展视觉模型提供了启示。图 1 展示了一个直观的演示。

EVA-CLIP-18B 的成功训练体现了 EVA-style 视觉模型扩展理念的潜力。我们持续开源我们模型的训练代码和权重,以鼓励进一步研究并推动视觉和多模态基础模型的发展。

2. 弱到强视觉扩展

我们的扩展过程遵循 EVA [30] 和 EVA-CLIP [63] 的原则。EVA 对于扩展视觉模型的理念采用了弱到强(weak-to-strong)的范式,旨在通过策略性进展来改进视觉模型。这个过程始于从一个小 EVA-CLIP 模型中蒸馏知识的大 EVA  视觉模型,小模型还作为视觉编码器初始化,以稳定和加速大 EVA-CLIP 的训练。之后,这个封闭循环继续扩展,生成一个更大的 EVA。在整个模型扩展循环中,训练数据集基本保持不变,以展示我们模型规模特定的扩展理念的有效性,尽管扩大数据集可以进一步释放我们方法的扩展能力。

具体而言,在这项工作中,我们使用一个小的 EVA-CLIP(EVA-02-CLIP-E/14+)[63] 作为教师,对一个大型 EVA 模型进行预训练,命名为 EVA-18B。该教师模型被训练以从 EVA-02-CLIP-E/14+ 中重构被掩蔽的图像文本对齐的视觉特征。遵循 LLaMA [65],EVA-18B 省略了 QKV 投影的偏置项,使用 RMSNorm [76] 代替 LayerNorm [4]。随后,我们将 EVA 模型用作 EVA-CLIP 的视觉编码器初始化,进行图像文本对比学习目标的预训练。此外,我们还引入了一个较小的对应模型,EVA-CLIP-8B,它经历了类似的预训练方法。值得注意的是,我们的实验证明了通过逐渐弱教强扩展 EVA-CLIP,性能保持不断提升。

3. 实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1438792.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flink实战六_直播礼物统计

接上文:Flink实战五_状态机制 1、需求背景 现在网络直播平台非常火爆,在斗鱼这样的网络直播间,经常可以看到这样的总榜排名,体现了主播的人气值。 人气值计算规则:用户发送1条弹幕互动,赠送1个荧光棒免费…

【JS逆向八】逆向某企查网站的headers参数,并模拟生成 仅供学习

逆向日期:2024.02.07 使用工具:Node.js 加密方法:未知 / 标准库Hmac-SHA512 文章全程已做去敏处理!!! 【需要做的可联系我】 可使用AES进行解密处理(直接解密即可):AES加…

2月7日作业

分别通过select、多进程、多线程实现一个并发服务器 #include <myhd.h> #define IP "192.168.250.100" #define PORT 8888 int deal_cli_msg(int newfd,struct sockaddr_in cin) {char buf[128] "";while(1){bzero(buf,sizeof(buf));int res recv…

【已解决】onnx转换为rknn置信度大于1,图像出现乱框问题解决

前言 环境介绍&#xff1a; 1.编译环境 Ubuntu 18.04.5 LTS 2.RKNN版本 py3.8-rknn2-1.4.0 3.单板 迅为itop-3568开发板 一、现象 采用yolov5训练并将pt转换为onnx&#xff0c;再将onnx采用py3.8-rknn2-1.4.0推理转换为rknn出现置信度大于1&#xff0c;并且图像乱框问题…

(力扣)1314.矩阵区域和

给你一个 m x n 的矩阵 mat 和一个整数 k &#xff0c;请你返回一个矩阵 answer &#xff0c;其中每个 answer[i][j] 是所有满足下述条件的元素 mat[r][c] 的和&#xff1a; i - k < r < i k, j - k < c < j k 且(r, c) 在矩阵内。 示例 1&#xff1a; 输入&a…

春节假期如何高效管理Shopee虾皮本土店?技巧都给你整理好了!

EasyBoss ERP 对于中国人最重要的春节即将来临&#xff0c;但对于运营Shopee、TikTok Shop等平台的卖家而言&#xff0c;他们的客户可不会过春节。为了不影响店铺的业绩&#xff0c;很多卖家在春节期间都还是照常运营店铺&#xff0c;但又不想错过和家人团圆的机会怎么办&…

Redis.conf 配置文件解读

1、单位 容量单位不区分大小写&#xff0c;G和GB没有区别 配置文件 unit单位 对大小写不敏感 2、组合配置 可以使用 include 组合多个配置问题 3、网络配置 bind 127.0.0.1 # 绑定的ip protected-mode yes # 保护模式 port 6379 # 端口设置4、通用 GENERAL daemoniz…

STM32 硬件随机数发生器(RNG)

STM32 硬件随机数发生器 文章目录 STM32 硬件随机数发生器前言第1章 随机数发生器简介1.1 RNG主要特性1.2.RNG应用 第2章 RNG原理框图第3章 RNG相关寄存器3.1 RNG 控制寄存器 (RNG_CR)3.2 RNG 状态寄存器 (RNG_SR)3.3 RNG 数据寄存器 (RNG_DR) 第3章 RNG代码部分第4章 STM32F1 …

洛谷:P1219 [USACO1.5] 八皇后 Checker Challenge(dfs深度优先遍历求解)

题目描述 一个如下的 6666 的跳棋棋盘&#xff0c;有六个棋子被放置在棋盘上&#xff0c;使得每行、每列有且只有一个&#xff0c;每条对角线&#xff08;包括两条主对角线的所有平行线&#xff09;上至多有一个棋子。 上面的布局可以用序列 2 4 6 1 3 52 4 6 1 3 5 来描述&am…

wsl 安装minikube

Minikube是一种轻量化的Kubernetes集群&#xff0c;专为开发者和学习者设计&#xff0c;以便他们能够更好地学习和体验Kubernetes的功能。它利用个人PC的虚拟化环境&#xff0c;实现了Kubernetes的快速构建和启动。目前&#xff0c;Minikube已经支持在macOS、Linux和Windows平台…

浅析Linux内核模块自加载机制

文章目录 概述Linux内核模块管理内核模块存放目录modules系列文件 阻止模块启动时加载 systemd-module-load.service配置文件内核启动参数 udev动态加载机制udev工作流程udev配置示例&#xff1a;网卡重命名 相关参考 概述 模块自加载用于配置系统在启动时自动加载所需要的模块…

ctfshow-web11~20-WP

web11 根据提示,查询对ctfshow域名进行dns查询,查看TXT记录 阿里云查询链接:阿里云网站运维检测平台 获取flag成功 web12 根据题目提示,我们访问robots.txt,获取到后台地址 然后我们访问一下后台

算法效率的度量-时间空间复杂度

常对幂指阶 1.时间复杂度 事前预估 算法 时间开销 T(n) 与 问题规模 n 的关系&#xff08; T 表示 “ time ”&#xff09; 一般默认问题规模为n。 1.单循环 2.嵌套两层循环都为n 3.单层循环指数递增型 4.搜索型 链接 &#xff1a;第七章查找算法&#xff01;&#xff01…

C语言数组与扫雷游戏实现(详解)

扫雷游戏的功能说明 使⽤控制台实现经典的扫雷游戏游戏可以通过菜单实现继续玩或者退出游戏扫雷的棋盘是9*9的格子默认随机布置10个雷可以排查雷 ◦ 如果位置不是雷,就显示周围有几个雷 ◦ 如果位置是雷,就炸死游戏结束 ◦ 把除10个雷之外的所有雷都找出来,排雷成功,游戏结…

PMP备考的三个阶段及学习方法分享

PMP证书是项目管理必备的关键技能证书&#xff0c;是具备进行项目管理的重要技能体现。无论升职加薪&#xff0c;还是从事项目管理工作&#xff0c;都非常重要。 个人主要从事产品开发工作&#xff0c;开始逐渐承担一些项目经理角色&#xff0c;但目前项目管理知识薄弱&#x…

政安晨:示例演绎Python语言外部库的使用

这篇咱们示例演绎Python的一个重要能力&#xff1a;导入、运算符重载和进入外部库世界的生存技巧。 在咱们这一篇中&#xff0c;你将学习Python中的导入&#xff0c;获取使用不熟悉的库&#xff08;以及它们返回的对象&#xff09;的一些技巧&#xff0c;并深入了解运算符重载…

0206作业

TCP&#xff08;传输控制协议&#xff09;和 UDP&#xff08;用户数据报协议&#xff09;是两种常用的网络传输协议。它们之间的主要区别在于&#xff1a; 可靠性&#xff1a;TCP 是一种可靠的传输协议&#xff0c;它提供了数据传输的确认、重传和排序功能。如果数据在传输过程…

24.云原生ArgoCD高级之钩子

云原生专栏大纲 文章目录 Argo CD钩子如何定义钩子钩子删除策略 Argo CD钩子 Argo CD 是一个用于部署和管理 Kubernetes 应用程序的工具&#xff0c;它提供了一种声明式的方式来定义和自动化应用程序的部署过程。Argo CD 钩子&#xff08;Hooks&#xff09;是一种机制&#x…

Damn Small Linux 停更16年后,2024 回归更新

Damn Small Linux(DSL) 发行版释出了最新的 2024 版本&#xff0c;并重新定义了什么叫“Damn Small”。 DSL 诞生于 2005 年&#xff0c;原本是尝试提供一个 50MB 大小的 LiveCD&#xff0c;2008 年开发停滞。 2024 年原作者 John Andrews 宣布 DSL 复活&#xff0c;在几乎所…

springboot基础案例(二)

文章目录 前言一.需求分析: 分析这个项目含有哪些功能模块二.库表设计(概要设计): 1.分析系统有哪些表 2.分析表与表关系 3.确定表中字段(显性字段 隐性字段(业务字段))2.1 创建一个库: ems-thymeleaf2.2 创建 2张表三.编码(环境搭建)1.创建一个springboot项目 项目名字: ems-t…