CLIP | 训练过程中图像特征和文本特征的在嵌入空间中的对齐(两个投影矩阵的学习)

CLIP | 训练过程中图像特征和文本特征的在嵌入空间中的对齐(两个投影矩阵的学习)

news2025/4/23 22:14:51

在多模态学习（Multimodal Learning）中，投影矩阵 $W_i$ 和 $W_t$ 是通过训练过程学习得到的。它们的作用是将图像特征 $I_f$ 和文本特征 $T_f$ 映射到一个共享的嵌入空间（embedding space），使得不同模态的数据可以在这个空间中进行有效的比较和对齐。

学习投影矩阵的过程

1. 初始化

在训练开始之前，投影矩阵 $W_i$ 和 $W_t$ 通常会随机初始化。这些矩阵的初始值通常是小的随机数，这样可以避免梯度消失或爆炸的问题。

2. 训练过程

投影矩阵 $W_i$ 和 $W_t$ 是通过反向传播（Backpropagation）和梯度下降（Gradient Descent）进行学习的。具体步骤如下：

前向传播（Forward Pass）：
- 使用图像编码器 $image_encoder \text{image\_encoder}$ 提取图像特征 $I_f$ 。
- 使用文本编码器 $text_encoder \text{text\_encoder}$ 提取文本特征 $T_f$ 。
- 将图像特征 $I_f$ 通过投影矩阵 $W_i$ 映射到嵌入空间，得到图像嵌入 $I_e$ 。
- 将文本特征 $T_f$ 通过投影矩阵 $W_t$ 映射到嵌入空间，得到文本嵌入 $T_e$ 。
```
I_f = image_encoder(I)  # [n, d_i]
T_f = text_encoder(T)  # [n, d_t]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)  # [n, d_e]
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)  # [n, d_e]
```

计算相似度和损失函数：

计算图像嵌入和文本嵌入之间的相似度矩阵 $\text{logits}$ 。
使用交叉熵损失函数计算图像和文本的对齐损失。

logits = np.dot(I_e, T_e.T) * np.exp(t)  # [n, n]
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t) / 2

反向传播（Backward Pass）：
- 计算损失函数 $\text{loss}$ 关于投影矩阵 $W_i$ 和 $W_t$ 的梯度。
- 使用梯度下降更新投影矩阵 $W_i$ 和 $W_t$ 。
```
# 假设我们使用的是某种优化器，如 Adam
optimizer.zero_grad()
loss.backward()
optimizer.step()
```

3. 更新规则

在每次迭代中，投影矩阵 $W_i$ 和 $W_t$ 会根据计算得到的梯度进行更新。更新规则通常如下：

$W_i \leftarrow W_i - \alpha \cdot \frac{\partial \text{loss}}{\partial W_i}$

$W_t \leftarrow W_t - \alpha \cdot \frac{\partial \text{loss}}{\partial W_t}$

其中， $\alpha$ 是学习率（learning rate），是一个超参数，控制每次更新的步长。

4. 训练目标

训练的目标是使得相似的图像和文本在嵌入空间中更接近，不相似的图像和文本更远离。通过最小化损失函数 $\text{loss}$ ，投影矩阵 $W_i$ 和 $W_t$ 逐渐学习到如何将图像和文本特征映射到一个合适的嵌入空间。

5. 训练结束

经过若干次迭代后，投影矩阵 $W_i$ 和 $W_t$ 会收敛到一个相对稳定的状态。此时，它们能够有效地将图像和文本特征映射到一个共享的嵌入空间，使得不同模态的数据可以在这个空间中进行有效的比较和对齐。

总结

投影矩阵 $W_i$ 和 $W_t$ 是通过训练过程学习得到的。它们的初始值通常是随机的，然后通过反向传播和梯度下降进行更新。训练的目标是最小化图像和文本嵌入之间的对齐损失，使得相似的图像和文本在嵌入空间中更接近，不相似的图像和文本更远离。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2341064.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Tailwind CSS 开发入门：掌握基础语法要点

Tailwind CSS 开发入门：掌握基础语法要点

在前端开发中，Tailwind CSS 以原子化设计和实用类系统，构建精美页面的得力工具，摒弃传统 CSS 繁琐写法。掌握其基础语法是熟练运用它的关键，下面将详细介绍核心基础语法。一、核心基础语法 1. 颜色类 Tailwind CSS 提供了丰富…

阅读更多...

Java八股深入理解Spring的AOP 面向切面编程底层保姆级教程手写例子

Java八股深入理解Spring的AOP 面向切面编程底层保姆级教程手写例子

目录概念 AOP 术语 1. 连接点（Jointpoint）： 2. 切入点（Pointcut）： 3. 通知（Advice）： 4. 方面/切面（Aspect）： 5. 引入&#xff…

阅读更多...

C++std::map

C++std::map

1. 概述定义：std::map 是C标准模板库（STL）中的关联容器，以键值对（key-value pairs）形式存储元素，支持快速查找和有序访问。 - 头文件：#include 底层实现…

阅读更多...

dispaly: inline-flex 和 display: flex 的区别

dispaly: inline-flex 和 display: flex 的区别

display: inline-flex 和 display: flex 都是 CSS 中用于创建弹性盒子布局（Flexbox）的属性值，但它们之间有一些关键的区别，主要体现在元素如何在页面上被渲染和它们对周围元素的影响。主要区别 1，块级 vs 行内块级 d…

阅读更多...

性能比拼: Elixir vs Go(第二轮)

性能比拼: Elixir vs Go(第二轮)

本内容是对知名性能评测博主 Anton Putra Elixir vs Go (Golang) Performance Benchmark (Round 2) 内容的翻译与整理, 有适当删减, 相关指标和结论以原作为准这是第二轮关于 Elixir 和 Go 的对比测试。我收到了一份来自 Elixir 创作者的 Pull Request ，并且我认为…

阅读更多...

【数字图像处理】立体视觉信息提取

【数字图像处理】立体视觉信息提取

双目立体视觉原理设一个为参考平面，一个为目标平面。增加了一个摄像头后，P与Q在目标面T上有分别的成像点双目立体视觉：从两个不同的位置观察同一物体，用三角测量原理计算摄像机到该物体的距离的方法原理：三角测量…

阅读更多...

【漏洞复现】Struts2系列

【漏洞复现】Struts2系列

【漏洞复现】Struts2系列 1. 了解Struts21. Struts2 S2-061 RCE （CVE-2020-17530）1. 漏洞描述2. 影响版本3. 复现过程 1. 了解Struts2 Apache Struts2是一个基于MVC设计模式的Web应用框架，会对某些标签属性（比如 id）的…

阅读更多...

Sentinel源码—5.FlowSlot借鉴Guava的限流算法二

Sentinel源码—5.FlowSlot借鉴Guava的限流算法二

大纲 1.Guava提供的RateLimiter限流使用示例 2.Guava提供的RateLimiter简介与设计 3.继承RateLimiter的SmoothBursty源码 4.继承RateLimiter的SmoothWarmingUp源码 3.继承RateLimiter的SmoothBursty源码 (1)SmoothBursty的初始化流程 (2)SmoothBursty的初始化完成后的变量…

阅读更多...

重构未来智能：Anthropic 解码Agent设计哲学三重奏

重构未来智能：Anthropic 解码Agent设计哲学三重奏

第一章智能体进化论：从工具到自主体的认知跃迁 1.1 LLM应用范式演进图谱阶段技术形态应用特征代表场景初级阶段单功能模型硬编码规则执行文本摘要/分类进阶阶段工作流编排多模型协同调度跨语言翻译流水线高级阶段自主智能体动态决策交互编程调试/客服对话 1.1.…

阅读更多...

Gradle与Idea整合

Gradle与Idea整合

文章目录 1. Groovy 简介2. Groovy 安装[非必须]3. 在idea中创建java工程 1. Groovy 简介在某种程度上，Groovy可以被视为Java的一种脚本化改良版,Groovy也是运行在JVM上，它可以很好地与Java代码及其相关库进行交互操作。它是一种成熟的面向对象编程语言…

阅读更多...

基于springboot+vue的校园二手物品交易平台

基于springboot+vue的校园二手物品交易平台

开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：…

阅读更多...

OpenCV图像上加数字水印示例

OpenCV图像上加数字水印示例

OpenCV计算机视觉开发实践：基于Qt C - 商品搜索 - 京东 14.1 基本概念当今，生成式人工智能（Artificial Intelligence Generated Content，AIGC）的火爆引燃了数字水印，说实话数字水印并不是一项新的技术&…

阅读更多...

Python爬虫从入门到实战详细版教程Char01：爬虫基础与核心技术

Python爬虫从入门到实战详细版教程Char01：爬虫基础与核心技术

1.1 什么是网络爬虫？ 1.1.1 定义与分类网络爬虫：互联网世界的“信息捕手” 网络爬虫（Web Crawler），又称网络蜘蛛或网络机器人，是一种通过预设规则自动访问网页、提取数据的程序系统。从技术视角看，其核心任务是通过模拟浏览器行为向目标服务器发起请求，解析网页内容…

阅读更多...

Day-1 漏洞攻击实战

Day-1 漏洞攻击实战

实训任务1 漏洞攻击实战一使用御剑得到网站后台地址数据库登录与日志配置使用默认密码 root:root 登录phpMyAdmin，执行 SHOW VARIABLES LIKE general% 查看日志状态。开启日志功能：set global general_log "ON";（配图&…

阅读更多...

AOSP Android14 Launcher3——RecentsView最近任务数据加载

AOSP Android14 Launcher3——RecentsView最近任务数据加载

最近任务是Launcher中的一个重要的功能，显示用户最近使用的应用，并可以快速切换到其中的应用；用户可以通过底部上滑停顿进入最近任务，也可以在第三方应用底部上滑进最近任务。这两种场景之前的博客也介绍过，本文就不…

阅读更多...

基于深度学习的校园食堂菜品智能结算系统

基于深度学习的校园食堂菜品智能结算系统

校园食堂菜品智能结算系统说明文档 1. 系统概述本系统是一款基于YOLO深度学习算法的校园食堂菜品智能结算平台，旨在通过计算机视觉技术实现食堂菜品的自动识别与结算，提高结算效率，减少人工成本，优化用户体验。系统采用PyQt5框…

阅读更多...

【UniApp】Vue2 scss 预编译器默认已由 node-sass 更换为 dart-sass

【UniApp】Vue2 scss 预编译器默认已由 node-sass 更换为 dart-sass

从 HBuilderX 4.56 ，vue2 项目也将默认使用 dart-sass 预编译器。 vue2开发者sass预处理注意： sass的预处理器，早年使用node-sass，也就是vue2最初默认的编译器。 sass官方推出了dart-sass来替代。node-sass已经停维很久了。另…

阅读更多...

AI 硬件定制：开启智能新时代的钥匙

AI 硬件定制：开启智能新时代的钥匙

AI 硬件定制：开启智能新时代的钥匙在科技飞速发展的当下，人工智能（AI）已不再是遥不可及的概念，它正以惊人的速度融入我们生活的方方面面。从智能手机中的语音助手，到工厂里的自动化生产线，AI 的身影无处不在。而在这股 AI 浪潮中，AI 硬件定制正逐渐崭露头角，成为推动…

阅读更多...

SpringBoot中配置文件的加载顺序

SpringBoot中配置文件的加载顺序

下面的优先级由高到低命令行参数java系统属性java系统环境变量外部config文件夹的application-{profile}.ym文件外部的application-{profile}.ym文件内部config文件夹的application-{profile}.ym文件内部的application-{profile}.ym文件外部config文件夹的application.ym文件外…

阅读更多...

hooker frida版just_trust_me.js 2025升级支持boringssl unpinning

hooker frida版just_trust_me.js 2025升级支持boringssl unpinning

曾几何时，我翻版了 Xposed 的 just_trust_me.apk， just_trust_me.js 脚本仿佛是一张通行证，让我们在 SSL Pinning 的高墙前轻松穿越。但时代变了。BoringSSL、Cronet、静态 inline hook、动态 verify callback……一切都变得更加隐蔽和棘手…

阅读更多...

推荐文章

最新文章