【NLP 52、多模态相关知识】

【NLP 52、多模态相关知识】

news2025/4/7 7:10:09

生活应该是美好而温柔的，你也是

—— 25.4.1

一、模态 modalities

常见： 文本、图像、音频、视频、表格数据等

罕见： 3D模型、图数据、气味、神经信号等

二、多模态

1、Input and output are of different modalities (eg： text-to-image, image-to-text)

输入和输出具有不同的模态（例如文本到图像、图像到文本）

2、Inputs are multimodal (eg：a system that can process both text and images)

输入同时是多模态的（例如可以处理文本和图像的系统）

3、Outputs are multimodal (eg： a system that can generate both text and images)

输出是多模式的（例如可以生成文本和图像的系统）

三、为什么需要多模态

1.许多现实任务是天然的多模态任务

2.加入不同模态有助于模型提升表现（加强模型对世界的理解）

3.更加灵活的使用方式和广阔的应用场景

四、GPT-4V

接收图像 + 提示词，给出一些回答

五、多模态模型要点

1.文本如何编码

Transformer 文本编码器

2.图像如何编码

ViT 图像编码器

把一张图像切分成n份，把每份切分后的图像展平为一个向量，在这些向量中可以加入位置编码（位置编码也可以换做ROPE相对位置编码）进行定位，每一小份图像相当于NLP领域中的每个字，输入的图像就是一个矩阵

图像self-attention

图像的self-attention可以看作是图像的每一部分与图像的其余部分在交互做计算

3.文本编码与图像编码之间如何交互【计算关系】

Ⅰ、CLIP 图文交互

分别对文本（Text encoder）和图像（Image encoder）进行编码，两者经过编码后分别得到一个向量，然后对这两个得到的向量做一种类似于Triplet Loss 或 Cosine的训练

训练目标：如果这段文本是用来描述这张图的，则让二者的向量比较接近，反之则差距较远

CLIP图文交互：使用对比学习的训练方式

将图像和文本编码到统一特征空间，并通过最大化匹配对的相似度、最小化非匹配对的相似度来对齐两种模态。

CLIP 采用文本编码器和图像编码器的双塔结构，分别处理文本和图像输入，并将两者的特征映射到同一向量空间。

文本编码器：基于 Transformer，输入文本通过词嵌入和位置编码后，经多层自注意力机制提取语义特征，最终输出固定长度的文本嵌入向量（如 512 维）。

图像编码器：支持 ResNet 或 Vision Transformer（ViT）。以 ViT 为例，图像被分割为 16×16 的图像块，通过线性投影和位置编码后，经多层 Transformer 层提取视觉特征，输出图像嵌入向量。

联合嵌入空间：通过共享投影层（如全连接层）将文本和图像嵌入归一化为单位向量，确保两者在同一空间中可计算相似度。

Ⅲ、flamingo 图文交互

Flamingo 是 DeepMind 提出的多模态视觉语言模型，通过冻结预训练模型 + 新型交叉注意力机制的架构设计，实现了少样本学习（Few-Shot Learning）和上下文学习（In-Context Learning）能力。

flamingo gated xatten

Attention同时输入一个x 和 y，输入的图像矩阵 x 过所谓的 K 和 V，输入的文本编码 y 过 Q，然后以 Q、K、V的形式计算交叉注意力cross attention

计算q * k ^ t，横轴是文本，竖轴是图像，计算图像序列与文本序列的注意力

Ⅳ、LLava 图文交互（倾向于主流）

输入时，直接将输入图像的编码与输入文本的编码拼接起来，一起送入语言模型【如传统的Transformer结构】

LLava attention (本质上就是普通的self-attention)

文字向量与图像向量拼接起来的序列，与自身逐个计算注意力分数，得到一个拼接序列长度 × 拼接序列长度的注意力矩阵

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2327312.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Element Plus 常用组件

Element Plus 常用组件

2025/4/1 向全栈工程师迈进！！！ 常见Element Plus组件的使用，其文章中“本次我使用到的按钮如下”是我自己做项目时候用到的，记录以加强记忆。阅读时可以跳过。一、Button按钮 1.1基础按钮在element plus中提供的按…

阅读更多...

2025年优化算法：真菌生长优化算法(Fungal Growth Optimizer，FGO)

2025年优化算法：真菌生长优化算法(Fungal Growth Optimizer，FGO)

真菌生长优化算法(Fungal Growth Optimizer，FGO) 是发表在中科院一区期刊“ARTIFICIAL INTELLIGENCE REVIEW”（IF：6.7）的2025年3月智能优化算法 01.引言 Fungal Growth Optimizer (FGO) 是一种基于真菌生长行为的元启发式优化算法…

阅读更多...

阿里通义千问发布全模态开源大模型Qwen2.5-Omni-7B

Qwen2.5-Omni 是一个端到端的多模态模型，旨在感知多种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。汇聚各领域最先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。https:/…

阅读更多...

论文阅读：基于增强通用深度图像水印的混合篡改定位技术 OmniGuard

论文阅读：基于增强通用深度图像水印的混合篡改定位技术 OmniGuard

一、论文信息论文名称：OmniGuard: Hybrid Manipulation Localization via Augmented Versatile Deep Image Watermarking作者团队：北京大学发表会议：CVPR2025论文链接：https://arxiv.org/pdf/2412.01615二、动机与贡献动机：随着生成式 AI 的快速发展，其在图像编辑领…

阅读更多...

深挖 DeepSeek 隐藏玩法·智能炼金术2.0版本

深挖 DeepSeek 隐藏玩法·智能炼金术2.0版本

前引：屏幕前的你还在AI智能搜索框这样搜索吗？“这道题怎么写”“苹果为什么红”“怎么不被发现翘课” ，。看到此篇文章的小伙伴们！请准备好你的思维魔杖，开启【霍格沃茨模式】，看我如何更新秘密的【知识炼金…

阅读更多...

【新手初学】SQL注入getshell

【新手初学】SQL注入getshell

一、引入木马介绍： 木马其实就是一段程序，这个程序运行到目标主机上时，主要可以对目标进行远程控制、盗取信息等功能，一般不会破坏目标主机，当然，这也看黑客是否想要搞破坏。木马类型： 按照功…

阅读更多...

DAY 34 leetcode 349--哈希表.两个数组的交集

DAY 34 leetcode 349--哈希表.两个数组的交集

题号349 我尝试硬解失败 /*class Solution {public int[] intersection(int[] nums1, int[] nums2) {int n1nums1.length;int n2nums2.length;int sizeMath.min(n1,n2);int []arrnew int[size];int count0;for(int i0;i<n1;i){outerloop:for(int j0;j<n2;j){if(nums1[i…

阅读更多...

14-SpringBoot3入门-MyBatis-Plus之CRUD

14-SpringBoot3入门-MyBatis-Plus之CRUD

1、整合 13-SpringBoot3入门-整合MyBatis-Plus-CSDN博客 2、表 3、crud package com.sgu;import com.sgu.mapper.UserMapper; import com.sgu.pojo.User; import org.junit.jupiter.api.Test; import org.springframework.beans.factory.annotation.Autowired; import org.spri…

阅读更多...

三轴云台之相机技术篇

三轴云台之相机技术篇

一、结构设计三轴云台通常由空间上三个互相垂直的框架构成，包括内框（俯仰框）、中框（方位框）和外框（横滚框）。这些框架分别负责控制相机的俯仰运动、方位运动和横滚运动，从而实现对目…

阅读更多...

Bugku-再也没有纯白的灵魂

Bugku-再也没有纯白的灵魂

下载文件发现是兽音先用https://roar.iiilab.com/加密flag 得到“~呜嗷嗷嗷嗷呜啊嗷啊呜呜嗷呜呜~嗷嗷~啊嗷啊呜嗷嗷~嗷~嗷~呜呜嗷呜啊啊”，与密文对比对比发现字段少个啊，并且B对应嗷，U对应呜，G对应啊，K对应~补充啊后…

阅读更多...

多模态大语言模型arxiv论文略读（一）

多模态大语言模型arxiv论文略读（一）

Does Transliteration Help Multilingual Language Modeling? ➡️ 论文标题：Does Transliteration Help Multilingual Language Modeling? ➡️ 论文作者：Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib ➡️ 研究机构: Pennsyl…

阅读更多...

单元测试原则之——不要模拟不属于你的类型

单元测试原则之——不要模拟不属于你的类型

在单元测试中，不要模拟不属于你的类型（Don’t mock types you don’t own）是一个重要的原则。这是因为外部库或框架的类型（如第三方依赖）可能会在未来的版本中发生变化，而你的模拟可能无法反映这些变化，从而导致测试失效。以下是一个基于Java Mockito 的示例，展示如何…

阅读更多...

算法与数据结构面试题

算法与数据结构面试题

算法与数据结构面试题加油！ 考查数据结构本身什么是数据结构简单地说，数据结构是以某种特定的布局方式存储数据的容器。这种“布局方式”决定了数据结构对于某些操作是高效的，而对于其他操作则是低效的。首先我们需要理解各种数据结构&a…

阅读更多...

边缘检测技术现状初探2:多尺度与形态学方法

边缘检测技术现状初探2:多尺度与形态学方法

一、多尺度边缘检测方法多尺度边缘检测通过在不同分辨率/平滑度下分析图像，实现： 粗尺度（大σ值）：抑制噪声，提取主体轮廓细尺度（小σ值）：保留细节，检测微观…

阅读更多...

【AI News | 20250402】每日AI进展

【AI News | 20250402】每日AI进展

AI Repos 1、Dolphin 由数据海洋AI与清华大学联合研发的Dolphin多任务语音识别模型正式亮相。该模型覆盖东亚、南亚、东南亚及中东地区40余种语言，并支持22种汉语方言，训练数据量超21万小时（含自有及开源数据），具备语…

阅读更多...

操作系统高频（七）虚拟地址与页表

操作系统高频（七）虚拟地址与页表

操作系统高频（六）虚拟地址与页表 1.什么是文件系统？它的作用是什么？⭐ 存储管理：文件系统负责管理计算机的存储设备，如硬盘、固态硬盘等。它将文件存储在这些设备上，并负责分配和回收存储空间…

阅读更多...

openEuler24.03 LTS下安装Flume

openEuler24.03 LTS下安装Flume

目录前提条件下载Flume 解压设置环境变量修改日志文件测试Flume 在node2安装Flume 前提条件 Linux安装好jdk Flume一般需要配合Hadoop使用，安装好Hadoop完全分布式集群，可参考：openEuler24.03 LTS下安装Hadoop3完全分布式下载F…

阅读更多...

现代几何风格网页标牌标识logo海报标题设计psai英文字体安装包 Myfonts – Gilroy Font Family

现代几何风格网页标牌标识logo海报标题设计psai英文字体安装包 Myfonts – Gilroy Font Family

Gilroy 是一款具有几何风格的现代无衬线字体。它是原始 Qanelas 字体系列的弟弟。它有 20 种粗细、10 种直立字体和与之匹配的斜体。Light 和 ExtraBold 粗细是免费的，因此您可以随心所欲地使用它们。设计时考虑到了强大的 opentype 功能。每种粗细都包括扩展语言支…

阅读更多...

ControlNet-Tile详解

ControlNet-Tile详解

一、模型功能与应用 1. 模型功能 ControlNet-Tile模型的主要功能是图像的细节增强和质量提升。它通过以下几个步骤实现这一目标： 语义分割：模型首先对输入的图像进行语义分割，识别出图像中不同的区域和对象。这一步是为了让模型理解图像的内…

阅读更多...

leetcode 2873. 有序三元组中的最大值 I

leetcode 2873. 有序三元组中的最大值 I

欢迎关注更多精彩关注我，学习常用算法与数据结构，一题多解，降维打击。文章目录题目描述题目剖析&信息挖掘解题思路方法一暴力枚举法思路注意复杂度代码实现方法二公式拆分动态规划思路注意复杂度代码实现题目描述 [2873] 有序三元…

阅读更多...

推荐文章

最新文章