多模态简述

news2025/1/21 3:01:15

多模态学习概念

【多模态简述-哔哩哔哩】 https://b23.tv/UrUyfln

定义:

模态:事物表达或感知的方式

多模态:研究异构和相互连接数据的科学,涵盖了从原始的器官信号到抽象概念的多种模态

语音和语言是理解人物交互的关键模态,而情感和图像就为我们提供了对环境和对对象的感知,通过分析模态可以更好的理解人类是如何通过不同的方式感知和表达信息 

多模态的行为和信号:

 理解和分析人类行为的重要信号

 多模态的研究发展历史:

近五年,深度学习的发展推动了多模态研究的进展,使我们深入的探索和理解不同模态的复杂关系

近两年,大模型的蓬勃发展,多模态又进行创新

多模态的研究任务:

上世纪80s-90s:语音、视觉识别

现在:如何结合语言和视觉两种模态,开发更复杂的人工智能系统;通过视觉理解场景内容,通过语言进一步理解场景中发生的事情或对象之间的关系

语言:理解世界和沟通思想的基础

视觉:感知世界的关键

多模态学习六大挑战

Representation(表示学习):

例如现在的Transformer,将文本、图像等信息都表示为一个token,这就是一个表示学习

目标:

学习能够反映不同模态之间交叉交互的表示,包括融合、协调、分裂等子挑战

分类:

融合:将不同模态的信息融合在一起

协调:确保不同模态之间的信息能够协同工作

分裂:将结合的信息重新拆分,更便于分析理解

Alignment(对齐):

将文本和图像对齐,有助于更好的了解其中的信息,确保了不同模态的信息可以被正确的关联和理解

定义:

涉及识别和建模,多个模态之间的交叉连接,将其从数据结构中构建起来

分类:

包括了连接、对齐表示、分割等子挑战,以及显式和隐式对齐,个体元素的粒度问题

Reasoning(推理):

 多模态推理结合了知识,通过多个推理步骤,利用多模态对齐和问题结构

分类:

要求不仅要了解单个模态的信息,还要理解他们如何相互作用以及如何影响整体的过程,然后对其进行内部信息推理,得到最终结果。

 Generation(生成):

定义:

关注学习生成的一个过程,反应交叉模态交互结构和一致性的原始模态

分类:

要求不仅要理解现有的信息(文本、图像),还需要创造性的理解以及生成一些新的一致性信息

Transference(迁移): 

定义:

在模态之间转换知识,通常为了帮助目标模态,这些模态可能是嘈杂的或者是资源有限的

目标:

用一个模态的知识去增强另一个模态,以此来提高另一个模态的性能或者鲁棒性

分类:

 Quantification(量化):

定义:

对多模态理论的实证或理论研究,以此来更好的理解异构性;不仅以定性的角度了解多模态学习,还要能量化和评估不同模态之间的交互和整体学习效果。

分类:

多模态领域的经典工作:

 ViLT:

一种新型的视觉-语言预训练模型,通过简化视觉输入处理,摒弃了传统的卷积神经网络和区域监督方法。ViLT使用Transformer模块直接处理像素级输入,与文本输入的线性嵌入方式一致,显著提升了模型的效率和速度。

实验证明,ViLT在视觉问答和图像-文本检索等任务上具有与现有模型相当或更优的性能,同时大幅度减少了计算量和模型参数。此外,ViLT还首次在VLP训练中采用了整词Mask和图像增强技术,进一步提升了性能。该模型为视觉-语言研究提供了一个更高效,简化的新架构。

CLIP:

 CLIP通过从互联网上收集的4亿对图像-文本对进行预训练学习而来。CLIP的核心创新在于直接利用自然语言作为监督信号,而非传统的固定类别标注数据。这种方法突破了传统计算机视觉系统对特定预定义类别的依赖,实现了在多种计算机视觉任务上的zero-shot迁移能力。

 CLIP通过对比学习框架,同时训练图像编码器和文本编码器,预测图象与其对应文本的正确配对。CLIP在超过30个不同的现有计算机视觉数据集上进行了基准测试,包括OCR、视频动作识别、地理定位和多种细粒度物体分类任务。结果显示,CLIP在大多数任务上都能平凡地迁移,并且与全监督基线相当,无需特定数据集的训练。此外,CLIP在ImageNet上的零样本准确率与原始的ResNet-50相当,且未使用其训练中使用的128万张训练样本。

ALBEF:

定义:一种强调在融合之前先对不同模态数据进行对齐的多模态学习框架

 ALBEF是一种新型的视觉-语言表示学习框架,通过对比损失在融合前对齐图像和文本表示,以实现更准确的多模态学习。该方法无需边界框注释或高分辨率图像,采用动量蒸馏(MoD)自训练方法,从噪声网络数据中学习,提高预训练和下游任务的性能。ALBEF在多项视觉-语言任务上取得了最先进的结果,如图像-文本检索、视觉问答(VQA)和NLVR等,同时具有更快的推理速度。该框架提供了从互信息最大化角度的理论分析。

ITM:二分类任务,给定一个图片和一个文本加一个分类头,判断图片和文本是否为一个对

MLM:随机Mask掉一些单词,并进行重建

BLIP:

BLIP,一种新的多模态视觉-语言预训练框架,旨在统一视觉-语言理解与生成任务。BLIP通过两个主要创新点实现性能提升:多模态混合编码器-解码器(MED)架构,它能够灵活地处理多种任务;其次是引入了标题生成和过滤(CapFlit)方法,通过生成合成标题并过滤噪声标题来优化从网络收集的噪声数据。BLIP在多项视觉-语言任务上实现了最先进的结果,包括图像-文本检索、图像字母生成和视觉问答(VQA),并且在视频语言任务上展示了强大的零样本泛化能力。

MED模型结合了图像编码器和文本编码器,通过图像-文本对比学习、匹配和条件语言建模三个目标进行联合预训练。CapFilt方法则包含一个标题生成器,用于为网络图片生成合成标题,以及一个过滤器,用于移除原始网络文本和合成文本中的噪声。

LLaVA:

LLaVA,一个经过端到端训练的大型多模态模型,一个ViT和一个LLM经MLP连接,以实现通用的视觉和语言理解。为了改善多模态领域的指令跟随能力,作者首次尝试使用语言模型GPT-4生成语言-图像指令跟随数据。

通过在这些生成的数据上进行指令调整,LLaVA在多模态对话任务上展现出卓越的能力,与GPT-4相比,在合成多模态指令跟随数据集上达到了85.1%的相对得分。此外,当在科学问答数据集上微调时,LLaVA与GPT-4的结合达到了92.53%的新的最佳准确率。

同时构建了两个具有挑战性的基准测试,以评估模型在多模态任务上的表现。

这项工作为构建能够理解和执行视觉指令的通用视觉助手铺平了道路,并为未来的多模态研究提供了有价值的资源和基准。 

基础名词:

多模态数据

视觉数据:如图像、视频。

文本数据:如自然语言描述、标题、标签。

音频数据:如语音、音乐。

传感器数据:如温度、压力等物理量。

模态融合:

早期融合:在特征提取阶段就将不同模态的数据合并。

中期融合:在特征提取后的中间表示阶段合并。

晚期融合:在决策或分类阶段合并不同模态的结果。

多模态:

模态对齐:确保不同模态数据在语义、时间或空间上保持一致。

模态交互:不同模态数据之间的相互作用和影响。

零样本学习:模型能够在没有或只有很少样本的情况下识别新类别。

跨模态检索:根据一种模态的信息检索另一种模态的相关内容,如根据文本描述检索图像。

模态增强:通过添加或增强模态来提高模型的性能或鲁棒性。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2243049.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RabbitMQ-死信队列(golang)

1、概念 死信(Dead Letter),字面上可以理解为未被消费者成功消费的信息,正常来说,生产者将消息放入到队列中,消费者从队列获取消息,并进行处理,但是由于某种原因,队列中的…

第8章利用CSS制作导航菜单

8.1 水平顶部导航栏 8.1.1 简单水平导航栏的设计与实现 8.1.1.1导航栏的创建 <nav>标签是 HIML5 新增的文档结构标签&#xff0c;用于标记导航栏&#xff0c;以便后续与网站的其他内整合&#xff0c;所以常用<nav>标签在页面上创建导航栏菜单区域。 例如,在<na…

「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024

你是否想过&#xff0c;未来你看到的电影预告片、广告&#xff0c;甚至新闻报道&#xff0c;都可能完全由 AI 生成&#xff1f; 在人工智能迅猛发展的今天&#xff0c;视频技术正经历着一场前所未有的变革。从智能编解码到虚拟数字人&#xff0c;再到 AI 驱动的视频生成&#…

C++:哈希拓展-位图

目录 一.问题导入 二.什么是位图? 2.1如何确定目标数在哪个比特位? 2.2如何存放高低位 2.3位图模拟代码实现 2.3.1如何标记一个数 2.3.2如何重置标记 2.3.3如何检查一个数是否被标记 整体代码实现 标准库的Bitset 库中的bitset的缺陷 简单应用 一.问题导入 这道…

nacos-operator在k8s集群上部署nacos-server2.4.3版本踩坑实录

文章目录 操作步骤1. 拉取仓库代码2. 安装nacos-operator3. 安装nacos-server 坑点一坑点二nacos-ui页面访问同一集群环境下微服务连接nacos地址配置待办参考文档 操作步骤 1. 拉取仓库代码 &#xff08;这一步主要用到代码中的相关yml文件&#xff0c;稍加修改用于部署容器&…

Python爬虫----python爬虫基础

一、python爬虫基础-爬虫简介 1、现实生活中实际爬虫有哪些&#xff1f; 2、什么是网络爬虫&#xff1f; 3、什么是通用爬虫和聚焦爬虫&#xff1f; 4、为什么要用python写爬虫程序 5、环境和工具 二、python爬虫基础-http协议和chrome抓包工具 1、什么是http和https协议…

从北美火到中国,大数据洞察品牌“STANLEY”的突围之路

保守直筒大头的“硬汉”外形&#xff0c;以百变颜色踩中时尚命脉&#xff0c;与各路大牌“梦幻联动”&#xff0c;不少时尚弄潮儿没能逃过其“真香”诱惑。 这就是今年以来从北美火到中国的STANLEY&#xff0c;在“巨无霸”水杯中突围出属于自己的一条路。 最近STANLEY又整活…

Java结合ElasticSearch根据查询关键字,高亮显示全文数据。

由于es高亮显示机制的问题。当全文内容过多&#xff0c;且搜索中标又少时&#xff0c;就会出现高亮结果无法覆盖全文。因此需要根据需求手动替换。 1.根据es的ik分词器获取搜索词的分词结果。 es部分&#xff1a; //中文分词解析 post /_analyze {"analyzer":"…

Python绘制雪花

文章目录 系列目录写在前面技术需求完整代码代码分析1. 代码初始化部分分析2. 雪花绘制核心逻辑分析3. 窗口保持部分分析4. 美学与几何特点总结 写在后面 系列目录 序号直达链接爱心系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4…

Linux性能优化之火焰图简介

Linux 火焰图&#xff08;Flame Graph&#xff09;是一种可视化工具&#xff0c;用于分析程序性能问题&#xff0c;尤其是 CPU 使用情况。它展示了程序中函数调用的层次结构和各个调用栈占用的时间比例。 以下是详细介绍&#xff0c;包括火焰图的工作原理、生成步骤和实际使用中…

Axure设计之文本编辑器制作教程

文本编辑器是一个功能强大的工具&#xff0c;允许用户在图形界面中创建和编辑文本的格式和布局&#xff0c;如字体样式、大小、颜色、对齐方式等&#xff0c;在Web端实际项目中&#xff0c;文本编辑器的使用非常频繁。以下是在Axure中模拟web端富文本编辑器&#xff0c;来制作文…

Python中的正则表达式教程

一、 正则表达式基础 1。1。概念介绍 正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。 其他编程语言中也有正则表达式的概念,区别只在于不同的编程语言实现支持的语法数量不同。 它拥有自己独特的语法以及一个独立的处理引擎&#xff0c;在提供了正则表达式…

脑机接口、嵌入式 AI 、工业级 MR、空间视频和下一代 XR 浏览器丨RTE2024 空间计算和新硬件专场回顾

这一轮硬件创新由 AI 引爆&#xff0c;或许最大受益者仍是 AI&#xff0c;因为只有硬件才能为 AI 直接获取最真实世界的数据。 在人工智能与硬件融合的新时代&#xff0c;实时互动技术正迎来前所未有的创新浪潮。从嵌入式系统到混合现实&#xff0c;从空间视频到脑机接口&…

Python爬虫下载新闻,Flask展现新闻(2)

上篇讲了用Python从新闻网站上下载新闻&#xff0c;本篇讲用Flask展现新闻。关于Flask安装网上好多教程&#xff0c;不赘述。下面主要讲 HTML-Flask-数据 的关系。 简洁版 如图&#xff0c;页面简单&#xff0c;主要显示新闻标题。 分页&#xff0c;使用最简单的分页技术&…

Linux下编译MFEM

本文记录在Linux下编译MFEM的过程。 零、环境 操作系统Ubuntu 22.04.4 LTSVS Code1.92.1Git2.34.1GCC11.4.0CMake3.22.1Boost1.74.0oneAPI2024.2.1 一、安装依赖 二、编译代码 附录I: CMakeUserPresets.json {"version": 4,"configurePresets": [{&quo…

Win10/11 安装使用 Neo4j Community Edition

如果你下载的是 Neo4j Community Edition 的压缩包&#xff0c;意味着你需要手动解压并配置 Neo4j。以下是详细的使用步骤&#xff1a; 0. 下载压缩包 访问Neo4j官网&#xff0c;找到 Community Edition 版本并选择 4.x 或者 5.x 下载&#xff1a;https://neo4j.com/deployme…

Spring Boot教程之Spring Boot简介

Spring Boot 简介 接下来一段时间&#xff0c;我会持续发布并完成Spring Boot教程 Spring 被广泛用于创建可扩展的应用程序。对于 Web 应用程序&#xff0c;Spring 提供了 Spring MVC&#xff0c;它是 Spring 的一个广泛使用的模块&#xff0c;用于创建可扩展的 Web 应用程序。…

基于java+SpringBoot+Vue的智能物流管理系统设计与实现

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; Springboot mybatis Maven mysql5.7或8.0等等组成&#x…

智能零售柜商品识别

项目源码获取方式见文章末尾&#xff01; 600多个深度学习项目资料&#xff0c;快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【基于CNN-RNN的影像报告生成】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实现…

【Mysql】Mysql函数(上)

1、概述 在Mysql中&#xff0c;为了提高代码重用性和隐藏实现细节&#xff0c;Mysql提供了很多函数。函数可以理解为封装好的模块代码。 2、分类 在Mysql中&#xff0c;函数非常多&#xff0c;主要可以分为以下几类&#xff1a; &#xff08;1&#xff09;聚合函数 &#xf…