大模型之多模态大模型技术

news2025/1/2 4:08:54

本文作为大模型综述第三篇,介绍语言大模型多模态技术。

不同于语言大模型只对文本进行处理,多模态大模型将文本、语音、图像、视频等多模态数据联合起来进行学习。多模态大模型融合了多种感知途径与表达形态, 能够同时处理和理解来自不同感知通道(例如视觉、听觉、语言和触觉等)的信息,并以多模态的方式表达输出。

目录:

1.多模态大模型的技术体系

2.多模态大模型的网络结构设计

1.多模态大模型的技术体系

现有的多模态大模型主要有面向理解任务的、面向生成任务的、兼顾理解和生成的、知识增强的多模态大模型。

面向理解任务的多模态大模型

面向理解任务的多模态大模型,其核心结构通常是 基于Transformer 的编码器。按照模型结构的不同,面向理解任务的多模态大模型又可再分为单流和多流两种结构。单流结构是指不同模态的特征在拼接后由一个共享的 Transformer 网络进行处理;而多流结构中,不同模态则分别由Transformer 网络进行编码处理,这些网络之间存在有一些特征上的交互融合机制。多流结构的一个典型代表是图文理解模型 ViLBERT,它采用了一种双流 Transformer 的结构,首先将文本和图像数据分别输入两个独立的 Transformer 编码器,接着使用互注意力 Transformer (Co-Attention
Transformer)层将文本和图像特征进行融合,最后所得到文本-图像特征可以被应用到视觉问答、 图像描述生成等不同的多模态的任务中。 多流结构的另一个代表是 OpenAI 公司的 CLIP模型,它采用两个独立的编码网络对图像和文本进行特征抽取,并通过对比学习将两者的特征嵌入到共享的语义空间中。 CLIP 基于 4 亿图文对进行训练,可以从自然语言监督中有效地学习视觉概念,从而获得泛化性能极强的零样本(zero-shot)分类能力。 另一个与 CLIP 类型的代表性方法ALIGN[, 使用对比损失训练了一个简单的双编码器模型,利用包含超过 10 亿个噪声图像-文本对的数据集来扩展视觉和视觉语言表征学习。 CLIP 是个图文双流结构,而 VATT[67]则是针对视频-文本-音
频数据的多流模型。与 CLIP 类似, VATT 将每个模态线性投影为特征向量,然后将其分别送到 Transformer 编码器中,并将编码后的特征在语义分层的不同粒度空间中通过对比学习来训练模型。

单流结构的一个典型代表是 VL-BERT,它将图像的描述文本和关键物体的区域特征拼接后作为 BERT 网络的输入,通过掩码掉部分文本输入和图像输入并预测所缺失的信息来进行模型训练。 此外,另一代表性方法 UNITER ,则采用了一种多任务的多模态预训练方法,相对于其它方法, 该模型增加了单词与图像区域的匹配模块,来更进一步建立图像与文本的细粒度关联。 在视频领域,单流结构的代表性方法有 VideoBERT和 ActBERT,其中 VideoBERT 是一个视频-语言模型,它融合了文本和视频作为 BERT 网络的输入;而ActBERT 采用了一种全局-局部关系的建模方法,输入不止包括文本和视频的全局信息, 还利用了视频帧中的局部信息来加强对于视频内容的理解。现有的面向理解任务的多模态大模型大多都以上面两类结构为基础,此外,也有不少方法在预训练任务上进行研究,引入更多的预训练任务或设计统一的架

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1969551.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python数值计算(1)——Numpy中数据的保存和加载

这里讨论一下在进行数值计算中,对计算数据的保存和加载。 1. 文本格式 这种方式可以采用文本的方式保存numpy数组,函数原型如下: numpy.savetxt(fname, X, fmt%.18e, delimiter , newline\n, header, footer, comments# , encodingNone) …

全源最短路问题:Floyd算法详解【经典算法,限时免费】

文章目录 最短路问题概述带边权的图的全源最短路径Floyd算法解决全源最短路问题dist数组初始化dist数组迭代以及动态转移方程Floyd算法求解dist数组完整代码pythonjavacpp时空复杂度 *Floyd算法正确性证明证明过程初始情况归纳假设归纳步骤终止条件 完整证明 相关题目 最短路问…

log4j2 远程代码执行漏洞复现(CVE-2021-44228)

目录 一、相关概念 二、漏洞复现 步骤一:执行一下命令启动靶场环境并在浏览器访问!!! 1.启动命令 2.访问网址 步骤二:先在自己搭建的DNSLOG平台上获取一个域名来监视我们注入的效果... 步骤三:可以发现 /solr/ad…

小米手机通知栏横条无法清除 刻晴主题 历史通知记录功能使用方案

问题环境💕 Root K50 Ultra HyperCeiler (系统修改) Lspose(框架)魔改刻晴主题(自用)隐藏(最近任务)后台 在搞机过程中出现过如下情况 通知条无法被清除,导…

本地索引和全局索引视图测试

1、创建分区表 CREATE TABLE "OSGIC"."TT" ( "ID" VARCHAR2(32) NOT NULL ENABLE, "BUSS_ID" VARCHAR2(64), "REEST_TIME" DATE ) PARTITION BY RANGE ("REEST_TIME") INTERVAL(NUMTOYMINTERVAL(1, MONTH)) (…

Redis部署策略

文章目录 Redis部署策略单机部署主从复制哨兵模式Redis集群 Redis部署策略 部署方式描述单机部署适用于对数据可靠性要求不高、规模较小的应用。部署简单,但没有冗余和高可用性。主从复制数据从主节点同步到一个或多个从节点,提升读性能和数据备份能力。…

堆的实现-向上调整算法-向下调整算法-堆排序-TopK问题 C语言

一、堆的概念及结构 二、 向上调整算法 注意:循环条件不可写parent > 0 //向上调整算法 //child为下标 void adjustup(int* a, int child) {int parent (child - 1) / 2;while (child > 0){if (a[child] < a[parent]){swap(&a[child], &a[parent]);child pa…

免费开源的私人笔记项目,极空间搭建全平台笔记和待办事项『Joplin』

免费开源的私人笔记项目&#xff0c;极空间搭建全平台笔记和待办事项『Joplin』 哈喽小伙伴们好&#xff0c;我是Stark-C~ 我想很多小伙伴都有记录笔记或者备忘的习惯&#xff0c;其实目前市面可用的这类应用还是很多的&#xff0c;比如印象笔记&#xff0c;有道云笔记。作为…

文件解析漏洞集合

IIS解析漏洞 IIS6 目录解析 在网站下建立文件夹的名字为.asp/.asa 的文件夹&#xff0c;其目录内的任何扩展名的文件都被IIS当作asp 文件来解析并执行。 这里显示的是 1.asp下的1.jpg&#xff0c;按照道理来说里面的文件是一个图片&#xff0c;但是访问的话&#xff0c;会出…

SpringBoot面试题整理(1)

面试整理 前置知识 ApplicationContextInitializerApplicationListenerBeanFactoryBeanDefinitionBeanFactoryPostProcessorAwareInitializingBean/DisposableBeanBeanPostProcessor 面试题 SpringBoot启动流程IOC容器初始化流程Bean声明周期Bean循环依赖SpringMVC执行流程…

JavaEE 初阶(13)——多线程11之“定时器”

目录 一. 什么是“定时器” 二. 标准库的定时器 三. 定时器的实现 MyTimer 3.1 分析思路 1. 创建执行任务的类。 2. 管理任务 3. 执行任务 3.2 线程安全问题 四. 拓展 一. 什么是“定时器” 定时器是软件开发中的一个重要组件&#xff0c;类似于一个“闹钟”&#xff0…

【Spring】详细理解Spring中控制反转(IOC)和依赖注入(DI)的设计思想。

目录 1.相关概念 2. 设计IOC容器的两个主要接口 2.1 BeanFactory接口 2.2 ApplicationContext接口 2.3 两个接口的区别【面试题】 3. Bean对象的管理&#xff08;控制反转&#xff09; 3.1 基于XML文件管理bean对象 3.2 基于注解方式去管理【重点】 4. 依赖注入&#…

81.WEB渗透测试-信息收集-框架组件识别利用(5)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;80.WEB渗透测试-信息收集-框架组件识别利用&#xff08;4&#xff09; solr&#xff1a;…

第三方库jsoncpp

文章目录 0.jsoncpp库是做什么的&#xff1f;1.安装库2.有哪几个类&#xff0c;如何使用Json::Value类Json::Writer类-StreamWriterJson::Reader类-CharReader三者关系 3.使用样例将数据先存入Value类&#xff0c;再通过StreamWriter类转为Json格式的字符串获取到Json格式字符串…

6 postgresql事务与并发控制

事务与并发控制 事务可以理解为做一件事&#xff0c;数据库就是一件事要么做完&#xff0c;要么不做&#xff0c;不然这数据库给给人不可靠的感觉 正如解释事务具有四个重要特性&#xff1a;ACID&#xff08;原子性&#xff0c;一致性&#xff0c;隔离性&#xff0c;持久性&a…

python实现提取视频帧的图片

文章目录 1、需求痛点2、完整代码⭐3、代码分析3.1、需要改动的地方3.2、OpenCV库的使用3.3、多线程技术 4、执行效率5、效果展示⭐6、注意事项&#x1f53a;7、总结 &#x1f343;作者介绍&#xff1a;双非本科大三网络工程专业在读&#xff0c;阿里云专家博主&#xff0c;专注…

3 IIC总线

3 IIC总线 1、基本概念1.1 IIC总线定义1.2 IIC总线协议概念 2 以AT24C02为例说明时序2.1 基本特性2.2 利用GPIO模拟IIC2.3 对AT24C02的操作2.4 重定向printf 1、基本概念 1.1 IIC总线定义 定义&#xff1a;两线式串行总线 两线式&#xff1a;说明处理器和外设之间只需两根信号…

【时间复杂度和空间复杂度】(内含超多实例练习)

【时间复杂度和空间复杂度】&#xff08;内含超多实例练习&#xff09; 1. 算法效率2. 时间复杂度2.1 时间复杂度的概念2.2 实例练习2.2.1 数组中搜索数据2.2.2 冒泡排序2.2.3 二分查找2.2.4 阶乘递归2.2.5 斐波那契递归 3. 空间复杂度3.1 空间复杂度的概念3.2 实例练习3.2.1 冒…

Set Hashset底层原理 LinkedSet底层原理 Treeset 31

不重复只执行一次&#xff0c;排序是小到大&#xff0c;色图是接口类 Hashset底层原理 LinkedSet底层原理 Treeset 总结

AI+云边端协同,EasyCVR视频汇聚技术赋能安防监控新生态

随着信息技术的飞速发展和数字化时代的到来&#xff0c;安防监控领域的技术也在不断创新和突破。EasyCVR平台的视频汇聚技术作为其中的佼佼者&#xff0c;以其强大的视频处理、汇聚与融合能力&#xff0c;在安防监控领域展现出了巨大的应用潜力和价值。本文将详细介绍EasyCVR视…