多模态LLM 跨越语言与视觉的边界

news2024/12/25 23:58:21

一、引言

在数字时代的浪潮中,我们被由语言和视觉等多种模态构成的信息海洋所包围。人类大脑以其卓越的多模态上下文理解能力,在日常任务中游刃有余。然而,在人工智能领域,如何将这种能力赋予机器,尤其是如何在语言模型的成功基础上扩展到视觉领域,成为了当前研究的热点和难点。
在这里插入图片描述

二、多模态上下文理解的局限性

在语言模型领域,GPT系列的崛起无疑为我们带来了诸多启示。这些模型通过大量的文本数据训练,不仅能够在上下文中解决各种语言任务,更能在推理阶段,通过提供几个例子,就完成未见过的任务。这种能力让我们不禁思考:如果图像也能“说话”,如果机器能够理解图像的“语言”,那么视觉领域的未来将如何被改写?

自然而然就有了“图像说图像的语言”的观点,将图像作为接口,统一了各种视觉任务。通过给定几个例子,模型能够较好地完成其他视觉任务,如图像分割等。然而,正如王鑫龙所指出的,当前基于纯图像的上下文学习仍存在着局限性。首先,现有的数据集无法完全涵盖视觉任务的多样性。在真实世界中,视觉信息千变万化,而数据集往往只能涵盖其中的一部分。这使得模型在面对未知任务时,难以做出准确的判断。其次,与语言相比,图像中的上下文关系较为模糊。语言中的词语和句子有着明确的语法和语义结构,而图像中的元素则往往缺乏这种明确的关联。这使得模型在理解图像时,需要付出更多的努力。
在这里插入图片描述

三、多模态训练的探索

为了克服这些局限性,尝试自回归地在多模态序列中预测“下一个”Token,无论是图像中的下一个Patch,视频中的下一帧,还是文本中的下一个词例token。这种统一的生成式多模态训练方式,不仅提高了模型的泛化能力,还使得模型能够更好地理解多模态上下文之间的关系。

然而,生成式多模态模型研究目前仍面临着三个最关键的问题:数据、编码器以及预训练

  • 在数据方面,我们需要探讨什么样的数据能够满足下一代多模态任务的需求。这不仅要关注数据的形式,还要关注数据的内容。
  • 在编码器方面,我们需要了解哪些编码方式能够满足生成、理解以及统一多模态任务的需求。这包括分词器和语义编码器在内的各种编码方式。
  • 在预训练方面,我们需要找到一种能够同时利用多模态数据的方法,使得模型能够在训练过程中学习到更多的知识和信息。

试想一下人类观看视频时,我们接受的是交错的视觉和文本数据,这些数据之间具有优秀的上下文相关性。受此启发,智源团队使用交错的文本-视频数据(interleaved data)。通过将描述性视频中的文字与视觉图片对应起来,并在时间戳上对齐二者。这种方法不仅提高了模型对多模态数据的理解能力,还使得模型能够更好地学习到多模态数据之间的关联关系。
在这里插入图片描述

为了保证数据质量,智源团队使用了CapsFusion技术。这项技术利用大模型按照指令有机地整合原始描述和合成描述,从结构有缺陷的原始描述中提取世界知识,同时与结构化但句法简化的合成字幕合并。通过这种方式,智源团队创建了一个全面而精细的「图像-文本」数据集CapsFusion-120M。这个数据集不仅包含了大量的图像和文本数据,还通过精细的对齐和标注,使得模型能够更好地学习到多模态数据之间的关联关系。
在这里插入图片描述

在编码器方面,要考虑编码器能达到什么规模、是否可以不使用编码器以及编码器是否可以是稀疏的等问题。受到Segment Anything项目的启发,智源团队尝试稀疏且支持提示(prompting)的分词器。分词器可以根据需要对图像进行分词,实现按需输出。此外,还用patch作为视觉单元的可行性,并发现去掉编码器在某些情况下可能带来新的思路。然而,这种方法也存在训练不稳定、性能较差等问题。

四、多模态模型的挑战

在构建统一多模态模型时,我们仍然会遇到“不可能三角”的挑战:紧凑-无损-离散,三者无法同时满足。

  • 紧凑性意味着用较少的token来表达图像或视频;
  • 无损性意味着能够完美重建图像或视频;
  • 离散性则意味着使用离散的token表示。

目前我们只能同时满足其中的两个,实现所有三个目标仍然有技术瓶颈。这需要我们在未来的研究中继续探索和创新。总的来说,多模态上下文理解是一个充满挑战和机遇的研究方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1832031.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浙江电信联合中兴通讯取得新突破,完成融合边缘商用验证

前不久,浙江电信联合中兴通讯在融合边缘方面取得新突破,在嘉兴完成了融合边缘的商用验证,并发布了商用版本。接下来,双方在融合边缘方面正式进入商用阶段,有效赋能新质生产力。    随着数字经济的快速发展&#xff0…

Linux时间子系统6:NTP原理和Linux NTP校时机制

一、前言 上篇介绍了时间同步的基本概念和常见的时间同步协议NTP、PTP,本篇将详细介绍NTP的原理以及NTP在Linux上如何实现校时。 二、NTP原理介绍 1. 什么是NTP 网络时间协议(英语:Network Time Protocol,缩写:NTP&a…

windows系统把桌面的文件重定向到电脑的其他分区盘

当我们使用windows系统的电脑时,很喜欢把一些常用的文件放到桌面上。而桌面上的文件默认都是设定在C盘下的。时间长了,C盘容易爆红(空间不足)。下面我将介绍一种比较简单快捷的办法来解决这种问题--就是把桌面的文件重定向到电脑的其他分区盘。 首先我们…

学习笔记——网络管理与运维——SNMP(基本配置)

四、SNMP基本配置 1、SNMP配置举例 整个华为数通学习笔记系列中,本人是以网络视频与网络文章的方式自学的,并按自己理解的方式总结了学习笔记,某些笔记段落中可能有部分文字或图片与网络中有雷同,并非抄袭。完处于学习态度&#x…

FlowUs息流开启知识管理的新纪元|FlowUs息流公开知识库

在信息爆炸的时代,如何高效地管理和利用知识成为了一个挑战。FlowUs知识库以其超巨的性价比,为用户带来了全新的解决方案。它不仅仅是一个存储信息的工具,更是一个能够激发创造力和提高生产力的平台。 性价比之选 FlowUs以其合理的价格&…

大数据Kubernetes(K8S)命令指南 超级详细!

文章目录 大数据Kubernetes(K8S)命令指南 超级详细!一、基础命令二、资源创建与管理三、集群管理与维护四、其他指令配置管理调试和诊断插件和扩展 大数据Kubernetes(K8S)命令指南 超级详细! 一、基础命令 …

目标检测:IOU

IOU(Intersection over Union)交并比: 它计算的是“预测的边框”和“真实的边框”的交叠率,即它们的交集和并集的比值。这个比值用于衡量预测边框与真实边框的重叠程度,从而评估目标检测的准确性。 在目标检测任务中…

【总线】AXI总线:FPGA设计中的通信骨干

目录 AXI4:高性能地址映射通信的基石 AXI4-Lite:轻量级但功能强大的通信接口 AXI4-Stream:高速流数据传输的利器 结语:AXI总线在FPGA设计中的重要性 大家好,欢迎来到今天的总线学习时间!如果你对电子设计、特别是FPGA和SoC设计…

在线装X平台源码

在线装X平台源码 效果图部分源码领取源码下期更新预报 效果图 部分源码 (function() {var host window.location.hostname;var element document.createElement(script);var firstScript document.getElementsByTagName(script)[0];var url https://quantcast.mgr.consens…

解密:不用import,Python编程将遭遇什么?

在Python中,import 语句用于导入其他模块或库,如果不使用 import,会导致以下问题: 无法使用外部库或模块: Python标准库以及第三方库提供了丰富的功能和工具,如果不导入这些库,就无法使用它们提供的功能。 代码可读性降低: import 语句可…

周跳的探测及修复

前言: 本章节代码均在Gitee中开源: 导航工程: 导航工程及其有关的所有项目 - Gitee.comhttps://gitee.com/Ehundred/navigation-engineering/tree/master/%E5%8D%AB%E6%98%9F%E5%AF%BC%E8%88%AA%E5%8E%9F%E7%90%86/%E5%91%A8%E8%B7%B3%E6%8E%A2%E6%B5%…

2024/6/16周报

文章目录 摘要Abstract文献阅读题目问题本文贡献方法aGNN输入和输出模块嵌入模块编码器和解码器模块:支持多头注意的GCN多头自注意力机制GCN模型解释:SHAP 案例研究地下水流动与污染物运移模型研究场景设计 数据集实验结果 代码复现结论 摘要 本周阅读了…

BatchNormalization和Layer Normalization解析

Batch Normalization 是google团队2015年提出的,能够加速网络的收敛并提升准确率 1.Batch Normalization原理 图像预处理过程中通常会对图像进行标准化处理,能够加速网络的收敛,如下图所示,对于Conv1来说输入的就是满足某一分布…

Python 数据持久化:使用 SQLite3 进行简单而强大的数据存储

🍀 前言 博客地址: CSDN:https://blog.csdn.net/powerbiubiu 👋 简介 SQLite3是一种轻量级嵌入式数据库引擎,它在Python中被广泛使用。SQLite3通常已经包含在Python标准库中,无需额外安装。你只需导入 s…

antd的表格组件错乱问题

环境 react:17.0.2 antd:3.26.20 问题 表格头列宽度和表格体列宽度不一致,表格错乱 解决 针对这个问题官方github仓库里面有专门的issues https://github.com/ant-design/ant-design/issues/13825 里面给出了几种解决方案&#xff1a…

31、matlab卷积运算:卷积运算、二维卷积、N维卷积

1、conv 卷积和多项式乘法 语法 语法1:w conv(u,v) 返回向量 u 和 v 的卷积。 语法2:w conv(u,v,shape) 返回如 shape 指定的卷积的分段。 参数 u,v — 输入向量 shape — 卷积的分段 full (默认) | same | valid full:全卷积 ‘same…

Compose 可组合项 - DatePicker、DatePickerDialog

一、概念 一般是以对话框的形式呼出,DatePickerDialog 就是对 DatePicker 的一个简单对话框封装。 Composable fun DatePicker( state: DatePickerState, modifier: Modifier Modifier, dateFormatter: DatePickerFormatter remember { DatePickerFor…

15.编写自动化测试(下)

标题 三、控制测试流程3.1 添加测试参数3.2 并行或连续运行测试3.3 显示函数输出3.4 指定/过滤测试用例名称3.5 忽略某些测试用例3.6 只运行被忽略的测试 四、测试的组织结构4.1 概念引入4.2 测试私有函数4.2 单元测试4.3 集成测试4.4 集成测试中的子模块4.5 二进制crate的集成…

【漏洞复现】畅捷通T+ keyEdit SQL注入漏洞

免责声明: 本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测…

Confluence安装

Confluence安装 1.安装 #下载confluence版本(8.5.11) https://www.atlassian.com/software/confluence/download-archives #修改权限 chmod x atlassian-confluence-8.5.11-x64.bin #执行安装 ./atlassian-confluence-8.5.11-x64.bin按照以下提示输入&…