中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作

news2025/1/9 14:35:25

作者 | 小戏、ZenMoore

在 GPT-4 的发布报道上,GPT-4 的多模态能力让人印象深刻,它可以理解图片内容给出图片描述,甚至能在图片内容的基础上理解其中的隐喻或推断下一时刻的发展无疑,面向所谓的 AGI(通用人工智能),多模态显然是必经之路。但是遗憾 GPT-4 的图片输入能力尚且没有完全放开,而即使放开我们对 GPT-4 的模型结构和训练方法也知之甚少。

alt

大模型研究测试传送门

ChatGPT传送门(免墙,可直接测试):
https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

而最近,中科院自动化所带来了一项有趣的工作,推出了多模态的大规模语言模型 X-LLM,同时支持图片、语音以及视频等多种模态信息作为大模型的输入,并且展现了类似于 GPT-4 的表现。比如当输入图像时,X-LLM 可以识别图像位置、理解图像中的食物。当输入视频时,X-LLM 也可以总结视频内容,检索电影片段的电影名称,基于视频内容结合图像回答问题等等。以论文中的一张图片为例,当用户希望 X-LLM 介绍输入的图片时,X-LLM 准确的理解了图片相关于游戏王者荣耀,并且给出了一定的介绍。

alt

从性能来看,作者团队使用了 30 张模型未见过的图像,每张图像都与相关于对话、详细描述以及推理三类的问题,从而形成了 90 个指令-图像对以测试 X-LLM 与 GPT-4 的表现。可以看到,通过使用 ChatGPT 从 1 到 10 为模型回复进行评分,与 GPT-4 相比 X-LLM 取得了 84.5% 的相对分数,表明了模型在多模态的环境中是有效的

alt

除此之外,这篇工作也开源了相关的代码和一个简洁高质量的中文多模态指令数据集,帮助后续工作使用 X-LLM 的框架进行研究,项目的主页与论文地址如下:

论文题目: X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages 论文链接: https://arxiv.org/pdf/2305.04160.pdf 项目主页: https://x-llm.github.io/

在进入论文之前,首先来想想一个问题,GPT-4 是如何获得其强大的多模态能力的呢?论文作者给出了一个假设:“GPT-4 的多模态能力来源于其更先进,更大的语音模型,即 GPT-4 是用语言的形式表达出了其他模态的内容”

这个假设也就是讲,需要将多模态的数据“对齐”到语言数据之中,然后再投入大模型以获得多模态能力,在这个假设的基础上,作者提出了 X2L 接口,其中 X 意味着多模态数据,而 L 则表示语言,X2L 接口即将多个单模态编码器与一个大规模语言模型(LLM)进行对齐。其中,图像接口 I2L 采用 BLIP-2 中的 Q-Former,视频接口 V2L 复用图像接口的参数,但是考虑了编码后的视频特征,语言接口 S2L 采用 CIF 与 Transformer 结构将语音转换为语言。整个 X-LLM 的训练包含三个阶段,分别是(1)转换多模态信息;(2)将 X2L 对齐到 LLM;(3)将多模态数据整合到 LLM 中。

alt

具体而言,多模态信息转换的三个接口设计如下:

  • 图像接口:图像接口由 Q-Formers 和 I-Adapter 模块组成。Q-Formers的目标是将图像转换为语言,将从图像编码器获得的图像特征转换为长度为 L 的准语言嵌入的序列。I-Adapter 模块旨在对齐准语言嵌入的维数和 LLM 的嵌入维数;
  • 视频接口:视频接口与图像接口采用相同的结构,并且均匀采样使用 T 帧表示每个视频,再将每帧视频视为图像,构建长度为 T x L 的准语言嵌入序列;
  • 语言接口:语音接口由两部分组成,即 C-Former 和 S-Adaptor。C-Former 是 CIF 模块和 12 层 Transformer 模块的组合。CIF 模块通过变长下采样将语音编码器的语音特征序列压缩为相同长度的令牌级语音嵌入序列,而 Transformer 结构为令牌级语音嵌入提供了更强的上下文建模。S-Adaptor 用于将 Transformer 结构的输出投影到 LLM 的输入向量空间,从而进一步缩小了语音与语言之间的差距。

而在第二阶段,Q-Former 的参数来源于 BLIP2 中的 Q-Former 的参数。为了使得 Q-Former 适应中文 LLM,作者们使用了一个总共包括约 1400 万个中文图片-文本对的数据集进行训练,并使用图片中训练好的接口初始化视频中的 Q-Former 和 V-Adapter,最后,使用 ASR 数据训练语音接口,使语音界面的输出与 LLM 对齐。在整个过程中,Encoder 部分与 LLM 部分都不参与训练,只有接口部分进行训练

而最后第三阶段,论文使用多模态联合训练增强 X-LLM 的多模态能力,但是可以看到,在没有进行联合训练时,X-LLM 已经具有了识别多模态的能力,这种能力很有可能是来自于 LLM。而为了进行联合训练,作者构建了一个多模态指令数据集对接口进行微调,包含(1) 图像-文本指令数据,(2)语音-文本指令数据,(3) 视频-文本指令数据以及 (4) 图像-文本-语音指令数据。整个数据集主要来源于 MiniGPT-4(图像,3.5k)、AISHELL-2(语音,2k)以及 ActivityNet(视频,1k)。

alt

而在实验方面,论文作者开发了一个聊天界面,用以与其他开源的多模态大规模语言模型( LLaVA 与 MiniGPT-4)做对比,整体而言,X-LLM 具备了相当不错的阅读和理解图片的能力,并且可以更好的捕捉其中具有“中国特色”的预料,如下图问答所示,当输入天安门的图片时,X-LLM 准确的识别出了它是北京的故宫,并且给出了一些历史的介绍,而相应 LLaVA 与 MiniGPT-4 仅仅识别出来了中国的宫殿和旗帜,但是并没有提到 Forbidden City。

alt

同时,X-LLM 也能准确的识别和理解语音信息,这里的“详细描述一下这个“照片”是以语音形式进行的输入,可以看到 X-LLM 也能给出相当不错的回答,并且可以进行延申交流。

alt

此外,在视频问答方面,X-LLM 也表现得相当不错,对于输入的水母游动的视频,X-LLM 可以颇为准确的为视频做出标题,并配以文字

alt

对于敏感信息,X-LLM 也能做到识别

alt

除了 X-LLM 这样一个将大规模语音模型向多模态方向扎实推进了一步的框架外,作者也意外的发现,在英文数据集上训练的 Q-former 的参数可以转移到其他语言(汉语),并仍然保持有效性。这种语言的可传递性极大地增加了使用英语图像文本数据和其训练的模型参数平移到其他语言中的可能性,并提高了在其他语言中训练多模态 LLM 的效率。

透过这篇工作,或许我们可以一窥多模态大模型光明的未来,回到开头,多模型必然是 AGI 的必经之路,那么以语言为基准统一多模态可不可以实现呢?那就要看跟随这篇工作出现的未来了吧!

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/530155.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构初阶(1)(一些学习数据结构所需掌握的先导知识:包装类、装箱与拆箱、泛型、List简介)

包装类 基本数据类型和包装类是Java中处理数据的两种不同方式。 基本数据类型(Primitive Types): Java的基本数据类型是直接存储数据的原始类型,包括以下8种类型: byte:1字节,用于表示整数 …

IEEE编写LaTeX时在作者后添加ORCID标志及链接(简单方案,一行代码)

IEEE的一些论文,如Trans系列惯例是要在作者后添加ORCID标志及链接,但是其How to里面没有相关latex代码案例。 1. 可以用但复杂的方案 CSDN中不少博主也给出了挺漂亮但是比较复杂的方案,如这个的一大串: \documentclass[letters…

Linux文本之awk编译器

一、awk介绍 1)awk概述 AWK 是一种用于处理文本的编程语言工具。AWK 在很多方面类似于 shell 编程语言,尽管 AWK 具有完全属于其本身的语法。它的设计思想来源于 SNOBOL4 、sed 、Marc Rochkind设计的有效性语言、语言工具 yacc 和 lex ,当…

尚硅谷大数据技术NiFi教程-笔记02【NiFi(使用案例,同步文件、离线同步mysql数据到hdfs、实时监控kafka数据到hdfs)】

尚硅谷大数据技术-教程学习路线-笔记汇总表【课程资料下载】 视频地址:尚硅谷大数据NiFi教程(从部署到开发)_哔哩哔哩_bilibili 尚硅谷大数据技术NiFi教程-笔记01【NiFi(基本概念、安装、使用)】尚硅谷大数据技术NiFi教…

探索古文明,玛雅文明衰落的原因

说起玛雅文明,大家在各种小说或者电影中或多或少的都有听说过,那么这个文明到底是怎么一回事呢?今天老铁就带大家好好的了解下。 玛雅文明存在的时间大致是在公元前2000年至公元1500年之间,这个文明见证了中美洲地区的一段辉煌的…

Cefsharp109.1.110(winfrom)最新支持H264-MP3-MP4功能体验,导出pdf和下载方法有变调整

最新版的支持H264版本(109.1.11,109.1.18)5154分支,也是win7/8/8.1最后一个支持版本 此贴仅分项版本变化和注意事项,本篇文章不提供dll编译文件,有需要单独联系,仅供学习参考 109版本体验测试(音频和视频功能),版本较100.0.230变化提醒及注意变更的内容。 上视频支…

C++每日一练:难题-大数加法

文章目录 前言一、题目二、代码及思路总结 前言 这题好像是指定了C,那就用C来做嘛,确实在C/C中一不小心就超出范围了,说实在的,C这个语言有时候真的很让人无语。很显然这是要用字符串来计算了。这题坑比较多,笔者这也…

数据库使用自增ID好还是UUID好?为什么?

数据库使用自增ID好还是UUID好?为什么? 答: 自增ID 优点: 数字类型,占用空间小数据库自动增量排序,对检索有利,读写速度快(聚簇索引的优势)系统编码过程中&#xff0…

知识推理学习笔记

OWL本体语言 基于RDF语法,最规范,最严谨,表达能力最强 一 语法 三元组 二 逻辑基础 描述逻辑:基于对象的知识表示的形式化,是一阶谓词逻辑的一个可判定子集 三 描述逻辑系统 一个描述逻辑包含4个基本组成部分 …

【Python数据存储】零基础也能轻松掌握的学习路线与参考资料

Python是一种高级编程语言,被广泛应用于数据科学中。数据存储是数据科学中至关重要的一环,因为人们需要将收集到的数据保存在一些地方。Python中的数据存储有很多种,因此在学习过程中需要明确自己的需求,掌握不同数据存储方式的优…

深入理解 python 虚拟机:多继承与 mro

深入理解 python 虚拟机:多继承与 mro 在本篇文章当中将主要给大家介绍 python 当中的多继承和 mro,通过介绍在多继承当中存在的问题就能够理解在 cpython 当中引入 c3 算法的原因了,从而能够帮助大家更好的了理解 mro 。 python 继承的问题…

【Linux】shell编程之—函数

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、概述二、函数的查看和删除1.查看 declare2.删除 declare 三、函数的返回值1.return 返回值2.echo 返回值 四、函数的参数传入与变量范围五、函数的应用1.阶乘2.…

十五、Gateway网关

目录 Zuul网关和gateway网关的区别: Gateway路由配置 1、新建服务网关项目,并在项目pom文件中引入gateway网关依赖 2、在application.yml配置gateway 3、如果不用配置的方式配置gateway路由,还可以通过代码的形式配置 4、启动网关服务&…

达梦:创建用户并授予用户只读权限

需求描述: 1.想创建一个用户,这用户能访问其他3个用户的资源,权限是只读,这种创用户的sql怎么写? 2.怎么修改用户密码呢? 环境: 通用机 一、创建用户并授权 1.创建业务用户步骤 step1:创建用户使…

短期光伏发电量短期预测(Python代码,基于LSTM模型)

一.代码流程(运行视频:短期光伏发电量短期预测(Python代码,基于LSTM模型)_哔哩哔哩_bilibili) 数据预处理: 读取CSV文件,并使用Pandas库将数据加载到DataFrame中。将时间列转换为日期…

PoseiSwap缘何成DEX赛道新宠?POSE价值分析

区块链技术以去中心化、伪匿名以及公开透明作为主要特点,虽然这种意识形态是具备先进性的,但以此为基础所带来的加密原生特性,也正在阻碍着链上世界的发展。作为一种透明、非许可的分布式网络,隐私与合规始终是现阶段,…

【AWK命令】

目录 一、awk的工作原理:二、命令演示1、按行输出文本2、按字段输出文本1、使用三元运算符 三、通过管道,双引号调用shell命令1、查看时间的命令2、getline 获取内容3、OFS输出分割符4、awk来排序数组 一、awk的工作原理: 1、逐行读取文本&a…

华为OD机试真题 Java 实现【日志采集系统】【2023Q1 100分】

一、题目描述 日志采集是运维系统的的核心组件。日志是按行生成,每行记做一条,由采集系统分批上报。 如果上报太频繁,会对服务端造成压力;如果上报太晚,会降低用户的体验;如果一次上报的条数太多&#xf…

MSQL系列(一) Mysql实战-索引结构 二叉树/平衡二叉树/红黑树/BTree/B+Tree

Mysql实战-索引结构 二叉树/平衡二叉树/红黑树/BTree/BTree 我们在项目中都会使用索引,所以我们要了解索引的存储结构,今天我们就着重讲解下Mysql的索引结构存储模型,并且看下 二叉树,平衡二叉树,红黑树,B…

沉浸式翻译 – 沉浸式的阅读与学习双语的翻译工具

为何称为沉浸式呢 智能识别网页主内容区进行翻译,与同类插件翻译整个网页不同,降低对原网页的“侵入性”,提升阅读体验,因此得名“沉浸式翻译”。 受宠的缘由 自从谷歌翻译不再对大陆用户提供服务后。内心是一阵酸痛的&#xf…