AnyGPT:多模态语言模型,任意处理语音、图像和音乐

news2024/11/23 16:34:16

 人工智能咨询培训老师叶梓 转载标明出处

大模型的能力大多局限于文本处理,而现实世界环境本质上是多模态的,涉及视觉、语言、声音和触觉等多种感知渠道。为了使LLM能够更好地模拟人类的多模态感知能力,复旦大学的研究团队提出了AnyGPT,这是一个创新的多模态语言模型,它能够统一处理包括语音、文本、图像和音乐在内的各种模态。AnyGPT的核心优势在于它能够使用离散表示法来处理不同模态的数据,而无需对现有的大模型架构或训练范式进行任何改动。这一方法完全依赖于数据级别的预处理,使得新模态的整合变得像添加新语言一样简单,从而提高了训练和推理阶段的效率。

在图1提供了AnyGPT模型架构中,所有模态的数据—无论是图像、音乐、语音还是文本—都被分词成离散的标记(tokens)。这些离散的标记随后被送入大型语言模型(LLM),在那里进行自回归的多模态理解和生成处理。AnyGPT模型的创新之处在于,它不需要改变现有的模型架构或训练目标,仅需在数据的预处理和后处理阶段进行操作。预处理涉及将连续的非文本模态数据转换为LLM可以处理的离散标记序列,而后处理则是将这些标记序列解码回原始的数据模态。这种设计允许AnyGPT以统一且高效的方式处理和生成多种类型的数据,同时保持了模型的灵活性和扩展性。 

AnyGPT

AnyGPT框架由三个主要部分组成:多模态分词器、多模态语言模型(作为骨干)和多模态去分词器。分词器负责将连续的非文本数据转换为离散的标记序列,这些序列随后被语言模型以自回归的方式进行训练。在推理阶段,去分词器将多模态标记解码回它们原始的表示形式。另外AnyGPT还可以使用多模态增强模块来提高生成结果的质量,例如通过声音克隆或图像超分辨率等技术。

分词器

图像分词器:AnyGPT使用SEED分词器进行图像处理。SEED分词器包括ViT编码器、Causal Q-Former、VQ码本、MLP和UNet解码器。它接收224×224 RGB图像作为输入,将图像编码为16×16的图像块,然后将这些图像块转换为32个因果嵌入。这些嵌入通过一个包含8192个条目的码本被离散化为量化代码序列。MLP用于将视觉代码解码为与预训练的unCLIP Stable Diffusion模型的潜在空间对齐的生成嵌入。UNet解码器最终将生成嵌入恢复为原始图像。

语音分词器:AnyGPT使用的语音分词器是SpeechTokenizer,它采用编码器-解码器架构和残差向量量化(RVQ)。SpeechTokenizer将单通道音频序列压缩成使用八个分层量化器的离散矩阵,每个量化器有1024个条目,实现50 Hz的帧率。第一层量化器捕获语义内容,而第2至8层编码超语言细节。10秒的音频被转换成500×8的矩阵,分为语义和声学标记。AnyGPT使用在Commonvoice和Librispeech数据集上预训练的SpeechTokenizer变体。

音乐分词器:尽管语音和音乐有相似的数据格式,但它们在内容上有显著差异,因此AnyGPT将它们视为不同的模态。音乐分词器使用Encodec,这是一个卷积自编码器,其潜在空间使用RVQ进行量化。使用的Encodec变体已经在20k个音乐曲目上进行了预训练,处理32 kHz单声道音频,实现50 Hz的帧率。生成的嵌入使用四个RVQ量化,每个量化器的码本大小为2048,最终得到8192的音乐词汇表大小。5秒的音乐被编码为250个潜在帧,生成一个250×4的代码矩阵。为了使语言模型能够预测整个音乐片段,4层音乐代码被展平为一个因果序列,逐帧进行预测。

不同模态(图像、语音、音乐)的标记化细节,包括词汇量大小、每个样本的标记数、是否使用残差向量量化(RVQ)、输入尺寸等
语言模型的骨干

为了将多模态离散表示整合到预训练的LLM中,AnyGPT扩展了词汇表,加入了新的模态特定标记,并相应地扩展了嵌入层和预测层。新加入的参数是随机初始化的。所有模态的标记组合成一个新的词汇表,每种模态在语言模型中被训练以在共享的表示空间中对齐。扩展后的词汇表大小V是所有模态词汇表大小的总和。

多模态生成

生成高质量的多模态数据,如高清晰度图像和高保真音频,是一个挑战。这些数据需要大量的比特来准确表示,导致序列长度增加,对语言模型的计算复杂度要求较高。为了解决这个问题,AnyGPT采用了一个两阶段的高保真生成框架,包括语义信息建模和感知信息建模。首先,语言模型负责在语义层面生成经过融合和对齐的内容。然后,非自回归模型将多模态语义标记转换为感知层面的高保真多模态内容,实现了性能和效率之间的平衡。

具体来说AnyGPT使用与扩散潜在空间对齐的SEED标记进行视觉语言建模。语义层面的SEED标记由扩散模型解码成高质量的图像。对于语音,AnyGPT使用SoundStorm,这是一个非自回归掩蔽语言模型,训练用于从语义标记生成SpeechTokenizer的声学标记。SoundStorm的一个变体使用SpeechTokenizer在多语言LibriSpeech数据集上进行训练。随后,SpeechTokenizer的解码器将所有语音标记转换为原始音频数据。这种方法使AnyGPT能够使用3秒的语音提示复制任何说话者的声音,同时显著减少LLM的语音序列长度。对于音乐,AnyGPT使用Encodec标记来过滤超出人类感知范围的高频细节,然后使用Encodec解码器将这些标记重构为高保真音频数据。

数据

为了实现从任意模态到其他模态的生成,需要跨模态之间具有良好对齐的数据。然而,这样的数据非常稀缺。为了解决这一挑战,研究团队构建了一个以文本为中心的双模态对齐数据集。文本被用作关键中介,以桥接不同模态之间的差距。通过在语言模型中将不同模态与文本模态对齐,目标是实现所有模态之间的相互对齐。

不同模态的表示形式和信息类型差异很大。为了便于跨不同模态的数据量的标准化比较,研究者采用了基于标记计数的量化方法。图2展示了预训练中使用的所有数据及其相应比例。为了在单一批次中获得不同数据类型的平衡表示,对数据量相对较少的模态应用了一定程度的过采样。

图像和文本:研究者使用了来自LAION-2B、LAION-COCO、LAION-Aesthetics和JouneyDB的图像-文本对。LAION-2B提供了从网络获取的带有噪声的替代文本的图像,而LAION-COCO是此数据集的一个600M子集,由BLIP进行字幕注释。通过过滤文本质量、图像纵横比和clip分数等,产生了一个高质量的3亿对语料库。为了提高整体图像生成保真度,研究者补充了高质量的LAION-Aesthetics子集和来自Midjourney的合成数据集JourneyDB。

语音和文本:研究者收集了几个大型英语自动语音识别(ASR)数据集,包括Gigaspeech、Common Voice和多语言LibriSpeech(MLS)。这些数据集分别来自在线平台、志愿者众包和有声读物,共同构成了一个包含57,000小时语音-文本对的语料库,涵盖了各种说话者、领域和录音环境。

音乐和文本:研究者通过从互联网上爬取超过一百万个音乐视频进行了广泛的数据收集。核心步骤是使用Spotify API将这些视频的标题与相应的歌曲匹配。随后,研究者收集了每个音乐音频的全面元数据,包括视频标题、描述、关键词、播放列表名称和Spotify歌词。这些元数据被格式化为JSON并输入到GPT-4进行处理。GPT-4作为一个智能字幕生成器,利用嘈杂的元数据提取有意义的信息,并将其简洁地总结成连贯的句子。这种方法允许研究者为大量音乐音频生成高质量的文本字幕,有效减少了数据集中的幻觉发生。

有效的人机交互应该允许以多种交错模态交换信息。然而,对话中模态数量的增加显著复杂化了数据收集过程。据研究者所知,目前没有一个大规模的指令数据集涉及超过两种模态。这限制了开发一个能够管理具有多个交织模态的对话的综合模型的能力。

为了克服这个限制,研究者从最新的数据合成研究中获得灵感,并构建了一个包含108k多轮对话样本的数据集,这些样本使用生成模型进行合成。通过仔细策划,每个合成对话以交错的方式整合了多种模态——文本、语音、图像和音乐。具体来说,数据合成过程分为两个阶段,如图3所示。

文本基础对话生成:在这个阶段,研究者使用GPT-4生成了一系列文本基础对话。值得注意的是,这些对话中以文本描述的形式包含了非文本模态。为了确保大规模的高质量数据,研究者将这个阶段分为三个步骤。(1) 首先,研究者头脑风暴出100个元话题,涵盖与视听元素相关的广泛场景,并使用GPT-4将这些元话题扩展成20,000个特定话题。(2) 随后,研究者提示LLM基于这些话题生成特定的对话场景。认识到基于文本的LLM在生成多模态元素时的内在限制,研究者准备了几种演示,涵盖尽可能多的模态组合。在生成场景时,从这个演示池中抽取一个子集,作为LLM的示例。这种方法指导模型有效地合成多样化且在上下文中适当的对话场景。(3) 最后,研究者使用GPT-4从场景生成多轮对话。在这些合成的对话中,包括图像和音乐在内的多模态元素通过详细的文本表示来描述。研究者策划了多样化的对话示例,类似于场景生成,以提示模型创建具有尽可能多模态的对话。因此,研究者编译了一个仅以文本格式的大量多模态对话语料库。

文本到多模态转换:在这个阶段,研究者使用先进的生成模型将文本描述转换为多模态元素。研究者使用OpenAI的DALL-E-3进行图像生成,使用MusicGen进行音乐创作,使用Microsoft Azure的文本到语音API进行用户指令和模型文本响应的语音合成。筛选后,研究者获得了一个包含108k高质量多模态对话的数据集,展示了各种多模态组合。该数据集包括大约205k图像、503k语音录音和113k音乐曲目。另外研究者通过从现有的文本指令数据集中提取适合口语叙述的对话,增强了数据集。这通过使用文本到语音模型产生了100k语音对话。两阶段方法有效地收集了大规模的多样化高质量多模态对话。

实验评估

预训练基础AnyGPT模型的能力评估覆盖了所有模态的多模态理解和生成任务。这一评估旨在测试预训练过程中不同模态之间的对齐情况。对于每种模态,分别测试了文本到X(X为图像、音乐和语音)和X到文本的任务。为了模拟真实世界的场景,所有的评估都在零样本(zero-shot)模式下进行,这意味着在评估过程中,AnyGPT没有经过微调或预训练下游训练样本。这一具有挑战性的评估设置要求模型能够泛化到未知的测试分布,展示AnyGPT在不同模态上的通用能力。评估结果表明,作为一个通用的多模态语言模型,AnyGPT在各种多模态理解和生成任务上取得了值得称赞的表现。

图像理解:在图像字幕任务上评估AnyGPT的图像理解能力。比较结果呈现在表2中。使用了MS-COCO 2014字幕基准测试集,并采用了Karpathy分割的测试集。评估使用了CIDEr指标来衡量生成的字幕与真实字幕之间的相似度。

图像生成:文本到图像生成任务的结果显示在表3中。为了与先前的研究保持一致,从MS-COCO验证集中随机选取了30k图像,并使用CLIPscore作为评估标准,该指标基于CLIP-ViT-L计算生成图像与其真实字幕之间的相似度。

自动语音识别(ASR):通过在LibriSpeech数据集的测试清洁子集上计算词错误率(WER)来评估AnyGPT在自动语音识别任务上的性能。使用了Wav2vec 2.0和Whisper Large V2作为基线模型。 

文本到语音(TTS):在VCTK数据集上进行零样本TTS评估。评估TTS系统时考虑了说话者相似度和WER,其中WER专注于语音质量。

在MusicCaps基准测试上评估AnyGPT在音乐理解和生成任务上的性能。使用CLAPscore作为客观指标,该指标衡量生成音乐与文本描述之间的相似度。

音乐理解:计算<音乐,真实字幕>对和<音乐,生成字幕>对的CLAPscore,并进行比较。这些分数是在整个测试集上平均得到的。

音乐生成:报告了音乐与文本字幕对齐的CLAPscore指标。

在AnyInstruct-108k数据集上微调后,AnyGPT展示了在任何到任何多模态对话中的能力和潜力。这些示例展示了AnyGPT能够理解并推理包含多种模态的指令,包括文本、语音、图像和音乐,并能熟练地选择适当的多模态组合进行回复。语义-声学分层建模的两阶段框架使AnyGPT能够生成与3秒语音提示的音色和情感相匹配的语音响应。

更多的示例和体验语音和音乐内容,可访问演示页面。https://junzhan2000.github.io/AnyGPT.github.io/

论文链接:https://arxiv.org/abs/2402.12226

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2118653.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

巴西美客多广告打法,这样开广告有泼天的流量!

听说做巴西美客多本土店不需要开广告就有流量&#xff1f;这是真的吗&#xff1f;相信这对于一直在做欧美市场的卖家来说&#xff0c;简直是不敢相信&#xff0c;What? 有运营巴西美客多本土店铺多年的卖家说&#xff0c;确实是不开广告也能获得不错的流量&#xff0c;过去几…

汽车EDI:montaplast EDI对接

Montaplast 是一家总部位于德国的全球知名汽车零部件供应商&#xff0c;专注于高精度塑料部件的设计、开发和生产。公司成立于1958年&#xff0c;主要为汽车行业提供轻量化、高性能的塑料解决方案。Montaplast 以其在注塑成型技术、表面处理和装配技术方面的专业能力而著称&…

vue3 项目中使用git

一.vue项目创建 二.创建本地仓库并和远程仓库进行绑定 在vue3-project-git 项目文件夹下 初始化一个新的Git仓库&#xff0c;可以看到初始化成功之后就会出现一个.git文件&#xff0c;该文件包含所有必要的 Git 配置和版本控制信息。 创建远程仓库: 打开gitee ,点击右上角 ‘…

电源模块检测方法之功率因数的测量

在设计和维护电源系统时&#xff0c;功率因数是一个不可忽视的参数。那么功率因数是什么呢&#xff1f;怎么测试电源模块的功率因数呢&#xff1f;又该如何提高功率因数呢&#xff1f;让我们一起来探讨吧。 一、功率因数概述 功率因数是指交流电路中有功功率和视在功率的比值&a…

安全产品概述

防火墙 防火墙的核心功能是过滤掉有害的流量&#xff0c;在专用网络和公共网络之间建立保护屏障。防火墙过滤通常基于一系列规则&#xff0c;如 IP 地址、域名、协议、端口号、关键字等&#xff0c;对入站和出站的流量进行过滤。这些规则也称为访问控制列表&#xff08;ACCESS…

假装勤奋,无效努力!看了上热搜的北京十一学校,我更加理解了衡水家长们的无奈——早读(逆天打工人爬取热门微信文章解读)

怀念伟大 引言Python 代码第一篇 看了上热搜的北京十一学校&#xff0c;我更加理解了衡水家长们的无奈第二篇 股市路注定是孤独的结尾 引言 不断尝试新的改变 发现最近把很多时间用在股票上 但是总结复盘却没有多 所以得改 一般是看一个视频讲解 然后一不小心就睡着了 日复一日…

超轻量级、支持插件的 .NET 网络通信框架

目录 前言 项目介绍 项目环境 项目功能 1、功能导图 2、项目文档 项目特点 1、传统 IOCP 与 TouchSocket 的 IOCP 模式 2、数据处理适配器 3、兼容性与适配 项目使用 1、Nuget安装 2、TcpService 3、TcpClient 4、TcpClient 断线重连 项目案例 1、工程师软件工…

elementUI之不会用

form表单注意事项 <template><div class"container"><el-form :model"form" label-width"80px" :rules"RulesName" ref"loginForm"><el-form-item label"姓名" prop"username">…

【阿雄不会写代码】全国职业院校技能大赛GZ036第九套

也不说那么多了&#xff0c;要用到这篇博客&#xff0c;肯定也知道他是干嘛的&#xff0c;给博主点点关注点点赞&#xff01;&#xff01;&#xff01;这样博主才能更新更多免费的教程&#xff0c;不然就直接丢付费专栏里了&#xff0c;需要相关文件请私聊

软件测试外包公司分享:软件产品鉴定测试内容和作用

软件产品鉴定测试是指对软件在不同阶段进行系统性、全面性的检测与评估&#xff0c;确保产品在功能、安全性、性能等方面达到既定标准。这对企业选择、验证及应用软件产品至关重要。 软件产品鉴定测试的内容主要包括以下几项&#xff1a;   1、功能测试&#xff1a;验证软件…

Sumsub 获评 Gartner® “新兴技术:针对在线欺诈预防的 GenAI 安全服务”代表性供应商

AI 为业务增长提供了巨大机遇。但也带来了重大威胁&#xff0c;比如可能会导致企业蒙受数百万美元损失的深度伪造攻击。 近日&#xff0c;全球领先的验证平台 Sumsub 被权威机构 Gartner 列入《新兴技术&#xff1a;针对在线欺诈预防的 GenAI 安全服务》报告的代表性供应商名单…

十二、C语言:内存函数

一、memcpy 1.1 使用 void * memcpy ( void * destination, const void * source, size_t num ); 1.前两个参数类型都是void*&#xff0c;因此可以拷贝任何数据类型&#xff1b; 2.num参数为要拷贝的字节数&#xff1b; int main() {char arr[10] "abcdef";char b…

第三届828 B2B企业节开幕,大腾智能携手华为云共谱数字化新篇章

8月27日&#xff0c;由华为携手上万家伙伴共同发起的第三届828 B2B企业节在贵州正式开幕。 本届企业节推出上万款数智产品&#xff0c;600多个精选解决方案&#xff0c;旨在融通数智供需&#xff0c;加速企业智改数转&#xff0c;助推中国数智产业实力再升级。中共贵州省委副书…

英文外链代发服务靠谱吗?

英文外链代发服务的可靠性因供应商和服务类型而异。外链代发服务的主要目标是提高网站在搜索引擎中的排名&#xff0c;通过增加指向目标网站的链接数量和质量来实现。然而&#xff0c;并不是所有的外链代发服务都是可靠的&#xff0c;很多外链都是只管发&#xff0c;但是发了有…

你真的理解 Kubernetes 中的 requests 和 limits 吗?

你真的理解 Kubernetes 中的 requests 和 limits 吗&#xff1f; https://www.cnblogs.com/kubesphere/p/14632890.htmlhttps://www.cnblogs.com/kubesphere/p/14632890.html在 Kubernetes 集群中部署资源的时候&#xff0c;你是否经常遇到以下情形&#xff1a; 经常在 Kubern…

客户案例 | 使用 BigQuery 和 AutoML 消除电视行业的数据孤岛和分散

在这个客户案例中&#xff0c;我们会介绍一家大众媒体公司如何利用 BigQuery 和 AutoML 消除数据孤岛和分散。通过参考真实的 Google Cloud 案例研究&#xff0c;我们总结了 Google Cloud 的服务和产品如何使客户的业务受益。 Cloud Ace - 谷歌云 | 谷歌云全球战略合作伙伴 | …

《花100块做个摸鱼小网站! 》第六篇—将小网站部署到云服务器上

⭐️基础链接导航⭐️ 服务器 → ☁️ 阿里云活动地址 看样例 → &#x1f41f; 摸鱼小网站地址 学代码 → &#x1f4bb; 源码库地址 一、前言 到这一篇我们终于把环境搭好&#xff0c;也做好了几个热搜小组件&#xff0c;为了让我们方便展示成果或者方便自己摸鱼&#xff0c…

【CSS in Depth 2 精译_026】4.4 Flexbox 元素对齐、间距等细节处理(上)

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第一章 层叠、优先级与继承&#xff08;已完结&#xff09; 1.1 层叠1.2 继承1.3 特殊值1.4 简写属性1.5 CSS 渐进式增强技术1.6 本章小结 第二章 相对单位&#xff08;已完结&#xff09; 2.1 相对…

HTML深度探索 :img应用与实践

HTML深度探索 &#xff1a;img应用与实践 1、定义和用法2、图像格式3、常用属性4、预加载和懒加载4.1 预加载4.2 懒加载 1、定义和用法 HTML 元素 <img>将一张图像嵌入文档。 从技术上讲&#xff0c;实际上并没有将图像插入到网页中&#xff0c;而是将图像链接到了网页。…

17种最佳的联盟营销工具,助你赚取更多佣金

通过最新、最先进的工具获得竞争优势&#xff0c;并启动你的联盟营销策略&#xff0c;以提高效率和节省&#xff08;大量&#xff09;时间。 如果你销售联盟产品或服务&#xff0c;你可能知道&#xff0c;当你意识到市场营销涉及大量工作&#xff08;有时还包括金钱&#xff0…