AI多模态模型架构之模态生成器:Modality Generator

news2024/9/24 14:59:57

探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活

本文作者:AIGCmagic社区   刘一手

前言

AI多模态大模型发展至今,每年都有非常优秀的工作产出,按照当前模型设计思路,多模态大模型的架构主要包括以下几个部分:

  1. 模态编码器(Modality Encoder):负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等,音频的Whisper、CLAP等,视频编码器等。

  2. 输入投影器(Input Projector):负责将其他模态的特征投影到文本特征空间,并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。

  3. 语言模型骨架(LLM Backbone):利用预训练的语言模型,负责处理各种模态的特征,进行语义理解、推理和决策。常用的语言模型包括ChatGLM、Qwen、LLaMA等。

  4. 输出投影器(Output Projector):负责将语言模型输出的信号转换成其他模态的特征,以供后续模态生成器使用。常用的投影器包括Tiny Transformer、MLP等。

  5. 模态生成器(Modality Generator):负责生成其他模态的输出。常用的生成器包括图像的Stable Diffusion、视频的Zeroscope、音频的AudioLDM等。

在本文中,刘一手将详细解读AI多模态架构中的最后一个组件:模态生成器(Modality Generator,简称MG),并结合主流方案,阐述模态生成器的工作原理!持续更新,欢迎关注! 

模态生成器的引入

在前期多模态架构系列文章中,我们说到输出投影器接收LLM的输出,并将其转换回目标任务所需的格式。那么在格式转换完成之后,最后一句就是根据我们任务的最终目的,生成图像、视频或者音频,本文中模态生成器就是来做这个事情:

模态生成器MG的任务是产生不同模态的输出。在现有的工作中,通常使用潜在扩散模型(Latent Diffusion Models,LDMs) 实现,例如非常有名的用于图像生成的 Stable Diffusion,以及用于视频合成的 Zeroscope、用于音频生成的 AudioLDM-2 等。

输出投影器映射得到的特征$H_{X}$作为去噪过程中的条件输入,用以生成多模态内容。在训练过程中,真实的地面内容首先通过预训练的变分自编码器(VAE)转换成潜在特征$z_{0}$。接着,向$z_{0}$中加入噪声$\epsilon$,得到含噪声的潜在特征$z_{t}$。然后,使用预训练的U-Net$\epsilon_{X}$来计算条件LDM损失${\mathcal{L}}_{\mathrm{X-g e n}}$,其公式如下:

这个公式的意思是,对于服从标准正态分布的噪声$\epsilon$和某个时间步长t,计算实际噪声$\epsilon$与通过U-Net生成的预测噪声$\epsilon_{X} ( z_{t}, t, \boldsymbol{H}_{X} )$之间的均方误差(MSE)。通过最小化这个损失函数${\mathcal{L}}_{\mathrm{X-g e n}}$,可以优化参数$\Theta_{X \to T}$$\Theta_{T \to X}$,从而提高生成内容的准确性和质量。

多模态大模型经典架构,红框为Generator模块

模态生成器的类别

1. Text Generation

Text Generation 是指利用自然语言处理技术,特别是大型语言模型(LLM)来自动产生人类可读的文本。在现代人工智能领域,LLM 已经成为文本生成任务中的核心工具,它们通过学习大量的文本数据来理解语言的结构和语义,从而能够生成连贯、有意义的文本。

LLM 本身就天然支持直接生成文本,这一能力主要得益于其内部的学习机制和训练目标。在生成文本时,LLM 可以采用多种解码策略,其中两种常见的方法是 BPE decoding 和 Beam search。

BPE decoding(Byte Pair Encoding decoding)是一种中间步骤,它将文本分割成子词序列,这样可以更好地处理罕见词汇和未知词汇。在生成文本时,LLM 会根据概率分布预测下一个子词,然后将这些子词拼接起来形成完整的句子。这种方法有助于提高生成文本的多样性和准确性。

Beam search 则是一种搜索算法,用于在生成文本的过程中找到最有可能的序列。与简单的贪婪搜索不同,Beam search 在每一步都会保留多个候选序列,并根据它们的概率进行排序。最终,它会选择概率最高的序列作为输出结果。这种方法可以在保证生成文本质量的同时,减少生成时间。

除了这两种方法,LLM 还可以采用其他解码策略,如 Top-K sampling 和 Top-p (nucleus) sampling,这些策略可以在一定程度上控制生成文本的多样性和创造性。


2.Generation via Diffusion Models

Generation via Diffusion Models 是一种基于扩散过程的生成模型,它在图像、视频和音频等多个模态的生成任务中展现出了强大的能力。与传统的生成对抗网络(GANs)和变分自编码器(VAEs)相比,扩散模型通过模拟数据的扩散过程来学习数据的分布,从而能够生成更加逼真和多样的数据样本。

2.1 图像生成

图像生成是扩散模型应用最为广泛的领域之一。潜在扩散模型(Latent Diffusion Models, LDMs),如 Stable Diffusion,已经成为生成高质量图像的重要工具。这些模型通常首先将图像编码到一个潜在空间中,然后在潜在空间中进行扩散和去噪过程。通过这种方式,LDMs 能够生成分辨率高、细节丰富的图像,并且可以很容易地与其他图像处理技术结合,如风格迁移。

Stable Diffusion 在2022年发表,一种基于Latent Diffusion Models的新兴机器学习技术。它基于扩散过程,利用数学模型将机器学习中的高维度数据降低到低维度空间,并在该空间中进行训练。Stable Diffusion的原理涉及到以下三个组件:

  1. Text Encoder 文字特征化:为了输入文字的内容,我们要先有一个powerful的文字特征萃取器,可以是GPT、BERT等常见的主流Transformer model,总之能把文字特征做得好,就好的是Encoder 。

  2. Diffusion Model 扩散模型:透过降躁过程,将一个潜在空间Latent Space的图像,逐步转回真实图像的技术,里面用到U-Net架构及Attenation技术,来提高模型表现,与传统的Diffusion略有不同。

  3. VAE (Variational Autoencoder):变分自编码器,负责图像在潜在空间的压缩与重建,压缩后的图像能让模型学得更快更好。

以功能来切,大概可以这样理解:

图片

以模型的学习与训练来看,可以这样理解:

图片

将高维特征压缩到低维,然后在低维空间上进行操作的方法具有泛用性,可以很容易推广到文本、音频、影像等数据。

图片

Stable Diffusion模型中,有几种不同的sampling方法可以用来生成数据,以下是一些常见的sampling方法:

  1. Gaussian sampling:是Stable Diffusion中最常用的一种sampling方法。它通过将高斯噪声添加到数据中来生成新的样本。这种方法可以帮助模型更好地理解数据的分布和特征。

  2. Langevin sampling:一种基于随机梯度下降的sampling方法。它通过将随机噪声添加到梯度中来生成新的样本。这种方法可以帮助模型更好地处理高度非线性的数据。

  3. Metropolis-Hastings sampling:一种Markov Chain Monte Carlo(MCMC)方法,它可以生成一个序列来表示数据的分布。这种方法可以帮助模型更好地理解数据的复杂性和不确定性。

  4. Hamiltonian Monte Carlo sampling:一种MCMC方法,它可以利用动态系统的特性来生成数据样本。这种方法可以帮助模型更好地理解数据中的隐含结构和特征。

  5. Diffusion Process Model:DPM是基于扩散过程的理论原理,通过对数据样本中的噪声进行建模,可以帮助消除数据中的噪声和偏差,提高模型的准确性和泛化能力。

这些方法在Stable Diffusion的参数中都可以调整,其中Sampling step更会影响图片生成的运算时间及效果,原则上会根据采样方法不同而有所差异。

2.2 视频生成

视频生成是一个更为复杂的任务,因为它不仅要考虑单个帧的质量,还要保证帧间的连贯性。Zeroscope 是一个基于扩散模型的视频合成工具,它通过逐帧生成视频内容并确保相邻帧之间的平滑过渡来实现视频的生成。这种方法可以生成连续、流畅的视频,尽管计算成本较高,但在生成高质量视频内容方面具有巨大潜力。

Zeroscope源于Modelscope,这是一个具有17亿个参数的多级文本到视频扩散模型。它根据文本描述生成视频内容。

Zeroscope完善了这一概念,提供了更高的分辨率,没有Shutterstock水印,并且更接近16:9的纵横逼比。

Zeroscope具有两个组件:Zeroscope_v2 567w,旨在以576×320像素的分辨率快速创建内容,以探索视频概念。然后可以使用zeroscope_v2 XL将高质量的视频升级到1024×576的“高清”分辨率。

对于视频生成,该模型需要 7.9 GB 的 VRam,分辨率为 576×320 像素,帧速率为 30 帧/秒,15.3 GB 的 VRam,分辨率为 1024×576 像素,相同帧速率。因此,较小的型号应在许多标准图形卡上运行。

除了24 帧(1024 x 576 分辨率)的9,923 个剪辑和 29,769 个标记帧之外,该模型还根据 ModeScope 的原始权重进行了训练。因此,它创建的输出比 ModelScope 稍好一些。

训练期间的这种噪声引入增强了模型对数据分布的理解。因此,该模型可以生成更多样化的逼真视频,并更有效地解释文本描述中的变体。

2.3 音频生成

音频生成也是扩散模型应用的一个重要方向。AudioLDM 系列是一个专门用于生成音频内容的模型,它可以生成包括音乐、语音在内的各种声音效果。与图像和视频生成类似,音频生成也涉及到信号的扩散和去噪过程。AudioLDM系列 通过学习音频信号的分布特性,能够生成听起来自然且具有丰富情感的音频样本。

下图总结了AudioLDM 2的框架原理:

图片

  1. 给定文本输入,使用了两种文本编码器模型来计算文本嵌入:CLAP的文本分支和Flan-T5的文本编码器。CLAP用于与相应音频样本对齐,而Flan-T5则更好地表示文本的语义。

  2. 以CLAP和Flan-T5嵌入为输入,GPT2被用于生成N个新的嵌入向量的序列。

  3. GPT2生成的嵌入向量和Flan-T5文本嵌入被用作LDM中的交叉注意力条件,通过反向扩散过程去噪一个随机的潜变量。LDM在反向扩散过程中运行总共T个推理步骤;

  4. 去噪的潜变量被传递给VAE解码器,以恢复 Mel spectrogram;

  5. 最终获得输出的音频波形。

主流的 43 个多模态大模型中的Modality Generator技术如下:

图片

NExT-GPT的Modality Generator的方案是:生成图像的Stable Diffusion、视频的Zeroscope、音频的AudioLDM。

图片


3.Generation via Codebooks

在UNIFIED-IO 2模型中,码本(codebooks)的使用为多模态内容的生成提供了一种高效且灵活的方法。码本是一种将连续数据映射到离散空间的技术,它通过预训练的向量集合来表示数据的不同特征。这种方法在处理视觉(图像/视频)和音频等模态的数据时尤为有效。下面将以Visual (Image/Video) Generator 为例,详细介绍这些生成方法。

3.1 VQ-VAE + Codebooks

VQ-VAE(Vector Quantized Variational AutoEncoder)是一种结合了向量量化和变分自编码器的模型。在这种方法中,图像首先被编码成一个嵌入向量序列,然后这些向量通过向量量化技术被映射到码本中的离散表示。码本是由大量预训练的向量组成的集合,每个向量代表视觉空间中的一个特定点。

VQ-VAE 的工作原理是通过最小化重构误差来学习图像的压缩表示。通过选择最接近原始嵌入向量的码本向量,模型可以重建图像的一个近似版本。此外,通过混合和匹配码本中的不同向量,VQ-VA化能够探索图像空间并生成新的图像内容。这种方法不仅能够生成高质量的图像,还能够有效地压缩图像数据。

3.2 VQ-GAN + Codebooks

VQ-GAN(Vector Quantized Generative Adversarial Network)是另一种结合了生成对抗网络(GAN)和向量量化技术的模型。在UNIFIED-IO 2模型中,VQ-GAN用于将图像转换成离散的码本索引。这些索引随后可以被用来生成新的图像。

与VQ-VAE类似,码本在VQ-GAN中也起到了桥接连续图像表示和离散潜在空间的作用。生成器网络尝试生成逼真的图像,而判别器网络则试图区分真实图像和生成图像。通过训练,VQ-GAN能够学习到图像的压缩表示,并且能够通过改变码本索引来生成多样化的图像。

这些基于码本的生成方法使得模型能够处理和生成多种模态的数据,包括图像、视频和音频。码本的离散化表示不仅提高了模型的学习效率,还有助于保持生成内容的多样性和质量。

Unified-IO 2 结构

总结

Text Generation:文本生成技术主要应用于视觉问答(VQA)和图像描述(Caption)任务中。这类技术通过大型语言模型(LLM)直接生成文本,能够快速地提供答案或者描述图像内容。由于其直接性和高效性,文本生成技术在自动化客服、内容创作、教育辅助等多个领域得到了广泛应用。

Generation via Diffusion Models:扩散模型是近年来在图像生成领域取得显著进展的一种方法。它们能够生成高质量的连续数据,尤其是在生成高分辨率和逼真的图像方面表现出色。然而,扩散模型的缺点在于它们通常需要大量的计算资源,并且生成过程相对较慢。因此,扩散模型更适合于那些对图像质量和分辨率要求极高的任务,如高端艺术创作、虚拟现实内容制作等。

Generation via Codebooks:基于码本的生成方法通过使用离散的码本索引来简化生成过程,这不仅可以减少计算复杂性,还可以允许更直接的控制生成过程。因为码本是由有限数量的向量组成的,所以可以通过修改码本中的向量来影响输出结果。不过,码本的大小是有限的,这可能限制了它捕捉数据连续性和细微变化的能力,尤其是在码本较小时可能会引入量化误差。因此,基于码本的生成方法更适合于那些需要快速生成并且对生成过程有一定程度可控性的应用,如实时图像处理、游戏中的动态内容生成等。


 推荐阅读

《三年面试五年模拟》版本更新白皮书,迎接AIGC时代

AI多模态核心架构五部曲:

AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码

AI多模态模型架构之输入投影器:LP、MLP和Cross-Attention

AI多模态模型架构之LLM主干(1):ChatGLM系列

AI多模态模型架构之LLM主干(2):Qwen系列

AI多模态模型架构之LLM主干(3):Llama系列  

AI多模态模型架构之输出映射器:Output Projector  

AI多模态实战教程:

AI多模态教程:从0到1搭建VisualGLM图文大模型案例

AI多模态教程:Mini-InternVL1.5多模态大模型实践指南

AI多模态教程:Qwen-VL多模态大模型实践指南

AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

智谱推出创新AI模型GLM-4-9B:国家队开源生态的新里程碑

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2074044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ai+若依(定时任务):【01篇】

若依为定时任务功能提供方便友好的web界面,实现动态管理任务。 案例 每间隔5秒,控制台输出系统时间。 实现步骤: ①创建任务类 在服务 ==》ruoyi-quartz==》task==》MyTask package com.ruoyi.quartz.task;import org.springframework.stereotype.Component;@Component…

程序员修炼之道 10:并发

不记录,等于没读。 这里是我阅读《程序员修炼之道》这本书的记录和思考。 并发和并行代码曾经是很新奇的玩意,但现在已经是标配。 并发 :Concurrency,指的是两个或更多个代码段在执行过程中表现得像是在同时运行一样。 并行 &am…

AD的3D模型格式是什么

AD通常指的是Altium Designer,这是一款用于电子设计自动化的软件,主要用于电路板的设计。在Altium Designer中,3D模型主要用于PCB(印制电路板)设计中的可视化,以便设计师能够在三维空间中查看组件和板的布局…

21:【stm32】定时器二:输入捕获

输出捕获 1、输出捕获的简介2、输入捕获原理2.1、输入滤波2.2、信号选择2.3、CCx事件和CCx中断 3、标准库编程 1、输出捕获的简介 定时器通过通道捕获输入电平的变化,而通道有CH1~CH4,这4个通道。 我们设定对通道CH3的输入电平进行捕获。假如CH3突然捕获…

Java排序算法详解

在Java编程中,排序算法是数据处理和算法设计中的基础且重要的部分。它们广泛应用于各种场景,如数据库管理、数据分析、图形界面排序等。掌握几种常见的排序算法对于提升程序效率和优化性能至关重要。本文将详细解析几种经典的Java排序算法,包…

OpenGL笔记二十之深度检测概念

OpenGL笔记二十之深度检测概念 —— 2024-08-25 晚上 bilibili赵新政老师的教程看后笔记 code review! 文章目录 OpenGL笔记二十之深度检测概念1.课程PPT截图2.运行3.代码 1.课程PPT截图 2.运行 3.代码 关键部分 main.cpp #include <iostream>#include "glfra…

【逐行注释】三维EKF的MATLAB代码|附下载链接

文章目录 程序概况源代码与注释运行结果代码块解析 程序概况 基于MATLAB的EKF&#xff08;扩展卡尔曼滤波&#xff09;代码解析。状态转移和观测都是非线性的&#xff0c;也就是说会涉及到雅克比矩阵的求解。我尽量将模型设计复杂一点&#xff0c;便于拿到手以后改成自己想要的…

C++类和对象(2)——拷贝构造函数

拷贝构造函数的语法 拷贝构造函数是构造函数的重载&#xff0c; 用于这种情况&#xff1a;用已经构造好的对象去给另一个对象初始化。 int main() {Date d1(2024, 8, 1);Date d2(d1);//用d1初始化d2return 0; } 我们以Date类为例子讲解一下。 class Date { public://全缺省…

.NET周刊【8月第3期 2024-08-18】

国内文章 Roslyn 简单实现代码智能提示补全功能 https://www.cnblogs.com/lindexi/p/18365261 相信有很多伙伴热衷于编写 IDE 应用&#xff0c;在 dotnet 系下&#xff0c;通过 Roslyn 友好的 API 和强大的能力&#xff0c;实现一个代码智能提示是非常简单的事情。本文将和大…

【互动直播】支付能力视角与年龄的调节作用—推文分享—2024-08-25

【今天的关键词是&#xff1a;“interaction” AND “live commerce”】 第一篇&#xff1a;通过信息技术的可供性&#xff08;IT affordance&#xff09;视角&#xff0c;直播电商的实用、社交和享乐三个维度的IT可供性如何影响购买意愿&#xff1b; 第二篇&#xff1a;研究…

凭借着“16连射”造就一个游戏角色的诞生

一、高桥名人的冒险岛起源 大约在 1986 年&#xff0c;Hudson 的所有人都很喜欢一款名为《神奇男孩》的街机游戏&#xff0c;公司内部有人建议将其改编成 Famicom 游戏。因此&#xff0c;副总裁和高桥名人去查看角色和游戏的开发情况&#xff0c;当他们查看正在构建的角色时&am…

C++类和对象的基础介绍(1)

类的定义 C类的关键字是class&#xff0c;学过c的朋友们可能会觉得和结构体struct有点像。 在C中struct也可以定义类&#xff0c;但和class定义的有所区别。 我们还是推荐使用class。 类里面会有成员变量、成员函数的定义和声明、构造函数、拷贝构造函数、析构函数、运算符…

迈巴赫S480升级大柏林音响31个喇叭8个座椅震动加上后排按摩座椅更加舒适

迈巴赫 S480 改装大柏林音响的改装案例&#xff1a; 改装前的车辆音响系统&#xff1a; 迈巴赫 S480 原车配备了 15 个喇叭的小柏林音响系统。 改装方案&#xff1a; 1. 扬声器升级&#xff1a;将原车的小柏林音响全部拆下&#xff0c;更换为大柏林的扬声器。大柏林音响系统…

SCMsafe链四方参展2024第三届医药供应链创新大会

024年8月22日-24日&#xff0c;由智慧医药主办&#xff0c;多家行业协会、研究机构、生产、流通及供应链公司协办的2024第三届医药供应链创新大会在杭州召开。 会议以“正在遇见的革命”为主题&#xff0c;聚焦生产、流通及终端医药供应链热点、痛点政策和市场话题&#xff0c;…

opencv实战项目十五:钢材表面缺陷检测

文章目录 前言一、算法实现流程&#xff1a;二&#xff0c;算法详解&#xff1a;2.1 二值化与去噪2.2 形态学处理 三&#xff0c;整体代码实现&#xff1a; 前言 随着科技的不断进步&#xff0c;自动化和智能化在工业生产中的应用越来越广泛。在钢材生产过程中&#xff0c;钢材…

认知杂谈33

今天分享 有人说的一段争议性的话 I I 《说话影响命运&#xff0c;得小心》 嘿&#xff0c;你想想看&#xff0c;咱平常不经意说的那些话&#xff0c;就像小种子一样。你可能没当回事&#xff0c;可说不定啥时候&#xff0c;这些话就会在生活里生根发芽&#xff0c;最后生活…

继承—构造函数—引用等

继承时&#xff0c;数据成员&#xff0c;函数成员全盘接收&#xff0c;如果碰见同名成员屏蔽基类成员。 1&#xff0c;无论采取什么继承方式&#xff0c;基类中所有数据成员都将继承到派生类 2&#xff0c;在类型的继承层次里&#xff0c;保护属性当作共有属性使用 3&#x…

Xv6驱动(一):PLIC

PLIC内存布局 #define PLIC 0x0c000000L #define PLIC_PRIORITY (PLIC 0x0) #define PLIC_PENDING (PLIC 0x1000) #define PLIC_SENABLE(hart) (PLIC 0x2080 (hart) * 0x100) #define PLIC_SPRIORITY(hart) (PLIC 0x201000 (hart) * 0x2000) #define PLIC_SCLAIM(hart) …

前端算法 ==== 栈的好戏还要继续!| 1047. 删除字符串中的所有相邻重复项

目录 解题 思路 题外话 给出由小写字母组成的字符串 S&#xff0c;重复项删除操作会选择两个相邻且相同的字母&#xff0c;并删除它们。 在 S 上反复执行重复项删除操作&#xff0c;直到无法继续删除。 在完成所有重复项删除操作后返回最终的字符串。答案保证唯一。 输入&a…

E-Prime2中同时识别大小写字母与中文支持设置

识别大小写 起因是在学习Eprime过程中发现&#xff0c;一开始只设置了键盘反应为q&#xff0c;然后当键盘为大写状态时&#xff0c;按Q不会响应&#xff0c;后来看到可以同时设置Qq&#xff0c;并且也能读取&#xff0c;简单试了一下&#xff0c;发现有必要在其他地方也这么设…