文章目录

ChatGPT is not all you need，一文看尽SOTA生成式AI模型：6大公司9大类别21个模型全回顾（二）
- Image-to-Text 模型
- - Flamingo
  - VisualGPT
- Text-to-Video 模型
- - Phenaki
  - Soundify
- Text-to-Audio 模型
- - AudioLM
  - Jukebox
  - Whisper

ChatGPT is not all you need，一文看尽SOTA生成式AI模型：6大公司9大类别21个模型全回顾（二）

AI绘画成了2022年热议的科技话题，要归功于「以文生图」这种文字转图像（Text-to-Image）或文字转3D模型（Text-to-3D）这样崭新的交互方式。2022年8月，Stable Diffusion正式开放，这无疑进一步给AI创作带来了最近的火热。

和机器学习刚开始火的时候一样，AI生成技术也并不是凭空出现的。只是近一两年以来，作品的质量和计算速度日益快速提升，让我们忽略了AI绘画同样悠久的历史。
在这里插入图片描述

1月27日，谷歌发布全新AI模型——MusicLM。通过AI模型MusicLM，文字可以直接生成高保真的音乐。继文字生成AI模型在绘画创作领域的发光发热，音乐领域又即将被Jukebox （是一种由人工智能驱动的音乐创作模型）等攻占，不难看到，生成式AI赛道正在迎来爆发。

今天我们继续学习由西班牙科米利亚斯主教大学（Comillas Pontifical University）的研究人员提交的综述论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》。

论文：ChatGPT is not all you need. A State of the Art Review of large Generative AI models
机构：Quantitative Methods Department, Universidad Pontificia Comillas, Madrid, Spain
作者：Roberto Gozalo-Brizuela, Eduardo C. Garrido-Merch´an
地址：https://arxiv.org/pdf/2301.04655.pdf

大家可以回顾第一部分的内容：
传送门：ChatGPT is not all you need，一文看尽SOTA生成式AI模型：6大公司9大类别21个模型全回顾（一）

这第二部分，我们接着来看Image-to-Text，Text-to-Video，Text-to-Audio模型的一些细节。

ChatGPT is not all you need，一文看尽SOTA生成式AI模型：6大公司9大类别21个模型全回顾（二）
- Image-to-Text 模型
  - Flamingo
  - VisualGPT
- Text-to-Video 模型
  - Phenaki
  - Soundify
- Text-to-Audio 模型
  - AudioLM
  - Jukebox
  - Whisper

在这里插入图片描述

Image-to-Text 模型

有时，获取描述图像的文本也很有用，相当于图像生成的逆版本。

Flamingo

Flamingo是Deepmind开发的一个视觉语言模型，在开放式的视觉语言任务上，只需通过一些输入/输出例子的提示，即可进行few-shot学习。

具体来说，Flamingo的输入包含视觉条件下的自回归文本生成模型，能够接收与图像或视频交错的文本token序列，并生成文本作为输出。Flamingo模型利用了两个互补的模型：一个是分析视觉场景的视觉模型，一个是执行基本推理形式的大型语言模型。语言模型是在大量文本数据上训练的。

在这里插入图片描述

仅使用少量注释示例构建可以快速适应众多任务的模型是多模态机器学习研究的一项公开挑战。然而Flamingo正是具有这种能力，且在架构上进行了创新：(i）连接强大的预训练视觉和语言模型，(ii）处理任意交错的视觉和文本数据序列，以及（iii）无缝摄取图像或视频作为输入。由于它们的灵活性，Flamingo 模型可以在包含任意交错的文本和图像的大规模多模式网络语料库上进行训练，这是赋予它们上下文小样本学习能力的关键。

用户可以向模型输入query，并附上一张照片或一段视频，模型就会用文本答案来回答。如下图10所示。

在这里插入图片描述

VisualGPT

VisualGPT 是一个由 OpenAI 开发的图像-文本模型，基于预训练语言模型GPT-2提出了一种新的注意力机制，来衔接不同模态之间的语义差异，无需大量图像-文本数据训练，就能提升文本生成效率。 OpenAI 已经对外提供了API来访问该模型。

为了更有效地将视觉信息融合到语言模型的不同层中，我们可以考虑专门设计的交叉注意力融合机制来平衡文本生成能力和视觉信息的混合。所以，VisualGPT 的一个创新点是采用自我复活的编码器-解码器注意机制，以使用少量域内图像文本数据快速适应预训练的 LM。
在这里插入图片描述

图像描述（Image Captioning）任务要求计算机用自然语言描述一张图片的视觉内容。目前的图像描述模型主要是基于Encoder-Decoder的架构，通过在大量成对的图文数据上训练，从而获得更准确更细致的图像描述。然而，大规模的人工标注的训练数据获取代价高昂，而网络上自动爬取的数据清洗后不可避免地存在一些错误，而且一些特定领域比如医学影像报告并无构建大规模数据集的条件。

VisualGPT 最大的优点是首次提出将预训练语言模型PLM适应到各领域的图像描述任务上，以缓解数据上存在的问题。通过对作为decoder的gpt进行结构修改，插入自复活激活门（SRAU），平衡PLM预先学习到的语言知识和输入的图像信息，从而更好地解决新物体的描述问题，最终生成更高质量的图像描述。

如下图11包含了模型生成的三个文本提示示例，这些文本提示与输入到模型的三个图像相关。

在这里插入图片描述

Text-to-Video 模型

在22年下半年我们看到了一些文本转视频的模型，期待更高分辨率和帧率的模型出现。

Phenaki

继 Meta 的 Make-A-Video 之后，谷歌也接连发布了两款视频模型 Imagen Video 和 Phenaki。两者分别强调视频的质量和长度等不同功能。

Phenaki 由 Google Research 开发，是一个能够在给定一系列文本提示的情况下，进行逼真视频合成的模型。谷歌已经对外提供了API来访问该模型。

Phenaki 是第一个可以从开放域时间变量提示中生成视频的模型。

为了解决训练数据较少问题，谷歌还通过在大型图像-文本对语料库和数量较少的视频-文本示例上进行联合训练，从而拓展视频数据集的可用范围。主要是图像-文本数据集往往有数十亿的输入数据，而文本-视频数据集则小得多，并且对不同长度的视频进行计算也是一个难题。

Phenaki 模型包含三个部分：C-ViViT编码器、训练Transformer和视频生成器。
在这里插入图片描述

Phenaki 基于新的编解码器架构 C-ViViT 将视频压缩为离散嵌入。将输入token转换为embedding后，接着经过时序Transformer和空间Transformer，再使用一个没有激活的单一线性投影，将token映射回像素空间。

最终模型可以生成以开放域提示为条件的时间连贯性和多样性的视频，甚至能够处理一些数据集中不存在的新概念。视频可以长达几分钟，而模型则在1.4秒的视频上训练。如下图12和图13中展示了通过一系列文本提示以及通过一系列文字提示和图像创建视频的一些示例。

在这里插入图片描述

Phenaki 可以将详细的文本提示转换为两分钟以上的视频，但缺点是视频质量较低。

Soundify

在视频编辑中，声音占故事的一半。熟练的视频编辑器将声音（如效果和环境）覆盖在画面上，为对象添加角色或将观众沉浸在空间中。但是，对于专业的视频编辑来说，问题来自于找到合适的声音、对齐声音、视频和调谐参数，这个过程可能非常乏味和耗时。

为了解决这个问题，Soundify 是 Runway 开发的一个将声音效果与视频相匹配的系统，目的即制作音效。Soundify 通过利用带标签的录音棚音效库和将CLIP（一种具有令人印象深刻的Zero-Shot图像分类功能的神经网络）扩展到“Zero-Shot检测器”中，能够在无需资源密集型通信学习或音频生成的情况下产生高质量的结果。

在这里插入图片描述

具体地，Soundify 包括分类（classification）、同步（synchronization）和混合（mix）三个模块，首先模型通过对声音进行分类，将效果与视频匹配，随后将效果与每一帧进行比较，插入对应的音效。该分类通过将声音发射器分类在视频中来匹配效果。为了减少不同的声音发射器，Soundify 基于绝对颜色直方图距离分割视频。在同步部分，通过将效果标签与每个帧进行比较来识别间隔，并以阈值来精确定位连续匹配。在混合部分，效果被分成大约一秒钟的块，关键的是，块是通过交叉缝缝合的。

Text-to-Audio 模型

相比 Text-to-Image 有盛行的AI作画，Text-to-Audio 也有AI作曲，有广泛的 TTS（Text-to-speech）场景。TTS技术可应用于流行歌曲、乐曲、有声书的内容创作，以及视频、游戏、影视等领域的配乐创作，大大降低音乐版权的采购成本。其中，AI作曲可以简单理解为“以语言模型（目前以Transformer为代表，如谷歌Megenta、OpenAI Jukebox、AIVA等）为中介，对音乐数据进行双向转化（通过MIDI等转化路径）”。

图像不是唯一重要的非结构化数据格式。对于视频、音乐和许多环境，音频可能至关重要。

AudioLM

AudioLM 由谷歌开发，可用于生成高质量的音频，并具有长距离一致性。
在这里插入图片描述

AudioLM 由三个部分组成：

一个token生成模型，它将一系列声音映射到一个离散的token序列中。这一步也减少了序列的大小（采样率减少了大约 300 倍）。
一个仅包含解码器的transformer，可以最大化预测序列中下一个token的可能性。该模型包含 12 层，16 个注意力头，嵌入维度为 1024，前馈层维度为 4096。
一个将预测的token转换为音频token的去token模型。

AudioLM 的特别之处在于将输入音频映射成一个离散的token序列，并将音频生成转换成语言建模任务，学会基于提示词产生自然连贯的音色。在人类评估中，认为它是人类语音的占51.2%、与合成语音比率接近，说明合成效果接近真人。与其他模型一样，可以通过GitHub找到API。
在这里插入图片描述

通过对大量原始音频波形的训练，AudioLM 成功学会了在短提示下生成自然连贯的连续语音。这种方法甚至可以扩展到人声之外的语音，比如连续的钢琴音乐等等，而不需要在训练时添加符号表示。
在这里插入图片描述

由于音频信号涉及多个尺度（scale）的抽象，所以音频合成时使得多尺度在显示一致性的同时实现高音频质量非常具有挑战性。AudioLM 模型通过结合神经音频压缩、自监督表示学习和语言建模方面的最新进展来实现。

Jukebox

Jukebox 由 OpenAI 开发的音乐创作模型，可生成带有唱词的音乐。不过目前模型仍然局限于英语。与其他模型一样，可以通过GitHub找到API。

早期自动生成音乐的一个方法是音符产生器，生成可以弹奏的乐谱，但音符生成器最大的局限便在于，它无法捕获人声以及其他音乐细节，如音色、力度和表现力。

还有另一种方法，直接将音乐建模为原始音频。但由于音频序列很长，因此在音频级别上生成音乐非常困难，以44 kHz，16位元的CD音乐为例，一首4分钟的歌曲，可能要耗费1000万小时的时常。因此要学习音乐的高阶语义，模型需要能够处理极长的相依关系。

总的来说，训练一个自动生成音乐模型，需面对的一个挑战：原始音频的空间维数非常高，需要建模的信息量很大。关键瓶颈在于，对原始音频进行建模会直接引入极远距离的依赖关系，从而使其在计算上难以理解音乐的高级语义。而 Jukebox 的特别之处是试图通过分层 VQ-VAE 架构来解决，将音频压缩到离散空间中，损失函数被设计为保留最大量信息，用于解决AI难以学习音频中的高级特征的问题。这种模式仅限于英文歌曲。具体来说，它的训练数据集来自LyricWiki的120万首歌曲，其中有60万首是英文歌。VQ-VAE 有50亿个参数，在9秒音频剪辑上训练3天。

在这里插入图片描述

为了解决歌词处理对应的问题，Jukebox 的研究者还增加了新的基于神经网络的工具：

Spleeter，可以从歌曲中提取人声进行语音识别；
NUS AutoLyricsAlign，把歌词和歌曲进行对齐；
注意力机制，让解码出来的音乐，随着播放的进度，注意歌词编码的位置变化。

Jukebox 的中文就是点唱机，大概意思是点什么唱什么，只要你给这个神经网络提供音乐的类型 (genre)、参考的歌手和歌词作为输入，它就能自动生成对应的音乐：旋律、和声，还有创作歌曲的歌词。得益于类似于 GPT-2 的基于 Transformer 的架构，点唱机可以生成多样且连贯的音乐，对同一首歌曲进行多种演绎，为用户提供多种选择。