ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(二)

news2024/10/3 4:43:56

文章目录

  • ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(二)
    • Image-to-Text 模型
      • Flamingo
      • VisualGPT
    • Text-to-Video 模型
      • Phenaki
      • Soundify
    • Text-to-Audio 模型
      • AudioLM
      • Jukebox
      • Whisper

ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(二)

AI绘画成了2022年热议的科技话题,要归功于「以文生图」这种文字转图像(Text-to-Image)或文字转3D模型(Text-to-3D)这样崭新的交互方式。2022年8月,Stable Diffusion正式开放,这无疑进一步给AI创作带来了最近的火热。

和机器学习刚开始火的时候一样,AI生成技术也并不是凭空出现的。只是近一两年以来,作品的质量和计算速度日益快速提升,让我们忽略了AI绘画同样悠久的历史。
在这里插入图片描述

1月27日,谷歌发布全新AI模型——MusicLM。通过AI模型MusicLM,文字可以直接生成高保真的音乐。继文字生成AI模型在绘画创作领域的发光发热,音乐领域又即将被Jukebox (是一种由人工智能驱动的音乐创作模型)等攻占,不难看到,生成式AI赛道正在迎来爆发。

今天我们继续学习由西班牙科米利亚斯主教大学(Comillas Pontifical University)的研究人员提交的综述论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》。

论文:ChatGPT is not all you need. A State of the Art Review of large Generative AI models
机构:Quantitative Methods Department, Universidad Pontificia Comillas, Madrid, Spain
作者:Roberto Gozalo-Brizuela, Eduardo C. Garrido-Merch´an
地址:https://arxiv.org/pdf/2301.04655.pdf

大家可以回顾第一部分的内容:
传送门:ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(一)

这第二部分,我们接着来看Image-to-Text,Text-to-Video,Text-to-Audio模型的一些细节。

  • ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(二)
    • Image-to-Text 模型
      • Flamingo
      • VisualGPT
    • Text-to-Video 模型
      • Phenaki
      • Soundify
    • Text-to-Audio 模型
      • AudioLM
      • Jukebox
      • Whisper

在这里插入图片描述

Image-to-Text 模型

有时,获取描述图像的文本也很有用,相当于图像生成的逆版本。

Flamingo

Flamingo是Deepmind开发的一个视觉语言模型,在开放式的视觉语言任务上,只需通过一些输入/输出例子的提示,即可进行few-shot学习。

具体来说,Flamingo的输入包含视觉条件下的自回归文本生成模型,能够接收与图像或视频交错的文本token序列,并生成文本作为输出。Flamingo模型利用了两个互补的模型:一个是分析视觉场景的视觉模型,一个是执行基本推理形式的大型语言模型。语言模型是在大量文本数据上训练的。

在这里插入图片描述

仅使用少量注释示例构建可以快速适应众多任务的模型是多模态机器学习研究的一项公开挑战。然而Flamingo正是具有这种能力,且在架构上进行了创新:(i)连接强大的预训练视觉和语言模型,(ii)处理任意交错的视觉和文本数据序列,以及(iii)无缝摄取图像或视频作为输入。由于它们的灵活性,Flamingo 模型可以在包含任意交错的文本和图像的大规模多模式网络语料库上进行训练,这是赋予它们上下文小样本学习能力的关键。

用户可以向模型输入query,并附上一张照片或一段视频,模型就会用文本答案来回答。如下图10所示。

在这里插入图片描述

VisualGPT

VisualGPT 是一个由 OpenAI 开发的图像-文本模型,基于预训练语言模型GPT-2提出了一种新的注意力机制,来衔接不同模态之间的语义差异,无需大量图像-文本数据训练,就能提升文本生成效率。 OpenAI 已经对外提供了API来访问该模型。

为了更有效地将视觉信息融合到语言模型的不同层中,我们可以考虑专门设计的交叉注意力融合机制来平衡文本生成能力和视觉信息的混合。所以,VisualGPT 的一个创新点是采用自我复活的编码器-解码器注意机制,以使用少量域内图像文本数据快速适应预训练的 LM。
在这里插入图片描述

图像描述(Image Captioning)任务要求计算机用自然语言描述一张图片的视觉内容。目前的图像描述模型主要是基于Encoder-Decoder的架构,通过在大量成对的图文数据上训练,从而获得更准确更细致的图像描述。然而,大规模的人工标注的训练数据获取代价高昂,而网络上自动爬取的数据清洗后不可避免地存在一些错误,而且一些特定领域比如医学影像报告并无构建大规模数据集的条件。

VisualGPT 最大的优点是首次提出将预训练语言模型PLM适应到各领域的图像描述任务上,以缓解数据上存在的问题。通过对作为decoder的gpt进行结构修改,插入自复活激活门(SRAU),平衡PLM预先学习到的语言知识和输入的图像信息,从而更好地解决新物体的描述问题,最终生成更高质量的图像描述。

如下图11包含了模型生成的三个文本提示示例,这些文本提示与输入到模型的三个图像相关。

在这里插入图片描述

Text-to-Video 模型

在22年下半年我们看到了一些文本转视频的模型,期待更高分辨率和帧率的模型出现。

Phenaki

继 Meta 的 Make-A-Video 之后,谷歌也接连发布了两款视频模型 Imagen Video 和 Phenaki。两者分别强调视频的质量和长度等不同功能。

Phenaki 由 Google Research 开发,是一个能够在给定一系列文本提示的情况下,进行逼真视频合成的模型。谷歌已经对外提供了API来访问该模型。

Phenaki 是第一个可以从开放域时间变量提示中生成视频的模型。

为了解决训练数据较少问题,谷歌还通过在大型图像-文本对语料库和数量较少的视频-文本示例上进行联合训练,从而拓展视频数据集的可用范围。主要是图像-文本数据集往往有数十亿的输入数据,而文本-视频数据集则小得多,并且对不同长度的视频进行计算也是一个难题。

Phenaki 模型包含三个部分:C-ViViT编码器、训练Transformer和视频生成器。
在这里插入图片描述

Phenaki 基于新的编解码器架构 C-ViViT 将视频压缩为离散嵌入。将输入token转换为embedding后,接着经过时序Transformer和空间Transformer,再使用一个没有激活的单一线性投影,将token映射回像素空间。

最终模型可以生成以开放域提示为条件的时间连贯性和多样性的视频,甚至能够处理一些数据集中不存在的新概念。视频可以长达几分钟,而模型则在1.4秒的视频上训练。如下图12和图13中展示了通过一系列文本提示以及通过一系列文字提示和图像创建视频的一些示例。

在这里插入图片描述
在这里插入图片描述

Phenaki 可以将详细的文本提示转换为两分钟以上的视频,但缺点是视频质量较低。

Soundify

在视频编辑中,声音占故事的一半。熟练的视频编辑器将声音(如效果和环境)覆盖在画面上,为对象添加角色或将观众沉浸在空间中。但是,对于专业的视频编辑来说,问题来自于找到合适的声音、对齐声音、视频和调谐参数,这个过程可能非常乏味和耗时。

为了解决这个问题,Soundify 是 Runway 开发的一个将声音效果与视频相匹配的系统,目的即制作音效。Soundify 通过利用带标签的录音棚音效库和将CLIP(一种具有令人印象深刻的Zero-Shot图像分类功能的神经网络)扩展到“Zero-Shot检测器”中,能够在无需资源密集型通信学习或音频生成的情况下产生高质量的结果。

在这里插入图片描述

具体地,Soundify 包括分类(classification)、同步(synchronization)和混合(mix)三个模块,首先模型通过对声音进行分类,将效果与视频匹配,随后将效果与每一帧进行比较,插入对应的音效。该分类通过将声音发射器分类在视频中来匹配效果。为了减少不同的声音发射器,Soundify 基于绝对颜色直方图距离分割视频。在同步部分,通过将效果标签与每个帧进行比较来识别间隔,并以阈值来精确定位连续匹配。在混合部分,效果被分成大约一秒钟的块,关键的是,块是通过交叉缝缝合的。

Text-to-Audio 模型

相比 Text-to-Image 有盛行的AI作画,Text-to-Audio 也有AI作曲,有广泛的 TTS(Text-to-speech)场景。TTS技术可应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本。其中,AI作曲可以简单理解为“以语言模型(目前以Transformer为代表,如谷歌Megenta、OpenAI Jukebox、AIVA等)为中介,对音乐数据进行双向转化(通过MIDI等转化路径)”。

图像不是唯一重要的非结构化数据格式。对于视频、音乐和许多环境,音频可能至关重要。

AudioLM

AudioLM 由谷歌开发,可用于生成高质量的音频,并具有长距离一致性。
在这里插入图片描述

AudioLM 由三个部分组成:

  • 一个token生成模型,它将一系列声音映射到一个离散的token序列中。这一步也减少了序列的大小(采样率减少了大约 300 倍)。
  • 一个仅包含解码器的transformer,可以最大化预测序列中下一个token的可能性。该模型包含 12 层,16 个注意力头,嵌入维度为 1024,前馈层维度为 4096。
  • 一个将预测的token转换为音频token的去token模型。

AudioLM 的特别之处在于将输入音频映射成一个离散的token序列,并将音频生成转换成语言建模任务,学会基于提示词产生自然连贯的音色。在人类评估中,认为它是人类语音的占51.2%、与合成语音比率接近,说明合成效果接近真人。 与其他模型一样,可以通过GitHub找到API。
在这里插入图片描述

通过对大量原始音频波形的训练,AudioLM 成功学会了在短提示下生成自然连贯的连续语音。这种方法甚至可以扩展到人声之外的语音,比如连续的钢琴音乐等等,而不需要在训练时添加符号表示。
在这里插入图片描述

由于音频信号涉及多个尺度(scale)的抽象,所以音频合成时使得多尺度在显示一致性的同时实现高音频质量非常具有挑战性。AudioLM 模型通过结合神经音频压缩、自监督表示学习和语言建模方面的最新进展来实现。

Jukebox

Jukebox 由 OpenAI 开发的音乐创作模型,可生成带有唱词的音乐。不过目前模型仍然局限于英语。与其他模型一样,可以通过GitHub找到API。

早期自动生成音乐的一个方法是音符产生器,生成可以弹奏的乐谱,但音符生成器最大的局限便在于,它无法捕获人声以及其他音乐细节,如音色、力度和表现力。

还有另一种方法,直接将音乐建模为原始音频。但由于音频序列很长,因此在音频级别上生成音乐非常困难,以44 kHz,16位元的CD音乐为例,一首4分钟的歌曲,可能要耗费1000万小时的时常。因此要学习音乐的高阶语义,模型需要能够处理极长的相依关系。

总的来说,训练一个自动生成音乐模型,需面对的一个挑战:原始音频的空间维数非常高,需要建模的信息量很大。关键瓶颈在于,对原始音频进行建模会直接引入极远距离的依赖关系,从而使其在计算上难以理解音乐的高级语义。而 Jukebox 的特别之处是试图通过分层 VQ-VAE 架构来解决,将音频压缩到离散空间中,损失函数被设计为保留最大量信息,用于解决AI难以学习音频中的高级特征的问题。这种模式仅限于英文歌曲。具体来说,它的训练数据集来自LyricWiki的120万首歌曲,其中有60万首是英文歌。VQ-VAE 有50亿个参数,在9秒音频剪辑上训练3天。

在这里插入图片描述

为了解决歌词处理对应的问题,Jukebox 的研究者还增加了新的基于神经网络的工具:

  • Spleeter,可以从歌曲中提取人声进行语音识别;
  • NUS AutoLyricsAlign,把歌词和歌曲进行对齐;
  • 注意力机制,让解码出来的音乐,随着播放的进度,注意歌词编码的位置变化。

Jukebox 的中文就是点唱机,大概意思是点什么唱什么,只要你给这个神经网络提供音乐的类型 (genre)、参考的歌手和歌词作为输入,它就能自动生成对应的音乐:旋律、和声,还有创作歌曲的歌词。得益于类似于 GPT-2 的基于 Transformer 的架构,点唱机可以生成多样且连贯的音乐,对同一首歌曲进行多种演绎,为用户提供多种选择。

Whisper

Whisper 是 OpenAI 开发的一种自动语音识别模型。根据 OpenAI 的介绍,该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外,它还支持 99 种不同语言的转录和从这些语言到英语的翻译。与其他模型一样,可以通过GitHub找到API。
在这里插入图片描述

首先,Whisper 最大特点是它使用的超大规模训练集:它使用从网络上收集的68万小时的多语言、多任务监督数据进行训练。这导致数据集的内容非常多元化,涵盖了许多不同环境、不同录音设备下、不同语言的音频。

其次,Whisper 体系结构是一种简单的端到端方法,具体来说就是 Transformer 的编码器-解码器格式。

在这里插入图片描述

输入音频被分成30秒的片段,再转换成 log-Mel 谱图,然后传入编码器。

解码器被训练来预测相应的文本标题,并混合特殊标记,指示单一模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。

在这里插入图片描述

与其他模型相比,英文语音识别正是 Whisper 的核心竞争力。

参考:

https://baijiahao.baidu.com/s?id=1746191197239679569&wfr=spider&for=pc

https://roll.sohu.com/a/634763268_121207965

https://baijiahao.baidu.com/s?id=1756520241186383004&wfr=spider&for=pc

https://openai.com/blog/whisper/

欢迎各位关注我的个人公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/347750.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

protoc-gen-go的使用和问题

最近 在网上查看关于proto文件编译为golang代码的文章,发现遇到的问题好多都是文件目录不对,参数不对的情况,这里主要解决,使用 不同版本的proto-gen-go 参数不一样和找不到文件问题 安装protoc-gen-go google.golang.org仓库版本…

互联网新时代要来了(二)什么是AIGC?

什么是AIGC? 最近,又火了一个词“**AIGC”**2022年被称为是AIGC元年。那么我们敬请期待,AIGC为我们迎接人工智能的下一个时代。 TIPS:内容来自百度百科、知乎、腾讯、《AIGC白皮书》等网页 什么是AIGC?1.什么是AIGC?…

Vue3篇.01-简介及基本使用,项目创建方式, 模板语法, 事件监听, 修饰符

一.简介1.概念Vue 是一款用于构建用户界面的 JS框架, 基于标准 HTML、CSS 和 JavaScript 构建,并提供了一套声明式的、组件化的编程模型, 高效地开发用户界面。渐进式框架, 适应不同需求进行开发。两个核心功能:声明式…

在云原生的趋势下,不掌握Go语言可能不太行

云原生技术已经是不可逆的趋势 云原生技术使组织能够在公共云、私有云和混合云等现代动态环境中构建和运行可扩展的应用程序,其中容器、服务网格、微服务、不可变基础设施和声明式 API 等都是云原生的重要技术内容。 这些新技术的出现使松散耦合的系统具有弹性、可管理和可观…

FPGA基于VDMA实现任意分辨率视频输出显示,高度贴近真实项目,提供工程源码和技术支持

目录1、前言2、任意分辨率视频输出理论基础3、VDMA实现数据缓存4、工程1:Kintex7使用VDMA5、工程2:Zynq7100使用VDMA6、上板调试验证并演示7、福利:工程代码的获取1、前言 之前写过一篇FPGA纯verilog实现任意分辨率视频输出显示,…

hume项目k8s的改造

hume项目k8s的改造 一、修改构建目录结构 1、在根目录下添加build-work文件夹 目录结构如下 [rootk8s-worker-01 build-work]# tree . . ├── Dockerfile ├── hume │ └── start.sh └── Jenkinsfile2、每个文件内容如下 Dockerfile FROM ccr.ccs.tencentyun…

数据结构与算法基础(王卓)(10):案例分析与实现(多项式;稀疏多项式;图书管理系统(略);)

题干: 用线性表和链表的方式,分别实现(稀疏)多项式的 定义(构造框架)创建加减乘(多项式)线性表的创建: (略,相较于其他操作难度不,以…

亚马逊真人测评好还是自养号测评好 深度剖析讲解

关于真人测评和自养号哪个好,一直都是老生常谈的问题了。实际操作下来到底哪一个更好呢?今天陈哥给大家详细分析一下。 先说自养号。所谓的自养号,说白了就是通过搭建国外的真实买家环境,然后购买资料自己注册的账号。 很多工作…

Java300集,学完即可就业

学习java首先我们要明白Java是什么?Java是一门面向对象的编程语言,不仅吸收了C语言的各种优点,还摒弃了C里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表&a…

K8s 架构简介(一)

一、前言 在开始学习K8s之前,让我们对容器有一个基本的了解 1.1 什么是容器 一个容器镜像是一个可运行的软件包,其中包含了一个完整的可执行程序,包括代码和运行时需要应用、系统库和全部重要设置的默认值。 通过将应用程序本身&#xff…

虹科新闻|虹科与Telco Systems正式建立合作伙伴关系

近日,虹科与美国Telco Systems达成战略合作,虹科正式成为Telco Systems在中国区域的认证授权代理商。未来,虹科将携手Telco Systems,共同为新一代边缘计算和企业网络提供创新通信软件产品。虹科及Telco Systems双方都对彼此的合作…

C语言(逻辑运算符和条件运算符)

目录 一.逻辑运算符 1.原理 2.等级排序 3.求值顺序 二.条件运算符:? 一.逻辑运算符 1.原理 && 与(条件都为真,才为真) || 或(一个条件为真,才为真) ! 非(条件为假&…

【R语言(二):Nomogram(诺莫图/列线图)绘制 / R语言逻辑回归分析】

R语言(二):Nomogram(诺莫图/列线图)绘制 1、基本概念 Nomogram,中文常称为诺莫图或者列线图。简单的说是将Logistic回归或Cox回归的结果进行可视化呈现。它根据所有自变量回归系数的大小来制定评分标准,给每个自变量的每个取值水平一个评分&…

怎样的目标管理能真正实现目标?做到这3点就对了

目标应该是每个人人生中接触最多的一样东西了,大到分分钟几百万上下的项目目标,小到一次考试。目标能不能完成,关键还是看目标管理有没有做好,做到下面这三点,不论是在职场中管团队,还是在生活中管个人&…

十四、平衡二叉树

1、看一个案例(说明二叉排序树可能的问题) 给你一个数列{1,2,3,4,5,6},要求创建一棵二叉排序树(BST),并分析问题所在。 上面二叉排序树存在问题分析: 左子树全部为空,从形式上看&…

tr命令笔记

tr 是Unix命令行专家工具箱中的一件万能工具。它可用于编写优雅的单行命令。 tr 可以对 来自标准输入的内容进行字符替换、字符删除以及重复字符压缩。 tr 是translate(转换)的简写, 因为它可以将一组字符转换成另一组字符。 tr 只能…

Windows 11 + WSL(ubuntu 20.04) + CLion(2022.3) 编译OpenJDK12

编译OpenJDK12 目录编译OpenJDK12前言一、下载OpenJDK源码二、编译OpenJDK参考https://openjdk.org/groups/build/doc/building.html1:安装编译所需的组件2:执行编译命令3:验证编译结果三、在Clion中调试OpenJDK源码1:Clion中配置…

R语言GD包地理探测器分析时报错、得不到结果等情况的解决方案

本文介绍在利用R语言的GD包,实现自变量最优离散化方法选取与执行、地理探测器(Geodetector)操作时,出现各类报错信息、长时间得不到结果等情况的解决方案。 在之前的文章R语言GD包基于栅格图像实现地理探测器与连续参数的自动离散…

深度解读Webpack中的loader原理

一、前言 webpack 是一个现代 JavaScript 应用的静态模块打包器。那么 webpack 是怎样实现不同种类资源模块加载的呢? 没错就是通过 loader。loader 用于对模块的源代码进行转换。loader 可以使你在 import 或加载模块时预处理文件。 我们带着下面几个问题&#…

css中的盒子模型

1、盒子模型:CSS中规定盒子分别由:内容区域(content)、内边距区域(padding)、边框区域(border)、外边距区域(margin)构成。 2、盒模型分为IE盒模型和W3C标准…