ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(一)

news2024/10/2 6:25:46

文章目录

  • ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(一)
    • Text-to-Image 模型
      • DALL-E 2
      • IMAGEN
      • Stable Diffusion
      • Muse
    • Text-to-3D 模型
      • Dreamfusion
      • Magic3D

ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(一)

近两个月我们都被 ChatGPT 刷屏,说它的发展速度犹如坐火箭也毫不夸张。凭借其出色的性能,自从 Stable Diffusion 开源和 ChatGPT 开放接口后,业界对生成式模型更加热情了。然而,生成式SOTA模型发布速度之快,种类之多,我们很难做到不错过每一个模型。

上月,来自西班牙科米利亚斯主教大学(Comillas Pontifical University)的研究人员提交了一篇综述论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》,将生成式模型按照任务模态、领域分成9大类,并总结了2022年发布的21个生成式模型的能力和局限性。这些局限性包括缺少特定任务下的大型数据集,以及需要高昂的计算资源等。
title

论文:ChatGPT is not all you need. A State of the Art Review of large Generative AI models
机构:Quantitative Methods Department, Universidad Pontificia Comillas, Madrid, Spain
作者:Roberto Gozalo-Brizuela, Eduardo C. Garrido-Merch´an
地址:https://arxiv.org/pdf/2301.04655.pdf

首先,模型可以按照输入和输出的数据类型分成9个大类,如下图 1 所示。
在这里插入图片描述

文章主要关注点是描述生成式 AI 模型的最新进展,为让读者能有整体认识,在图 2 中给出了所有已发布的模型。
在这里插入图片描述

另外,在这些已发布大模型的背后,只有如下图 3 所示的6个公司(OpenAl,Google,DeepMind,Meta,runway,Nvidia),在收购的初创公司和与学术界合作的帮助下,成功地部署了这些最先进的生成式AI模型。这一事实背后的主要原因是,为了能够估计这些模型的参数,必须拥有强大的计算能力以及在数据科学和数据工程方面技术精湛、经验丰富的团队。

在这里插入图片描述

在参与创业的主要公司层面,微软向OpenAI投资了100亿美元,并帮助他们开发模型。此外,谷歌在2014年收购了Deepmind。

在大学方面,VisualGPT是由阿卜杜拉国王科技大学 (KAUST)、卡耐基梅隆大学和南洋理工大学开发的;Human Motion Diffusion模型是由以色列特拉维夫大学开发的。

在公司和大学合作层面,如Stable Diffusion由Runway, Stability AI和慕尼黑大学合作开发;Soundify由Runway和卡内基梅隆大学合作开发;DreamFusion由谷歌和加州大学伯克利分校合作。

文章从第三章开始详细介绍了图 1 描述的9个类别,对于每个类别,都相应地展示模型的详细信息。

Text-to-Image 模型

我们首先来看 Text-to-Image 模型,即输入是文本提示而输出是图像的模型。

DALL-E 2

由 OpenAI 开发的DALL-E 2能够从由文本描述组成的提示中生成原始、真实、逼真的图像和艺术,相比DALL-E 1,其分辨率提高了 4 倍。OpenAI 已经对外提供了API来访问该模型。

DALL-E 2特别之处在于它能够将概念、属性和不同风格结合起来,其能力源于语言-图像预训练模型CLIP神经网络,从而可以用自然语言来指示最相关的文本片段。

CLIP 是 OpenAI 在2021年初的一篇工作:《Learning Transferable Visual Models From Natural Language Supervision》。CLIP 是一组模型,有 9 个图像编码器、5 个卷积编码器和 4 个 transformer 编码器。它是一个 zero-shot 的视觉分类模型,预训练的模型在没有微调的情况下在下游任务上取得了很好的迁移效果。作者在30多个数据集上做了测试,涵盖了 OCR、视频中的动作检测、坐标定位等任务。详见 https://github.com/openai/CLIP.

在这里插入图片描述

具体来说,CLIP embedding有几个理想的属性:能够对图像分布进行稳定的转换;具有强大的zero-shot能力;并且在微调后实现了最先进的结果。为了获得一个完整的图像生成模型,CLIP图像embedding解码器模块与一个先验模型相结合,从一个给定的文本标题中生成相关CLIP图像embedding。

因此,DALL-E 2 生成的图像在语义上巧妙地将不同且不相关的元素组合起来,例如输入 prompt:a bowl of soup that is a portal to another dimension as digital art,便生成了下面的图像。

在这里插入图片描述

IMAGEN

Imagen 是一种文本到图像的扩散模型,能够生成较为真实的图片。这是建立在大型的transformer语言模型上。谷歌已经对外提供了API来访问该模型。

Imagen 主要利用了 T5 模型作为预训练模型,同时使用800GB的训练语料来进行预训练。预训练结束后,然后进行冻结,输入到Text-to-Image diffusion Model中,然后通过上采样,使得图片生成高清图像。具体的模型结构如下:
在这里插入图片描述

同时谷歌发现,在纯文本语料库上预训练的通用大型语言模型(如T5)在为图像合成编码文本方面出人意料地有效。不增加diffusion model的大小,而去增加语言模型的大小,生成的效果会更加逼真。

总结起来看,使用 Imagen 有这几个主要发现:

  • 大型预训练冻结文本编码器对于文本到图像生成任务非常有效。
  • 增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。
  • 引入一个新的高效U-Net体系结果,它具有更高的计算效率、更高的内存效率和更快的收敛速度。
  • 模型在没有用到COCO数据集训练情况下,达到了最高的效果。

此外,谷歌研究者推出了比COCO更有挑战性的测试基准 DrawBench ,包含各种刁钻的提示词。DrawBench 是对图像到文本(text to image)模型进行多维评估。其中包含11个类别,大约200个文本提示,旨在探索模型的不同语义属性。

Stable Diffusion

Stable Diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。如果想要更深入了解Stable Diffusion的技术原理,可以阅读论文《High-Resolution Image Synthesis with Latent Diffusion Models》,它发表于CVPR2022,由德国慕尼黑大学机器视觉与学习研究小组开发。Stability AI 官方实践了开源承诺,目前已经发布了Stable Diffusion 2.0 版本,项目地址:https://github.com/Stability-AI/stablediffusion.

与其他模型相比,Stable Diffusion的主要区别在于使用了Latent Diffusion Models,通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片,大大降低了落地门槛,也带来了文图生成领域的大火。

Latent Diffusion Models整体框架如下图,首先需要训练好一个自编码模型(AutoEncoder),这样就可以利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,最后再用解码器恢复到原始像素空间即可,论文将这个方法称之为感知压缩(Perceptual Compression)。

在这里插入图片描述

Muse

谷歌发布的文本-图像生成模型 Muse,没有采用当下大火的扩散模型(diffusion model),而是采用了经典的 Transformer 模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。

Muse 以 masked modeling 任务在离散token空间上进行训练:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse 的训练过程就是预测随机masked掉的图像token。

与像素空间的扩散模型(如Imagen和DALL-E 2)相比,由于 Muse 使用了离散的token,只需要较少的采样迭代,所以效率得到了明显提高。与Parti(一种自回归模型)相比,Muse由于并行解码而更有效。Muse在推断时间上比 Imagen-3B 或 Parti-3B 快10倍,比 Stable Diffusion v1.4 快3倍。

Muse模型的框架包含多个组件,训练pipeline由T5-XXL预训练文本编码器,基础模型(base model)和超分辨率模型组成,如下图所示。
在这里插入图片描述

Text-to-3D 模型

目前的文本图像生成模型如DALL-E 2, Imagen等仍然停留在二维创作(即图片),无法生成360度无死角的3D模型。想要直接训练一个text-to-3D的模型非常困难,因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对,但三维合成并不存在如此大规模的标注数据,也没有一个高效的模型架构对3D数据进行降噪。

但是现在用2D数据训练出来的模型,也能生成3D图像了。只要输入简单的文本提示,就能生成具备具有密度、颜色等元素的3D模型。

Dreamfusion

DreamFusion 由Google Research开发,使用预先训练好的2D文本到图像的扩散模型来进行文本到3D的合成。具体地,DreamFusion 先使用一个预训练2D扩散模型基于文本提示生成一张二维图像,然后引入一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。它用了一个新的损失计算方法来代替CLIP:通过文本到图像的Imagen扩散模型来计算损失。

训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型,整个过程既不需要3D训练数据,也无需修改图像扩散模型,完全依赖预训练扩散模型作为先验。
在这里插入图片描述

相比其他方法主要是对像素进行采样,在参数空间的采样比在像素空间的采样要难得多,DreamFusion使用了一个可微的生成器,专注于创建从随机角度渲染图像的三维模型。

在这里插入图片描述

Magic3D

Magic3D 是由英伟达公司开发的文本到3D模型。虽然 Dreamfusion 模型取得了显著的效果,但该方法存在两个问题:处理时间长和生成的图像质量低。然而,Magic3D 使用两阶段优化框架解决了这些问题。

首先,Magic3D 构建了一个低分辨率的扩散先验,然后,它使用稀疏的3D哈希网格结构加速。使用这一点,纹理化的3D网格模型通过有效的可微渲染进一步优化。经过人类评估对比 Dreamfusion 和 Magic3D,Magic3D 模型取得了更好的结果,结果表示 61.7% 的人更喜欢 Magic3D 而不是DreamFusion。如下图9所示,与 DreamFusion 相比,Magic3D 在几何体和纹理方面实现了更高质量的3D形状。

在这里插入图片描述

请小伙伴们持续关注我的公众号「HsuDan」,我会继续更新这篇生成式AI模型综述《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》中剩下的7大类模型:Image-to-Text 模型,Text-to-Video 模型,Text-to-Audio 模型,Text-to-Text 模型,Text-to-Code 模型,Text-to-Science 模型等。

欢迎各位关注我的个人公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/348100.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python和Java语言,哪个更适合做自动化测试?

经常有测试新手问我:Python和Java语言,哪个更适合做自动化测试?本来想简单的回答一下的,但又觉得对不起大家对小编的信任。因此,小编今天专门写了一篇文章来回答这个问题。欢迎各位大佬补充~1、什么是自动化测试&#…

大数据框架之Hadoop:HDFS(八)HDFS HA高可用

8.1 HA概述 1)所谓HA(High Available),即高可用(7*24小时不中断服务)。 2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 3&…

一文优化java.lang.StackOverflowError的堆栈溢出问题及递归引发的java.lang.StackOverflowError错误

文章目录1. 问题引出2. 分析问题2.1 为什么递归调用会导致堆栈溢出2.2 数组太大或分配内存多于可用内存导致堆栈异常3. 优化避免栈溢出3.1 尾递归优化3.2 循环替代递归4. 重要总结1. 问题引出 今天在编码时,出现了java.lang.StackOverflowError,就感觉很…

【Python小游戏】没点儿技术真不敢这么玩儿:人工智能挑战《贪吃蛇》,来自AI的艺术——超级游戏高手世界最高纪录秒被盘?

前言 每天分享各种Python项目、好玩的Pygame游戏、Python的爬虫、数据分析案例、有趣的人 工智能知识等。期待你的关注哦! 所有文章完整的素材源码都在👇👇 粉丝白嫖源码福利,请移步至CSDN社区或文末公众hao即可免费。 哈喽&…

探索IP地址的应用

无论是互联网行业还是传统行业都会用到网络,作为企业如何维护网络安全,保障网站不被攻击,数据不被泄露等。这个时候我们就会通查询IP归属地,辅助企业解决安全问题。下面介绍一下ip归属地在各行业的具体应用。1.网安行业应用一&…

SpringBoot实现登录拦截器超详细(springboot拦截器excludePathPatterns方法不生效的坑)

文章目录SpringBoot实现登录拦截器1、SpringBoot 实现登录拦截的原理1.1、实现HandlerInterceptor接口1.2、实现WebMvcConfigurer接口,注册拦截器1.3、保持登录状态springboot拦截器excludePathPatterns方法不生效的坑与解决方法一、前言二、问题三、解决方法四、总…

C语言编译过程

C语言编译过程1、C语言编译过程2、单c文件编译实践3、多c文件编译实践4、define4.1、不带参宏4.2、带参宏4.3、带参宏和带参函数的区别5、选择性编译ifdef、ifndef、if5.1、#ifdef5.2、#ifndef5.3、#if6、静态库和动态链接库6.1、静态库实践6.1.1、将mylib.c制作成静态库6.1.2、…

Baklib知识库管理平台,协助组织提升知识管理水平

随着信息时代和知识经济时代的到来,企业内部信息资料繁多冗杂,知识管理逐渐成为各大企业的重要工作之一,企业管理者无不感受到巨大的压力,怎么样将知识进行有效的管理,成为一个难点,并且随着信息不断的更迭…

Java企业级信息系统开发学习笔记(1)初探Spring与骑士傻龙实例

该文章主要为完成实训任务,详细实现过程及结果见【http://t.csdn.cn/iK3aM】 文章目录1. 创建Maven项目2. 添加Spring依赖3. 创建杀龙任务4. 创建勇士类5. 采用传统的方式6. 采用Spring容器让勇敢骑士完成杀龙任务6.1 创建日志属性文件6.2 创建Spring配置文件6.3 在…

CobaltStrike上线微信通知

CobaltStrike上线微信通知 利用pushplus公众号(每天免费发送200条消息) http://www.pushplus.plus/push1.html 扫码登录后需要复制token 可以测试一下发送一下消息,手机会受到如下消息。可以在微信提示里将消息免打扰关闭(默认…

分布式光伏储能系统的优化配置方法(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

期末复习提纲

复习提纲 题型:编程题3题,综合题4题。 一、编程题: 1、链表的类型定义;邻接矩阵表示图的类型定义;链接表表示图的类型定义;vector数组表示图的定义和使用方法。 2、链表中结点的插入和删除操作&#xff…

linux高级命令之编辑器 vim

编辑器 vim学习目标能够说出vim的三种工作模式能够说出vim对应复制和粘贴命令1. vim 的介绍vim 是一款功能强大的文本编辑器,也是早年 Vi 编辑器的加强版,它的最大特色就是使用命令进行编辑,完全脱离了鼠标的操作。2. vim 的工作模式命令模式…

2023想转行软件测试的看过来,你想要了解的薪资、前景、岗位方向、学习路线都讲明白了

在过去的一年中,软件测试行业发展迅速,随着数字化技术应用的广泛普及,业界对于软件测试的要求也在持续迭代与增加。 同样的,有市场就有需求,软件测试逐渐成为企业中不可或缺的岗位,作为一个高薪又需求广的…

怎么解密MD5,常见的MD5解密方法,一看就会

MD5是一种被广泛使用的密码散列函数,曾在计算机安全领域使用很广泛,但是也因为它容易发生碰撞,而被人们认为不安全。那么,MD5应用场景有哪些,我们怎么解密MD5,本文将带大家了解MD5的相关知识,以…

Laravel创建定时任务

创建一个任务,创建成功后会在App/Console/Commands中生成一个以Test命名的文件,我们可以在这里面写我们的任务指令。 php artisan make:command Test 运行这个定时任务 run 是运行一次,我们可以用来测试是否成功,work是一直运行&a…

Jenkins的使用教程

介绍: Jenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能。 目的: 最重要目的就是把原来分散在各个机器上繁杂的工作全部…

hadoop高可用搭建

修改计算机名称 //修改计算机名称 [rootlocalhost ~]# hostnamectl set-hostname ant150//快速生效 [rootlocalhost ~]# bash 主机名称映射 [rootant150 ~]# vim /etc/hosts 192.168.153.150 ant150 192.168.153.151 ant151 192.168.153.152 ant152 192.168.153.153 ant153 …

数据分析-深度学习 Tensorflow Day6

我们需要解决的问题:1: 什么是bp 神经网络?2:理解bp神经网络需要哪些数学知识?3:梯度下降的原理4: 激活函数5:bp的推导。1.什么是bp网络?引用百度知道回复:“我们最常用的…

【mmrotate】旋转目标检测之训练DOTA数据集

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 mmrotate训练DOTA数据集记录 1. 正文 1.1 数据准备 数据介绍部分,参考DOTA数据介绍,官方提供了裁剪工具development kit。这里…