人工智能大时代——AIGC综述

news2024/10/5 17:24:46

生成式AI分类

模型按照输入输出的数据类型分类,目前主要包括9类。

img

有趣的是,在这些已发布大模型的背后,只有六个组织(OpenAI, Google, DeepMind, Meta, runway, Nvidia)参与部署了这些最先进的模型。

img

其主要原因是,为了能够估计这些模型的参数,必须拥有极其庞大的计算能力,以及在数据科学和数据工程方面高度熟练且经验丰富的团队。

因此,也只有这些公司,在收购的初创公司和与学术界合作的帮助下,能够成功部署生成式人工智能模型。

在大公司参与初创企业方面,可以看到微软向OpenAI投资了10亿美元,并帮助他们开发模型;同样,谷歌在2014年收购Deepmind。

在大学方面,VisualGPT是由阿卜杜拉国王科技大学(KAUST)、卡内基梅隆大学和南洋理工大学开发的,Human Motion Diffusion模型是由以色列特拉维夫大学开发的。

同样,其他项目也是由一家公司与一所大学合作开发的,比如Stable Diffusion由Runway、Stability AI和慕尼黑大学合作开发;Soundify由Runway和卡内基梅隆大学合作开发;DreamFusion由谷歌和加州大学伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI开发的DALL-E 2能够从由文本描述组成的提示中生成原始、真实、逼真的图像和艺术,而且OpenAI已经对外提供了API来访问该模型。

DALL-E 2特别之处在于它能够将概念、属性和不同风格结合起来,其能力源于语言-图像预训练模型CLIP神经网络,从而可以用自然语言来指示最相关的文本片段。

img

具体来说,CLIP embedding有几个理想的属性:能够对图像分布进行稳定的转换;具有强大的zero-shot能力;并且在微调后实现了最先进的结果。

为了获得一个完整的图像生成模型,CLIP图像embedding解码器模块与一个先验模型相结合,从一个给定的文本标题中生成相关CLIP图像embedding

img

其他的模型还包括Imagen,Stable Diffusion,Muse

Text-to-3D模型

对于某些行业,仅能生成2D图像还无法完成自动化,比如游戏领域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research开发,使用预先训练好的2D文本到图像的扩散模型来进行文本到3D的合成。

Dreamfusion使用一个从二维扩散模型的蒸馏中得到的损失取代了CLIP技术,即扩散模型可以作为一个通用的连续优化问题中的损失来生成样本。

img

其他模型如Magic3D由英伟达公司开发。

Image-to-Text模型

获得一个描述图像的文本也是很有用的,相当于图像生成的逆版本。

Flamingo

该模型由Deepmind开发,在开放式的视觉语言任务上,只需通过一些输入/输出例子的提示,即可进行few-shot学习。

img

具体来说,Flamingo的输入包含视觉条件下的自回归文本生成模型,能够接收与图像或视频交错的文本token序列,并生成文本作为输出。

用户可以向模型输入query,并附上一张照片或一段视频,模型就会用文本答案来回答。

img

Flamingo模型利用了两个互补的模型:一个是分析视觉场景的视觉模型,一个是执行基本推理形式的大型语言模型。

VisualGPT

VisualGPT是一个由OpenAI开发的图像描述模型,能够利用预训练语言模型GPT-2中的知识。

为了弥合不同模态之间的语义差距,研究人员设计了一个全新的编码器-解码器注意力机制,具有整流门控功能。

img

VisualGPT最大的优点是它不需要像其他图像到文本模型那样多的数据,能够提高图像描述模型的数据效率,能够在小众领域得到应用或对少见的物体的进行描述。

Text-to-Video模型

Phenaki

该模型由Google Research开发制作,可以在给定一连串文字提示的情况下,进行真实的视频合成。

Phenaki是第一个能够从开放域时间变量提示中生成视频的模型。

为了解决数据问题,研究人员在一个大型的图像-文本对数据集以及数量较少的视频-文本例子上进行联合训练,最终获得了超越视频数据集中的泛化能力。

主要是图像-文本数据集往往有数十亿的输入数据,而文本-视频数据集则小得多,并且对不同长度的视频进行计算也是一个难题。

Phenaki模型包含三个部分:C-ViViT编码器、训练Transformer和视频生成器。

img

将输入token转换为embedding后,接着经过时序Transformer和空间Transformer,再使用一个没有激活的单一线性投影,将token映射回像素空间。

最终模型可以生成以开放域提示为条件的时间连贯性和多样性的视频,甚至能够处理一些数据集中不存在的新概念。

相关模型包括Soundify.

Text-to-Audio模型

对于视频生成来说,声音也是必不可缺的部分。

AudioLM

该模型是由谷歌开发,可用于生成高质量的音频,并具有长距离一致性。

AudioLM的特别之处在于将输入的音频映射成一个离散的token序列,并将音频生成作为该表示空间的语言建模任务。

通过对原始音频波形的大型语料库进行训练,AudioLM成功学会了在简短的提示下生成自然和连贯的连续的语音。这种方法甚至可以扩展到人声之外的语音,比如连续的钢琴音乐等等,而不需要在训练时添加符号表示。

img

由于音频信号涉及多个尺度(scale)的抽象,所以音频合成时使得多尺度在显示一致性的同时实现高音频质量非常具有挑战性。AudioLM模型通过结合神经音频压缩、自监督表示学习和语言建模方面的最新进展来实现。

在主观评价方面,评分者被要求听一个10秒的样本,并决定它是人类讲话还是合成的语音。基于收集到的1000个评分,比率为51.2%,与随机分配标签没有统计学差异,即人类无法区分合成和真实的样本。

其他相关模型包括Jukebox和Whisper

Text-to-Text模型

问答任务常用。

ChatGPT

广受欢迎的ChatGPT由OpenAI开发,以对话的方式与用户进行互动。

用户提出一个问题,或是提示文本的前半部分,模型会补全后续部分,并且能够识别出不正确的输入前提并拒绝不恰当的请求。

具体来说,ChatGPT背后的算法是Transformer,训练过程主要是人类反馈的强化学习。

img

最初的模型是使用监督学习下的微调来训练的,然后由人类来提供对话,在对话中他们互相扮演用户和人工智能助理,然后由人修正模型返回的回复,并用正确的答案帮助模型改进。

将制作的数据集与InstructGPT的数据集混合在一起,转换为对话格式。

其他相关模型包括LaMDA和PEER

Text-to-Code模型

和text-to-text类似,只不过生成的是特殊类型的文本,即代码。

Codex

该模型由OpenAI开发,可以将文本翻译成代码。

Codex是一种通用的编程模型,基本上可以应用于任何编程任务。

人类在编程时的活动可以分为两部分:1)将一个问题分解成更简单的问题;2)将这些问题映射到已经存在的现有代码(库、API或函数)中。

其中第二部分是对程序员来说最浪费时间的部分,也是Codex最擅长的地方。

img

训练数据于2020年5月从GitHub上托管的公共软件库中进行收集,包含179GB的Python文件,并在GPT-3的基础上进行微调,其中已经包含了强大的自然语言表征。

相关模型还包括Alphacode

Text-to-Science模型

科研文字也是AI文本生成的目标之一,但要取得成果仍然有很长的路要走。

Galactica

该模型是由Meta AI和Papers with Code联合开发的,可用于自动组织科学文本的大型模型。

Galactica的主要优势在于即便进行多个episode的训练后,模型仍然不会过拟合,并且上游和下游的性能会随着token的重复使用而提高。

并且数据集的设计对该方法至关重要,因为所有的数据都是以通用的markdown格式处理的,从而能够混合不同来源的知识。

img

引文(citations)通过一个特定的token来处理,使得研究人员可以在任何输入上下文中预测一个引文。Galactica模型预测引文的能力会随着规模的提升而提高。

此外,该模型在仅有解码器的设置中使用了一个Transformer架构,对所有尺寸的模型进行了GeLU激活,从而可以执行涉及SMILES化学公式和蛋白质序列的多模态任务,

MinervaMinerva的主要目的就是解决决数学和科学问题,为此收集了大量的训练数据,并解决了定量推理问题,大规模模型开发问题,还采用了一流的推理技术。

Minerva采样语言模型架构通过使用step-by-step推理来解决输入的问题,即输入是需要包含计算和符号操作,而不用引入外部工具。

其他模型

还有一些模型不属于前面提到的类别。

AlphaTensor

由Deepmind公司开发,因其发现新算法的能力,在业界是一个完全革命性的模型。

在已公布的例子中,AlphaTensor创造了一种更有效的矩阵乘法算法。这种算法非常重要,从神经网络到科学计算程序都可以从这种高效率的乘法计算中受益。

img

该方法基于深度强化学习方法,其中智能体AlphaTensor的训练过程就是玩一个单人游戏,目标是在有限的因子空间内寻找张量分解。

在TensorGame的每一步,玩家需要选择如何结合矩阵的不同entries来进行乘法,并根据达到正确的乘法结果所需的操作数量来获得奖励分数。AlphaTensor使用一种特殊的神经网络架构来利用合成训练游戏(synthetic training game)的对称性。

GATO

该模型是由Deepmind开发的通用智能体,它可以作为一个多模态、多任务或多embodiment泛化策略来使用。

具有相同权重的同一个网络可以承载非常不同的能力,从玩雅达利游戏、描述图片、聊天、堆积木等等。

img

在所有任务中使用单一的神经序列模型有很多好处,减少了手工制作具有自身归纳偏见策略模型的需要,并增加了训练数据的数量和多样性。

这种通用智能体在大量任务中都取得了成功,并且可以用很少的额外数据进行调整,以便在更多的任务中取得成功。

目前GATO大约有1.2B个参数,可以实时控制现实世界机器人的模型规模。

img

其他已发表的生成性人工智能模型包括生成human motion等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/424956.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

11.基于粒子群算法的含风光燃储微网优化调度(论文复现)

说明书 相关代码资源:基本算法智能微电网粒子群优化算法,微源:光伏、风机、发电机、储能等 基于多目标算法的冷热电联供型综合能源系统运行优化 基于多目标粒子群算法冷热电联供综合能源系统运行优化 MATLAB代码:基于粒子群算法的含风光燃…

0成本 使用home assistant远程开关机电脑

环境:dockerwin10HACS 问题:在外网手机上远程开关机家中电脑 解决办法:开机:WOL,关机ssh命令 背景:在部署HACS后,便想用HACS中的命令来开关机windows电脑,开机很简单,使用…

暴力破解之验证码识别

文章目录背景操作步骤1、安装python模块2、安装Captcha-killer模块3、尝试进行验证码识别背景 渗透测试过程中,现在验证码越来越多,这对测试的时候遇到的阻力不小,一位大佬给我安利了一个burp插件,Captcha-killer,可以…

ROS开发之如何使用ICM20948 IMU模块?

文章目录0.引言1.创建工作空间2.获取IMU功能包并编译3.检查IMU端口4.启动launch显示IMU测量结果0.引言 笔者研究课题涉及多传感器融合,除了前期对ROS工具的学习,还需要用IMU获取数据,对其他传感器的姿态纠正。本文使用IMU模块获取姿态数据。I…

华为乾坤王辉:新一代网络安全融合体系,筑牢企业数字化转型基石丨2023 INSEC WORLD

科技云报道原创。 随着数字化时代的到来,网络安全形势持续动荡。 围绕产业未来发展趋势、信息安全产业可持续发展、信息安全技术发展路径等话题,一场信息安全行业年度盛会——INSEC WORLD世界信息安全大会在西安盛大召开。 本届大会汇聚了近50位海内…

大数据技术(入门篇) --- 使用 Spring Boot 操作 CDH6.2.0 Hadoop

前言 本人是web后端研发,习惯使用spring boot 相关框架,因此技术选型直接使用的是spring boot,目前并未使用 spring-data-hadoop 依赖,因为这个依赖已经在 2019 年终止了,可以点击查看 ,所以我这里使用的是…

防火墙的IPSECVPN点到点实验 dsvpn多层分支实验

目录 防火墙的IPSECVPN点到点实验 dsvpn多层分支实验 ​编辑 防火墙的IPSECVPN点到点实验 配置路由器接口IP 配置接口防火墙IP 写放通的策略 ping对端防火墙的接口看是否能ping通 ipsec进行配置 配置往返流量 dsvpn多层分支实验 先配置IP 2,配置静态IP 3&#xf…

拦截导弹 导弹防御系统

拦截导弹 & 导弹防御系统拦截导弹导弹防御系统拦截导弹 题目链接:acwing1010. 拦截导弹 题目描述: 输入输出: 分析: 第一个问题为输出最长递减子序列,由于导弹数在1000以内所以采用时间复杂度为O(n2)O(n^2)O(n2)或者O(nlogn)O(nlogn)O…

介绍一款idea神级插件【Bito-ChatGPT】

什么是Bito? Bito是一款在IntelliJ IDEA编辑器中的插件,Bito插件是由ChatGPT团队开发的,它是ChatGPT团队为了提高开发效率而开发的一款工具。ChatGPT团队是一支专注于自然语言处理技术的团队,他们开发了一款基于GPT的自然语言处理…

[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符

另类字符 回忆上次内容 上次再次输出了大红心♥ 找到了红心对应的编码黑红梅方都对应有编码 原来的编码叫做 ascii️ \u这种新的编码方式叫unicode包括了 中日韩字符集等 各书写系统的字符集 除了这些常规字符之外 还有什么好玩的东西呢? 颠倒字符 这个网站可以…

DQN基本概念和算法流程(附Pytorch代码)

❀DQN算法原理 DQN,Deep Q Network本质上还是Q learning算法,它的算法精髓还是让Q估计Q_{估计}Q估计​尽可能接近Q现实Q_{现实}Q现实​,或者说是让当前状态下预测的Q值跟基于过去经验的Q值尽可能接近。在后面的介绍中Q现实Q_{现实}Q现实​也…

提高工作效率必备,5款实用的Windows系统工具推荐

每次分享实用的软件,都会给人一种踏实和喜悦的感觉,这也是我热衷于搜集和推荐高效工具软件的原因。 音量控制——EarTrumpet EarTrumpet是一款音量控制工具,可以让你更方便地调节Windows系统中不同应用程序的音量。你可以使用EarTrumpet来替代系统自带的音量混合器…

表单设计器开源的定义和应用场景布局介绍

为了实现提质增效的办公自动化,表单设计器开源工具的应用变得广泛起来。在低代码开发市场昌盛发展的今天,不少企业期望通过快速、现成的快速配置表单工具实现高效率表单制作,那么,现在给大家介绍的这款开发易用性强、组件丰富、高…

设计模式 -- 门面模式

前言 月是一轮明镜,晶莹剔透,代表着一张白纸(啥也不懂) 央是一片海洋,海乃百川,代表着一块海绵(吸纳万物) 泽是一柄利剑,千锤百炼,代表着千百锤炼(输入输出) 月央泽,学习的一种过程,从白纸->吸收各种知识->不断输入输出变成自己的内容 希望大家一起坚持这个过程,也同…

stable-diffusion真的好用吗?

hi,各位大佬,今天尝试下diffusion大模型,也是CV领域的GPT,但需要prompt,我给了prompt结果并不咋滴,如下示例,并附代码及参考link 1、img2img 代码实现: import torch from PIL im…

PageHelper的使用

这个分页插件是在Mybatis的环境中使用的&#xff0c;所以项目需要导入Mybatis依赖 更加详细的用法看官方文档&#xff1a;PageHelper官网 在Mybatis中使用 前提条件 引入依赖 <dependency><groupId>com.github.pagehelper</groupId><artifactId>pa…

GANs和Generative Adversarial Nets和Vox2Vox: 3D-GAN for Brain Tumour Segmentation

参考&#xff1a; 各种生成模型&#xff1a;VAE、GAN、flow、DDPM、autoregressive models https://blog.csdn.net/zephyr_wang/article/details/126588478李沐GAN精度 x.1 生成模型家族 DGMs&#xff08;Deep Generatitve Models&#xff09;家族主要有&#xff1a;GAN&…

数据分析的目的和意义是什么?_光点科技

数据分析是一个越来越受到关注的领域&#xff0c;因为它可以帮助企业和组织利用数据来制定更明智的决策。数据分析的目的和意义是多方面的&#xff0c;例如&#xff1a; 1.了解客户需求 数据分析可以帮助企业更好地了解客户需求&#xff0c;从而制定更准确的市场营销策略。通过…

原生JS + HTML + CSS 实现快递物流信息 API 的数据链式展示

引言 全国快递物流查询 API 是一种提供实时、准确、可靠的快递物流信息查询服务的接口。它基于现有的物流信息系统&#xff0c;通过API接口的方式&#xff0c;向用户提供快递物流信息的查询、跟踪、统计等功能。使用全国快递物流查询 API&#xff0c;用户可以在自己的应用程序…

[2021 东华杯]bg3

Index介绍漏洞利用过程一.泄露Libc二.Tcache Bin Attack三.完整EXP介绍 [2021 东华杯]bg3 本题是C写的一道经典菜单堆题&#xff0c;拥有增删改查全部功能。 Bug DataBase - V3.0 - I think i am UnBeatAble 1. Upload A Bug 2. Change A Uploaded Bug 3. Get Uploaded Bug D…