什么是生成式人工智能?

news2025/1/15 20:47:41

近年来,人工智能取得了重大进展,其中发展迅速的领域之一就是生成式人工智能。生成式人工智能是人工智能和深度学习的一个子领域,主要使用机器学习技 术根据现有数据训练算法和模型,生成诸如图像、文本、音乐、视频等新内容。

要更好地理解人工智能、机器学习、深度学习和生成式人工智能之间的关系, 如果我们将人工智能视为基础,那么机器学习、深度学习和生成式人工智能就代表 着日益专业化和聚焦的研究与应用领域。

● 人工智能代表着广阔的领域创意生产系统—这些系统可以执行任务,表现 出与人类相当的智力和能力,并能与生态系统交互。

● 机器学习是人工智能领域一个专注于创建算法和模型的分支,这些模型和算 法使得上述系统能够随着训练学习实现自我改进。机器学习模型从现有数据 中学习,并会随着数据的增长自动更新参数。

● 深度学习是机器学习的一个子分支。深度机器学习模型指的是神经网络 (Neural Network),尤其适用于计算机视觉(Computer Vision,CV)或自然语 言处理(Natural Language Processing,NLP )等领域。本书提到的机器学习模型 和深度学习模型一般是指判别式模型,可根据数据进行预测或推理。

● 生成式人工智能是深度学习的一个子分支,不使用深度神经网络来聚类、分 类或对现有数据进行预测,而使用强大的神经网络模型生成图像、文字表述、 音乐和视频等新的内容。

图 1.1 形象地展示了这些概念之间的关系。

图 1.1 人工智能、机器学习、深度学习和生成式人工智能之间的关系

你可以通过大量数据训练生成式人工智能模型,再利用这些数据中的模式生成全 新样本。这一生成过程不同于判别式模型,因为后者旨在预测给定样本的类别或标签。

1.1.1 生成式人工智能的应用

近年来,生成式人工智能取得了显著的进展,并广泛应用于艺术、音乐、时尚、 建筑等多个领域。在某些领域中,生成式人工智能逐渐改变着原创者创造、设计甚 至理解世界的方式;而在另一些领域中,其正在现有流程和操作的优化和效率的提 升方面大显身手。

生成式人工智能的广泛应用,还意味着其模型可以处理不同类型的数据,例如文本、 音频或图像。接下来,我们会介绍如何使用生成式人工智能模型处理不同类型的数据。

1.1.2 文本生成

生成式人工智能的伟大应用之一是根据自然语言生成新内容,这也是本书重点 介绍的应用。事实上,生成式人工智能算法可以用于生成新的文本,如文章、诗歌 和产品描述。例如,OpenAI 开发的 GPT-3 语言模型在经过大量文本数据训练后,可 以生成以不同语言表述的连贯且符合语法规则的新文本(无论是输入还是输出),并 能从文本中提取出相关特征(例如关键词、主题或完整摘要)。

图 1.2 所示的是 ChatGPT 答复用户提示并补充了参考材料的示例。

图 1.2 ChatGPT 答复用户提示并补充了参考材料的示例

接下来,我们介绍生成式人工智能在图像生成领域的应用。

1.1.3 图像生成

就生成式人工智能在图像生成领域的应用来说,最早且最著名的示例之一是由 Ian Goodfellow 等人在 2014 年发表的文章“Generative Adversarial Networks”中介绍的生成对 抗网络(Generative Adversarial Network,GAN)架构,这一架构能生成难以与真实图像 区分的逼真图像。GAN 有一些有趣的应用,例如为训练计算机视觉模型生成合成数据集、 生成逼真的产品图像,以及生成用于虚拟现实和增强现实应用的逼真图像。

图1.3 所示的虚构人脸图像均由人工智能(生成对抗网络)生成。

图 1.3 由 GAN StyleGAN2 生成的虚构人脸图像

2021 年,OpenAI 在图像生成领域引入了一个名为 DALL-E 的生成式人工智能 模型。与 GAN 不同,DALL-E 模型旨在根据自然语言描述生成图像(GAN 则以随 机噪声向量为输入),这些图像可能看起来没那么逼真,但足以表达所述内容。

DALL-E 可以生成独特而富有创造力的图像,在广告、产品设计、时尚等创意产 业中具有巨大的应用潜力。

图 1.4 展示了 DALL-E 根据自然语言描述生成的 4 张图像。

图 1.4 DALL-E 使用自然语言提示作为输入所生成的图像

注意,文本生成可以与图像生成相结合,以产生全新的素材。近年来,将二者 结合的新型人工智能工具得到了广泛的应用。

Tome AI 就是一个例子。这是一款基于人工智能的自动生成 PPT 的在线应用, 除了基础功能,Tome AI 还能利用 DALL-E 和 GPT-3 等模型从零开始创建幻灯片, 如图 1.5 所示。

图 1.5 一份关于生成式人工智能的演示文稿,完全由 Tome AI 使用自然语言输入生成

可以看到,TomeAI 完全能够根据用户以自然语言输入的简短信息创建一个演示文稿。

1.1.4 音乐生成

生成式人工智能在音乐生成领域的应用可以追溯到 20 世纪 50 年代,当时的学 者们在算法合成领域开展了相关研究,并将算法用于生成音乐作品。事实上,1957 年,Lejaren Hiller 和 Leonard Isaacson 创作了弦乐四重奏—Illiac Suite,这是第 一首完全由人工智能创作的音乐作品。自此,学者们一直在研究如何使用人工智能 生成音乐。在最近几年的发展中,新的架构和框架已经得到广泛应用,例如,谷歌 在 2016 年推出的 WaveNet 架构能够生成高质量的音频样本;谷歌开发的 Magenta 项目使用递归神经网络(Recurrent Neural Network ,RNN )和其他机器学习技术 来生成音乐及其他形式的艺术作品;OpenAI 于 2020 年推出的能生成音乐的神经 网络系统 Jukebox,可以根据音乐和声乐风格、类型和参考艺术家等信息自定义 输出。

这些框架和其他框架为开发用于音乐生成的“人工智能作曲助手”奠定了基础。

由 Sony CSL 研究开发的 Flow Machines 就是一个示例,这个生成式人工智能系统 经过大量音乐作品数据库训练后,可生成各种风格的新音乐。法国作曲家 Benoît Carré 用 Flow Machines 创作了一张名为“Hello World”的专辑(参见 Hello World 网站),这张专辑收录了 Flow Machines 与几位人类音乐家合作的乐曲。

图 1.6 所示的是一首完全由 Music Transformer(Magenta 项目中的一个模型)生 成的曲目。

图 1.6 Music Transformer 生成的曲目

在音乐领域,生成式人工智能的另一卓越应用是语音合成。事实上,有许多人工智能工具可以用知名歌手的声音作为输入来生成音频。例如,你想听KanyeWest演唱某首歌曲的效果,便可以用诸如 FakeYou、DeepFakeTexttoSpeech、UberDuck等工具来实现这一梦想,如图1.7 所示。

图 1.7 使用 UberDuck 进行文本转语音合成

不得不说,合成效果的确令人震撼。你甚至可以选用各种卡通人物(例如小熊 维尼等)的声音来合成歌曲。

接下来,我们介绍生成式人工智能在视频生成领域的应用。

1.1.5 视频生成

生成式人工智能几乎同时应用于视频生成和图像生成领域,其发展时间线相差 便是 DeepMind 的 Motion to Video,它仅凭一张图像和一系列动作就能生成高质量 的视频。另一个典型示例是 NVIDIA 的 Video-to-Video Synthesis(Vid2Vid),它基 于深度学习框架,使用 GAN 技术根据输入视频生成高质量的视频。

Vid2Vid 可以生成时间上连贯的视频,这意味着视频能够随时间推移保持播放流 畅且逼真。该系统可用于执行各种视频生成任务,如下所示。

● 变换视频风格,例如,将日间效果视频转换为夜间效果视频或将草图转换为 逼真的图像。

● 修改现有视频,例如,更改视频中对象的样式或外观。

● 根据静态图像生成新视频,例如,将一系列静止图像动画化。

2022 年 9 月,Meta 的研究人员宣布推出 Make-A-Video,这是一种新的人工智 能系统,可以帮助用户将自然语言提示转换为视频剪辑。这一技术背后包含我们刚 提到的许多其他领域的模型—用于提示的语言理解模型、用于图像生成的图像和 运动生成模型,以及由人工智能作曲助手制作的背景音乐。

综上所述,多年来,生成式人工智能已经给众多领域带来了“冲击”,出现了许 多足以给艺术家、企业甚至普通用户的工作提供支持的人工智能工具。相信随着技 术的发展,生成式人工智能会有更广阔的应用空间!接下来,在了解 OpenAI 模型的 相关内容之前,我们先介绍生成式人工智能的研究历程和新进展。

本文摘自《拥抱AIGC 应用ChatGPT和OpenAI API》

用AIGC、ChatGPT、GPT及OpenAI模型实现生产力提升的一本书,阐释生成式人工智能模型背后的设计思想,帮你找到更适合自己的AI应用方式。

本书先概述生成式人工智能所涉及的技术和工具,帮助你了解如何训练模型以生成新数据;接着展示如何用 ChatGPT 提高营销、科研和软件开发等相关工作的生产力和创造力;随后介绍如何通过改进提示设计从与 ChatGPT 的交互中获得好的效果,以及如何在企业级场景中使用 OpenAI 模型。

通过阅读本书,你可以了解生成式人工智能的相关概念,以及如何通过有效的提示设计增加ChatGPT的价值,如何基于Python语言构建和部署生成式人工智能系统,如何利用 Azure OpenAI 服务实现企业级应用。

本书适合想用生成式人工智能提升工作效率的所有人阅读,包括但不限于商务人士、数据科学家、软件开发人员、营销人员和科研人员。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1476337.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

nginx 反向代理 与缓存功能

一 理论说明 (一)反向代理简介 反向代理:reverse proxy,指的是代理外网用户的请求到内部的指定的服务器,并将数据返回给用户的一种方式,这是用的比较多的一种方式。 即 代理服务机 Nginx 除了可以在企…

linux系统-----------搭建LNMP 架构

PHP(Hypertext Preprocessor 超文本预处理器)是通用服务器端脚本编程语言,主要用于web开发实现动态web页面,也是最早实现将脚本嵌入HTML源码文档中的服务器端脚本语言之一。同时,php还提供了一个命令行接口,因此,其也可…

如何使用便签快速分类工作待办事项

在日常工作和生活中,我们经常需要处理各种各样的待办事项。而有效地分类这些任务,可以帮助我们更好地管理时间和提高工作效率。使用便签是一种简单而实用的方法,下面将介绍如何利用好用便签来快速分类工作待办事项。 首先,你可以…

软考中级1(数据库系统工程师)

1.程序计数器 保存待读取指令的地址 累加器 保存原操作数和结果 2.DMA方式不需要CPU,由DMA控制器直接控制数据的传送 3.数据位n位,校验位k位,海明码满足的关系:2^k-1>nk 4.高速缓存Cache:位于CPU和主…

大数据分布式计算工具Spark实战讲解

PySpark 什么是PySpark? Spark是Apache基金会旗下的顶级开源项目,用于对海量数据进行大规模分布式计算。 PySpark是Spark的Python实现,是Spark为Python开发者提供的编程入口,用于以Python代码完成Spark任务的开发 PySpark不仅可…

三天学会阿里分布式事务框架Seata-SpringCloud Alibaba分布式基础案例搭建

锋哥原创的分布式事务框架Seata视频教程: 实战阿里分布式事务框架Seata视频教程(无废话,通俗易懂版)_哔哩哔哩_bilibili实战阿里分布式事务框架Seata视频教程(无废话,通俗易懂版)共计10条视频&…

记录工作中遇见问题、学习项

1、判空操作 Demo demo Optional .ofNullable(demoService.getById(id)) .orElseThrow(() -> new ServiceException("不存在id为" id "的数据")); 2、SQL方面 1、group by : GROUP BY 子句必须放在 WHERE 子句中的条件之后&#…

网络:IPv6

1、由于IPv4地址资源枯竭,所以产生了IPV6。 版本长度地址数量IPv432 bit4 294 967 296IPv6128 bit340 282 366 920 938 463 374 607 431 768 211 456 2、IPv6的基本报头在IPv4报头基础上,增加了流标签域,去除了一些冗余字段,使报…

Apache SeaTunnel 及 Web 功能部署指南(小白版)

在大数据处理领域,Apache SeaTunnel 已成为一款备受青睐的开源数据集成平台,它不仅可以基于Apache Spark和Flink,而且还有社区单独开发专属数据集成的Zeta引擎,提供了强大的数据处理能力。随着SeaTunnel Web的推出,用户…

Python异步IO库之uvloop使用详解

概要 在Python中,异步编程已经成为处理高并发和IO密集型任务的主要方式之一。而uvloop库则是一个专门针对异步IO操作进行优化的库,它能够显著提高异步程序的性能。本文将深入探讨uvloop库的使用方法、功能特性以及如何利用它来加速异步IO编程。 什么是uvloop库? uvloop是一…

探讨:围绕 props 阐述 React 通信

在 ✓ 🇨🇳 开篇:通过 state 阐述 React 渲染 中,以 setInterval 为例,梳理了 React 渲染的相关内容。 📢 本篇会 ✓ 🇨🇳 围绕 props 阐述 React 通信 props React 组件使用 pro…

存储xss实现获取cookie(本地实战)

实战更能体验收获&#xff01;&#xff01;&#xff01; 环境准备&#xff1a; 1.phpstudy 2.dvwa靶场 实战 首先我们在phpstudy指定的localhost网站目录下编写一个xss.php文件&#xff0c;内容如下&#xff1a; <?php $cookie $_GET[cookie]; $ip getenv (REMOTE_…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的活体人脸检测系统(Python+PySide6界面+训练代码)

摘要&#xff1a;本篇博客详细讲述了如何利用深度学习构建一个活体人脸检测系统&#xff0c;并且提供了完整的实现代码。该系统基于强大的YOLOv8算法&#xff0c;并进行了与前代算法YOLOv7、YOLOv6、YOLOv5的细致对比&#xff0c;展示了其在图像、视频、实时视频流和批量文件处…

找出异常点 python

统计学方法 zscore 原理&#xff1a; Z-score 基于正态分布理论&#xff0c;它量化了数据点距离数据集平均值的相对标准偏差。 通常&#xff0c;如果 Z-score 的绝对值超过某个阈值&#xff08;如3或更大&#xff09;&#xff0c;该数据点就被认为是异常值。这是因为正态分布下…

【Spring】模拟 Spring 框架

Spring IoC 容器的实现原理&#xff1a;工厂模式 解析XML 反射机制 我们给自己的框架起名为&#xff1a;mySpring&#xff08;我的春天&#xff09; 一、创建 mySpring 模块 引入dom4j 和 jaxen 的依赖&#xff0c;因为要使用它解析XML文件&#xff0c;还有 junit 依赖 &l…

【MATLAB】SVMD_ MFE_SVM_LSTM 神经网络时序预测算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 SVMD_MFE_SVM_LSTM神经网络时序预测算法结合了单变量分解&#xff08;SVMD&#xff09;、多尺度特征提取&#xff08;MFE&#xff09;、聚类后展开支持向量机&#xff08;SVM&#xff09;…

Ethernet/IP转CC-Link IEFB协议网关

产品功能 1 YC-EIP-CCLKIE工业级EtherNet/IP 网关 2 CC-Link IEFB转 EtherNet/IP 3支持多个CC-Link IEFB节点 4 即插即用 无需编程 轻松组态 ,即实现数据交互 5导轨安装 支持提供EDS文件 6 EtherNET/IP与CC-Link IEFB互转数据透明传输可接入PLC组态 支持CodeSys/支持欧姆…

xss.haozi.me靶场练习

靶场地址alert(1) 1、第一关 输入在文本框里面&#xff0c;我们闭合前面的标签&#xff0c;中间的内容我们就可以随意写了 2、第二关 逃逸value的属性即可&#xff0c;这里使用点击事件触发xss 3、第三关 看代码&#xff0c;使用了正则表达式&#xff0c;去掉了所有的括号字…

【MATLAB】MVMD_ MFE_SVM_LSTM 神经网络时序预测算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 MVMD_MFE_SVM_LSTM神经网络时序预测算法结合了多变量多尺度分解&#xff08;MVMD&#xff09;、多尺度特征提取&#xff08;MFE&#xff09;、支持向量机&#xff08;SVM&#xff09;和长…

Vueuse:打造高效的 Vue.js 开发利器

Vueuse&#xff1a;打造高效的 Vue.js 开发利器 Vueuse 是一个功能强大的 Vue.js 生态系统工具库&#xff0c;它提供了一系列的可重用的 Vue 组件和函数&#xff0c;帮助开发者更轻松地构建复杂的应用程序。本文将介绍 Vueuse 的主要特点和用法&#xff0c;以及它在 Vue.js 开发…