扩散模型实战(三):扩散模型的应用

news2024/12/27 11:16:52

推荐阅读列表:

扩散模型实战(一):基本原理介绍

扩散模型实战(二):扩散模型的发展

       扩散只是一种思想,扩散模型也并非固定的深度网络结构。除此之外,如果将扩散的思想融入其他领域,扩散模型同样可以发挥重要作用。

​       在实际应用中,扩散模型最常见、最成熟的应用就是完成图像生成任务,本书同样聚焦于此。不过即使如此,扩散模型在其他领域的应用仍不容忽视,可能在不远的将来,它们就会像在图像生成领域一样蓬勃发展,一鸣惊人。

本文将介绍扩散模型在如下领域的应用:

  • 计算机视觉;
  • 时序数据预测;
  • 自然语言处理;
  • 基于文本的多模态;
  • AI基础科学;

1)计算机视觉

       计算机视觉包括2D视觉和3D视觉两个方面,这里仅介绍扩散模型在2D图像领域的应用。

       图像类的应用十分广泛,而且与人们的日常生活息息相关。在扩散模型出现之前,与图像处理相关的研究已经有很多了,而扩散模型在许多图像处理任务中都可以很好地发挥作用,具体如下。

  • 图像分割与目标检测,图像分割与目标检测是计算机视觉领域的经典任务,在智能驾驶方面备受关注。而在加入扩散的方法之后,就可以获取更精准的分割和检测结果了,例如Meta AI的Se 制扩散模型可以生成分割Mask图(如图3-1所示),检测扩散模型DiffusionDet同样可以端到端地从随权经光根逐步生成检测框(如图3-2所示)。不过,扩散模型仍然存在生成速度慢的问题,在应用于一些需检测的场景时还需继续化化。

图3-1 SegDiff生成的分割Mask图

图3-2 DiffusionDet生成的检测框

  • 图像超分钟率,图像超分钟率是一项能够将低分辨年图像重建为高分辨率图体,同时保证图像市药线贯的技术。CDM(Cascaded DiffusionModel,组联扩教模型)通过采用事联多个扩散模型的方式,分级式地逐步放大分钟率,实现了图像超分钟车,图3-3给出了一个使用CDM实现图像超分拼串的示例。

图3-3 使用CDM实现图像超分辨率

  • 图像修复、图像翻译和图像编辑。图像修复、图像翻译和图像编辑是对图像的部分或者全部区域执行的操作,包括缺失部分修补、分格迁移、内容替换等。Palette是一个集成了图像修复、图像翻译和图像编辑等功能的扩散模型。它可以在一个模型中完成不同的图像级任务。图3-4给出了一个使用Palette修复图像的示例。

图3-4 使用Palette修复图像

2)时序数据预测

       时序数据预测旨在根据历史观测数据预测未来可能出现的数据,如空气温度预测、股票价格预测、销售与产能预测等。时序数据预测同样可以视为生成任务,即基于历史数据的基本条件来生成未来数据,因此扩散模型也能发挥作用。

       TimeGrad是首个在多元概率时序数据预测任务中加入扩散思想的自回归模型。为了将扩散过程添加到历史数据中,TimeGrad首先使用RNN (Recurrent Neural Network,循环神经网络)处理历史数据并隐空间中,然后对历史数据添加噪声以实现扩散过程,由此处理数千维度的多元数据并完成预测任务。图3-5展示了TimeGrad在城市交通流量预测任务中的表现。

图3-5 TimeGrad在城市交通流量预测任务中的表现

       时序数据预测在实际生活中的应用非常广泛。在过去,传统机器学习算法以及深度学习的RNN系列方法一直处于主导地位。如今,扩散模型以及表现出巨大的潜力,而这仅仅是个开始。

3)自然语言处理

       自然语言领域也是人工智能的一个重要发展方向,旨在研究人类语言与计算机通信的相关问题,最近"爆火"的ChatGPT就是一个自然语言生成问答模型。

       实际上,扩散模型同样可以完成语言类的生成任务。只要将自然语言类的句子分调并转换为词向量之后,就可以通过扩散的方法来学习自然语言的语句生成,进而完成自然语言领域一些更复杂的任务,如语言翻译、问答对话、搜索补全、情感分析、文章续写等。

       Diffusion-LM是首个将扩散模型应用到自然语言领域的扩散语言模型。该模型旨在解决如何将连续的扩散过程应用到离散的非连续化文本的问题,由此实现语言类的高细粒度可控生成。经过测试,Diffusion LM在6种可控文本生成任务中取得非常好的生成效果。

       实际上,后续也有非常多的基于Diffusion-LM的应用。不过在自然语言领城,目前的主流模型仍然是GPT (Generative Pre-trained Transformer)。

4)基于文本的多模态

      多模态信息指的是多种数据类型的信息,包括文本、图像、音/视频、3D物体等、多模态信息的交互是人工智能领域的研究热点之一,对于AI理解人类世界、帮助人类处理多种事务具有重要意义。在诸如DALLE-2和StableDiffusion等图像生成扩散模型以及ChatGPT等语言模型出现之后,多模态开始逐渐演变为基于文本和其他模态的交互,如文本生成图像、文本生成视频、文本生成3D等。

  • 文本生成图像。文本生成图像是扩散模型最流行,最成熟的应用,输入文本提示语或仅仅输入几个词,扩散模型就能根据文字描述生成对应的图片。开头介绍的文名鼎磊的文容生成DALLE-2、Imagen以及完全开源的Stable Diffision等,都属于文本和图像的多模态扩散模型。图3-6给出了几个使用Imagen实现文字生成图像的示例,后面将重点介绍与文本生成图像相关的应用。

图3-6 使用Imagen实现文字生成图像的几个示例

  • 文本生成视频。与文本生成图像类似,文本生成视频扩散模型能够将输入的文本提示语转换为相应视频流。不同的是,视频的前后帧需要保持极佳的连贯性。文本生成视频也有非常广泛的应用,如Meta AI的Mate-A-Video(如图3-7所示)以及能够精细控制视频生成的ControlNet Video等。图3-8展示了Hugging Face上的ControlNet Video Space应用界面。

图3-7 Meta Al的Make-A-Video:一条身看超人外衣、肩披红色斗篷的狗在天空中翱翔

图3-8 Hugging Face上的ControlNet Video Space应用界面

  • 文本生成3D。同样,文本生成3D扩散模型能够将输入的文本转换为相应的3D物体。稍有不同的是,3D物体的表征有多种方式,如点云、网格、NeRF等。不同的应用在实现方式上也略有差异,例如:DiffRF提出了通过扩散的方法实现从文本生成3D辐射场的扩散模型,如图3-9所示;基于二维图像生成对应的3D点云,我们可以在Hugging Face上体验官方给出的演示实例,如图3-10所示。虽然目前文本生成3D技术仍处于起步阶段,但其应用前景非常广阔,包括室内设计、游戏建模、元宇宙数字人等。

图3-9 使用DiffRF生成3D沙发

图3-10 Hugging Face上的3DFuse Space界面

5)AI基础科学

       Al基础科学又称Al for Science,它是人工智能领域具有广阔前景的分支之一,甚至能够发展为造福人类的技术。与AI基础科学相关的研究成果也不止一次荣登《自然》杂志。例如,2021年DeepMind研究的AlphaFold 2可以预测人类世界98.5%的蛋白质,2022年DeepMind用强化学习控制核聚变反应堆内过热的离子体等。

       扩展模型对生成类的任务一直表现十分专业,AI基础科学中生成预测类的研究当然也少不了扩展模型的参与。SMCDIT创建了一种扩散模型,该扩散模型可以根据给定的模体结构生成多样化的支架蛋白质,如图3-11所示。CDVAE则提出了一种扩散晶体变分自编码器模型,旨在生成和优化具有固定周期性原子结构的材料,如图3-12所示。

图3-11 SMCDIT生成的多样化的支架蛋白质

图3-12 CDVAE生成的遵循Langevin动力学的不同原子结构的材料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/845730.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【并发编程】无锁环形队列Disruptor并发框架使用

Disruptor 是苹国外厂本易公司LMAX开发的一个高件能列,研发的初夷是解决内存队列的延识问顾在性能测试中发现竟然与10操作处于同样的数量级),基于Disruptor开发的系统单线程能支撑每秒600万订单,2010年在QCn演讲后,获得了业界关注…

软件单元测试

单元测试目的和意义 对于非正式的软件(其特点是功能比较少,后续也不有新特性加入,不用负责维护),我们可以使用debug单步执行,内存修改,检查对应的观测点是否符合要求来进行单元测试&#xff0c…

操作指南 | 如何使用Chainlink喂价功能获取价格数据

Chainlink的去中心化预言机网络中的智能合约包含由运行商为其他智能合约(DApps)使用或截取所持续更新的实施价格数据。其中有两个主要架构:喂价和基础要求模型。此教程将会展现如何在Moonbeam、Moonriver或是Moonbase Alpha测试网上使用喂价功…

使用一个python脚本抓取大量网站【1/3】

一、说明 您是否曾经想过抓取网站,但又不想为像Octoparse这样的抓取工具付费?或者,也许您只需要从网站上抓取几页,并且不想经历设置抓取脚本的麻烦。在这篇博文中,我将向您展示我如何创建一个工具,该工具能…

2023爱分析·信创云市场厂商评估报告:中国电子云

01 研究范围定义 信创2.0时代开启,信创进程正在从局部到全面、从细分到所有领域延展。在这个过程中,传统的系统集成,也在逐步向信创化、数字化及智能化转变。随着信创产业的发展,企业需要更多的技术支持和服务,而传统的系统集成已…

Laravel 框架资源嵌套.浅嵌套.自定义表单伪造.CSRF 保护 ④

![请添加图片描述](https://img-blog.csdnimg.cn/154d035aa4db42df99f3b01fbf287e46.gif#pic_center)作者 : SYFStrive 博客首页 : HomePage 📜: THINK PHP 📌:个人社区(欢迎大佬们加入) 👉&a…

暗黑版GPT流窜暗网 降低犯罪门槛

随着AIGC应用的普及,不法分子利用AI技术犯罪的手段越来越高明,欺骗、敲诈、勒索也开始与人工智能沾边。 近期,专为网络犯罪设计的“暗黑版GPT”持续浮出水面,它们不仅没有任何道德界限,更没有使用门槛,没有…

【Linux命令行与Shell脚本编程】第十六章 Shell函数

Linux命令行与Shell脚本编程 第一章 文章目录 Linux命令行与Shell脚本编程六.函数6.1.脚本函数基础6.1.1.创建函数6.1.2.使用函数 6.2.函数返回值6.2.1.默认的退出状态码6.2.2.使用return命令6.2.3.使用函数输出 6.3.函数中使用变量6.3.1.向函数传递参数6.3.2.在函数中处理变量…

【jvm】jvm整体结构(hotspot)

目录 一、说明二、java代码的执行流程三、jvm的架构模型3.1 基于栈式架构的特点3.2 基于寄存器架构的特点 一、说明 1.hotspot vm是目前市场上高性能虚拟机的代表作之一 2.hotspot采用解释器与即时编译器并存的架构 3.java虚拟机是用来解释运行字节码文件的,入口是字…

微服务技术栈(1.0)

微服务技术栈 认识微服务 单体架构 单体架构:将业务的所有功能集中在一个项目中开发,打成一个包部署 优点: 架构简单部署成本低 缺点: 耦合度高 分布式架构 分布式架构:根据业务功能对系统进行拆分&#xff0c…

深度学习和OpenCV的对象检测(MobileNet SSD图像识别)

基于深度学习的对象检测时,我们主要分享以下三种主要的对象检测方法: Faster R-CNN(后期会来学习分享)你只看一次(YOLO,最新版本YOLO3,后期我们会分享)单发探测器(SSD,本节介绍,若你的电脑配置比较低,此方法比较适合R-CNN是使用深度学习进行物体检测的训练模型; 然而,…

新西兰跨境电商购物网站多语言翻译系统快速开发

搭建一个新西兰跨境电商购物网站的多语言翻译系统,可以按照以下步骤进行快速开发: 步骤1:确定需求和目标 首先,你需要明确你的网站需要支持哪些语言,并确定你想要实现的多语言翻译系统的具体功能和目标。 步骤2&…

unity如何手动更改脚本执行顺序

在Unity中,脚本的执行顺序是由脚本的执行顺序属性决定的。默认情况下,Unity根据脚本在项目中的加载顺序来确定它们的执行顺序。然而,你可以手动更改脚本的执行顺序,以下是一种方法: 在Unity编辑器中,选择你…

【云原生】kubectl命令的详解

目录 一、陈述式资源管理方式1.1基本查看命令查看版本信息查看资源对象简写查看集群信息配置kubectl自动补全node节点查看日志 1.3基本信息查看查看 master 节点状态查看命名空间查看default命名空间的所有资源创建命名空间app删除命名空间app在命名空间kube-public 创建副本控…

Unity背包系统与存档(附下载链接)

下载地址: https://download.csdn.net/download/qq_58804985/88184776 视频演示: 功能: 拖动物品在背包中自由移动,当物品拖动到其他物品上时,和其交换位置.基于EPPlus的背包数据与位置保存 原理: 给定一个道具池表格与一个背包表格 道具池表格负责存储所有道具的信息 背…

岩土工程监测仪器多通道振弦传感器信号转换器应用于铁路监测

岩土工程监测仪器多通道振弦传感器信号转换器应用于铁路监测 岩土工程监测是工程建设和运营过程中必不可少的环节,它主要是通过对地下水位、土体应力、变形、固结沉降等参数进行实时监测,以保证工程施工和运营的安全性和稳定性。而多通道振弦传感器信号…

JavaScript数据结构【进阶】

注:最后有面试挑战,看看自己掌握了吗 文章目录 使用 splice() 添加元素使用 slice() 复制数组元素使用展开运算符复制数组使用展开运算符合并数组使用 indexOf() 检查元素是否存在使用 for 循环遍历数组中的全部元素创建复杂的多维数组将键值对添加到对象…

阶段总结(linux基础)

目录 一、初始linux系统 二、基本操作命令 三、目录结构 四、文件及目录管理命令 查看文件内容 创建文件 五、用户与组管理 六、文件权限与压缩管理 七、磁盘管理 八、系统程序与进程管理 管理机制 文件系统损坏 grub引导故障 磁盘资源耗尽 程序与进程的区别 查…

Grafana V10 告警推送

最近项目建设完成,一个城域网项目,相关zabbix和grafana展示已经完,想了想,不想天天看平台去盯网络监控平台,索性对告警进行分类调整,增加告警的推送,和相关部门的提醒,其他部门看不懂…

绿盾用户使用看图软件每次都需要把图片解密之后才能打开查看,怎么才能不用这么麻烦打开就能看

环境: Win10专业版 绿盾控制台7.0 看图软件FastStone Image Viewer 问题描述: 绿盾用户使用看图软件FastStone Image Viewer每次都需要把图片解密之后才能打开查看,怎么才能不用这么麻烦打开就能看,用户说每次都需要把图片解密之后才能使用,实在是影响效率 解决方案…