【简单易上手】昇思MindSpore邀你定制专属Diffusion模型

news2025/1/13 10:21:52

昇思MindSpore首个可训练diffusion模型DDPM马上要和大家见面了,操作简单,可训练+推理,单卡即可运行,欢迎广大产学研开发者使用启智社区免费Ascend NPU算力体验

最近爆火的AI绘图,相信大家并不陌生了。

从AI绘图软件生成的作品打败一众人类艺术家,斩获数字艺术类冠军,到如今DALL.E、Imagen、novelai等国内外平台遍地开花。也许你也曾点开过相关网站,尝试让AI描绘你脑海中的风景,又或者上传了一张自己帅气/美美的照片,然后对着最后生成的糙汉哭笑不得。那么,在你感受AI绘图魅力的同时,有没有想过(不你肯定想过),它背后的奥妙究竟是什么?

美国科罗拉多州技术博览会中获得数字艺术类冠军的作品——《太空歌剧院》

一切,都要从一个名为DDPM的模型说起…

话说DDPM

DDPM模型,全称Denoising Diffusion Probabilistic Model,可以说是现阶段diffusion模型的开山鼻祖。不同于前辈GAN、VAE和flow等模型,diffusion模型的整体思路是通过一种偏向于优化的方式,逐步从一个纯噪音的图片中生成图像。

现在已有生成图像模型的对比

没有相关机器学习背景的小伙伴可能会问了,什么是纯噪音图片?

很简单,老式电视机没信号时,伴随着“刺啦刺啦”噪音出现的雪花图片,就属于纯噪音图片。而DDPM在生成阶段所做的事情,就是把这些个“雪花”一点点移除,直到清晰的图像露出它的庐山真面目,我们把这个阶段称之为“去噪”。

纯噪音图片:老电视的雪花屏

通过描述,大家可以感受到,去噪其实是个相当复杂的过程。没有一定的去噪规律,可能你忙活了好半天,到最后还是对着奇形怪状的图片欲哭无泪。当然,不同类型的图片也会有不同的去噪规律,至于怎么让机器学会这种规律,有人灵机一动,想到了一种绝妙的方法。

“既然去噪规律不好学,那我为什么不先通过加噪的方式,先把一张图片变成纯噪音图像,再把整个过程反着来一遍呢?”

这便奠定了diffusion模型整个训练-推理的流程,先在前向过程(forward process)通过逐步加噪,将图片转换为一个近似可用高斯分布的纯噪音图像,紧接着在反向过程(reverse process)中逐步去噪,生成图像,最后以增大原始图像和生成图像的相似度作为目标,优化模型,直至达到理想效果

DDPM的训练-推理流程

到这里,不知道大家的接受度怎样?如果感觉没问题,轻轻松松的的话。准备好,我要开始上大招(深入理论)啦。

1.1.1前向过程(forward process)

又称为扩散过程(diffusion process),整体是一个参数化的马尔可夫链(Markov chain)。从初始数据分布 出发,每步在数据分布中添加高斯噪音,持续T次。其中从第t-1步到第t步的过程可以用高斯分布表示为:

通过合适的设置,随着t不断增大,原始数据会逐渐失去他的特征。我们可以理解为,在进行了无限次的加噪步骤后,最终的数据会变成没有任何特征,完全是随机噪音的图片,也就是我们最开始说的“雪花屏”。

在这个过程中,每一步的变化是可以通过设置超参来控制,在我们知晓最开始的图片是什么的前提下,前向加噪的整个过程可以说是已知且可控的,我们完全能知道每一步的生成数据是什么样子。

但问题在于,每次的计算都需要从起始点出发,结合每一步的过程,慢慢推导至你想要的某步数据,过于麻烦。好在因为高斯分布的一些特性,我们可以一步到位,直接从得到。

(这里的和为组合系数,本质上是超参的表达式)

1.1.2反向过程(reverse process)

和前向过程同理,反向过程也是一个马尔可夫链(Markov chain),只不过这里用到的参数不同,至于具体参数是什么,这个就是我们需要机器来学习的部分啦。

在了解机器如何学习前,我们首先思考,基于某一个原始数据,从第t步,精准反推回第t-1步的过程应该是怎样的?

答案是,这个仍可以用高斯分布表示:

注意这里必须要考虑,意思是反向过程最后生成图像还是要与原始数据有关。输入猫的图片,模型生成的图像应该是猫,输入狗的图片,生成的图像也应该和狗相关。若是去除掉,则会导致无论输入哪种类型的图片训练,最后diffusion生成的图像都一样,“猫狗不分”。
 

经过一系列的推导,我们发现,反向过程中的参数和,竟然还是可以用,,以及参数, 表示出来的,是不是很神奇~

当然,机器事先并不知道这个真实的反推过程,它能做到的,只是用一个大概近似的估计分布去模拟,表示为。

1.1.3优化目标

在最开始我们提到,需要通过增大原始数据和反向过程最终生成数据的相似度来优化模型。在机器学习中,我们计算该相似度参考的是交叉熵(cross entropy)

关于交叉熵,学术上给出的定义是“用于度量两个概率分布间的差异性信息”。换句话讲,交叉熵越小,模型生成的图片就越和原始图片接近。但是,在大多数情况下,交叉熵是很难或者无法通过计算得出的,所以我们一般会通过优化一个更简单的表达式,达到同样的效果。

Diffusion模型借鉴了VAE模型的优化思路,将variational lower bound(VLB,又称ELBO)替代cross entropy来作为最大优化目标。通过无数步的分解,我们最终得到:

看到这么复杂的公式,好多小伙伴肯定头都大了。但不慌,这里需要关注的,只是中间的罢了,它表示的是和之间估计分布和真实分布的差距。差距越小,模型最后生成图片的效果就越好。

1.1.4上代码

在了解完DDPM背后的原理,接下来就让我们看看DDPM模型究竟是如何实现…

才怪啦。相信看到这里的你,肯定也不想遭受成百上千行代码的洗礼。好在MindSpore已经为大家提供了开发完备的DDPM模型,训练推理两手抓,操作简单,单卡即可运行,想要体验效果的小伙伴,可以先pip install denoising-diffusion-mindspore后,参考如下代码配置参数:

对重要的参数进行一些解析:

  • GaussianDiffusion
  • image_size: 图片大小
  • timesteps: 加噪步数
  • sampling_timesteps: 采样步数,为提升推理性能,需小于加噪步数
  • Trainer
  • folder_or_dataset: 对应图片中的path, 可以是已下载数据集的路径(str),也可以是已做好数据处理的VisionBaseDataset, GeneratorDataset 或 MindDataset
  • train_batch_size:batch大小
  • train_lr: 学习率
  • train_num_steps: 训练步数

话说MindDiffusion

DDPM只是Diffusion这个故事的开篇。目前,已有无数的研究人员被其背后瑰丽的世界所吸引,纷纷投身其中。在不断优化模型的同时,也逐渐开发了Diffusion在各个领域的应用。

其中,包括了计算机视觉领域的图像优化、inpainting、3D视觉,自然语言处理中的text-to-speech,AI for Science领域的分子构象生成、材料设计等,更有来自斯坦福大学计算机科学系的博士生Eric Zelikman大开脑洞,尝试将DALLE-2与最近另一个大火的对话模型ChatGPT相结合,制作出了温馨的绘本故事。

DALLE-2 + ChatGPT合力完成的,关于一个名叫“罗比”的小机器人的故事

不过最广为大众所知的,应该还是它在文生图(text-to-image)方面的应用。输入几个关键词或者一段简短的描述,模型便可以为你生成相对应的图画。

比如,输入“城市夜景 赛博朋克 格雷格.路特科夫斯基”,最后生成的便是一张色彩鲜明,颇具未来科幻风格的作品。

再比如,输入“莫奈 撑阳伞的女人 月亮 梦幻”,生成的便是一张极具有朦胧感的女人画像,色彩搭配的风格有木有让你想起莫奈的《睡莲》?

想要写实风格的风景照作为屏保?没问题!

乡村 田野 屏保

想要二次元浓度多一点的?也可以!

来自深渊 风景 绘画 写实风格

以上这些图片,均是由MindDiffusion平台的下的悟空画画制作而成的哦,悟空画画是基于扩散模型的中文文生图大模型,由华为诺亚团队携手中软分布式并行实验室昇腾计算产品部联合开发。模型基于Wukong dataset训练,并使用昇思框架(MindSpore)+昇腾(Ascend)软硬件解决方案实现。

跃跃欲试的小伙伴先别着急,为了让大家拥有更好的体验,更多自行开发的空间,我们打算让MindDiffusion中的模型同样也具备可训练、可推理的特性,预计在明年就要和大家见面啦,敬请期待,欢迎大家头脑风暴,生成各种别具风格的作品哦~

(据去内部打探情报的同事说,有人已经开始尝试“张飞绣花”、“刘华强砍瓜”、“古希腊神大战哥斯拉”了。ummmm,怎么办,突然就很期待成品了呢(ಡωಡ))

一个突然正经的结语

最后的最后,在Diffusion爆火的如今,有人也曾发出过疑问,它为什么可以做到如此的大红大紫,甚至风头开始超过GAN网络?Diffusion的优势突出,劣势也很明显;它的诸多领域仍是空白,它的前方还是一片未知。为什么却有那么多的人在孜孜不倦地对它进行研究呢?

兴许,马毅教授的一番话,可以给我们提供一种解答。

“但diffusion process的有效性以及很快取代GAN也充分说明了一个简单道理:

几行简单正确的数学推导,可以比近十年的大规模调试超参调试网络结构有效得多。

或许,这就是Diffusion模型的魅力吧。

Reference

  • https://medium.com/mlearning-ai/ai-art-wins-fine-arts-competition-and-sparks-controversy-882f9b4df98c
  • Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising Diffusion Probabilistic Models. arXiv:2006.11239, 2020.
  • Ling Yang, Zhilong Zhang, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Ming-Hsuan Yang, and Bin Cui. Diffusion models: A comprehensive survey of methods and applications. arXiv preprint arXiv:2209.00796, 2022.
  • https://lilianweng.github.io/posts/2021-07-11-diffusion-models
  • https://github.com/lvyufeng/denoising-diffusion-mindspore
  • https://zhuanlan.zhihu.com/p/525106459
  • https://zhuanlan.zhihu.com/p/500532271
  • https://www.zhihu.com/question/536012286
  • https://mp.weixin.qq.com/s/XTNk1saGcgPO-PxzkrBnIg
  • https://m.weibo.cn/3235040884/4804448864177745

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/117812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

知识图谱的知识表示:向量表示方法

目录 从词向量到实体向量 知识图谱向量表示学习模型 TransE TransH TransR TransD TransX系列总结 DisMult 从词向量到实体向量 知识图谱的向量表示。有一类词是代表实体的,假如对这类实体词的向量做一些计算,比如用Rome向量减去Italy的向量&am…

使用界面组件Telerik ThemeBuilder研发主题,只需要这七步!

Telerik DevCraft包含一个完整的产品栈来构建您下一个Web、移动和桌面应用程序。它使用HTML和每个.NET平台的UI库,加快开发速度。Telerik DevCraft提供最完整的工具箱,用于构建现代和面向未来的业务应用程序。 ThemeBuilder是一个web应用程序&#xff0…

前端基础(一)_初识JavaScript

最开始的时候,浏览器只能显示文本和图片,并不能做各种动态的操作。 一、JavaScript的历史 1、网景公司的布兰登艾奇开发了js 2、借鉴了java的数据管理机制、c的函数 3、Js的创建是用来解决浏览器和用户之间互动的问题(表单提交的问题&#…

LeanCloud 快速实现服务端

1. 实现与服务器交互平台 1.1 Google 平台的 Firebase (需要科学网络) Firebasehttps://firebase.google.cn/ 1.2 LeanCloud 平台 LeanCloudhttps://www.leancloud.cn/ 2. 配置信息 2.1 在 LeanCloud 控制台创建应用, 根据 SDK下载 开发指南配置应用 2.2 配置文件 build…

拉伯杠杆平台|新冠药龙头跳水,万亿产业开启新阶段!

依照此前发表的时间表,新修订的《体育法》将于2023年1月1日起正式施行。 12月27日早盘,A股前期大热的抗疫体裁呈现显着回落。熊去氧胆酸、新冠药、肝炎概念、新冠检测、生物疫苗等体裁跌幅较大。熊去氧胆酸、新冠药两大板块跌幅超过4%,抢手龙…

外贸采购管理对业务的影响及解决方案

在外贸企业中,采购环节的把控对整个业务环节都有影响。像是采购供应商是否能够按时到货,会直接影响生产进度;采购质量的好坏直接影响产品的生产进度及质量;采购成本的高低,直接影响产品的成本及利润;采购供…

NSUM 问题

目录标题两数之和两数之和 2(多个结果集去重)15. 三数之和两数之和 问题描述 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。 你可以假设每种输入只会对应一个答…

基于Java(JSP)+MySQL实现(Web)学生成绩综合管理系统【100010065】

Java 课程设计:师生交流系统 1.1 课设题目 信息商务学院学生成绩综合管理系统的综合与开发 2.1 课设目的 《Java 程序设计》课程是计算机专业的一门专业必修课程,针对课程进行为期两周的实践教学,旨在提升本专业学生对此课程中的理论知识的综合应用能…

[Python学习系列] 走进Django框架

文章目录1. 安装django2. 创建项目(命令的方式)在第一次创建django项目需要做的:每一次创建django项目需要做的:3. 创建app4. 启动运行django项目程序5. 模板&静态文件的存放地址6. django中的模板语法7. django中常见的请求和…

ArcGIS基础实验操作100例--实验4矢量要素的镜像复制,缩放

实验平台:ArcGIS 10.6 实验数据:请访问实验1(传送门) 基础编辑篇--实验4 矢量要素的镜像复制,缩放 目录 一、实验背景 二、实验数据 三、实验步骤 (1)加载【Mirror Features】工具 &#x…

VMware之安装Windows10系统

系统下载 下载地址:原版软件 (itellyou.cn) 创建虚拟机系统框架 在菜单栏中选择文件下的新建虚拟机 选择自定义,然后点击下一步 直接下一步 选择稍后安装操作系统,然后点击下一步 因为安装的系统是Windows,这里注意选择Microsof…

使用eBPF追踪Linux内核

简介 BPF,及伯克利包过滤器Berkeley Packet Filter,最初构想提出于 1992 年,其目的是为了提供一种过滤包的方法,并且要避免从内核空间到用户空间的无用的数据包复制行为。它最初是由从用户空间注入到内核的一个简单的字节码构成&…

浏览器:理解HTTP无状态与Cookie的使用

一、理解HTTP无状态 1.1、理解http无状态 http无状态是指协议对于用户身份、用户状态、用户权限、交互场景等没有记忆能力。简单讲就是不能识别用户。 1.2、http无状态的优点: 可以更快地处理大量的事务,确保协议的可伸缩性,减少服务器的…

一文搞定十大排序算法(动画图解)

排序的定义 排序,就是重新排列表中的元素,使表中的元素满足按关键字递增或递减的过程。为了査找方便,通常要求计算机中的表是按关键字有序的。 排序的确切定义如下: 算法的稳定性: 若待排序表中有两个元素 Ri 和 Rj&am…

包装类和简单认识泛型

目录 1.包装类 1.1基本数据类型和对应的包装类 1.2装箱和拆箱 1.3自动装箱和自动拆箱 2.什么是泛型 3.引出泛型 3.1语法 4.泛型类的使用 4.1语法 4.2类型推导 5.裸类型 5.1说明 6.泛型如何编译的 6.1擦除机制 6.2为什么不能实例化泛型类型的数组 7.泛型的上界 …

MaxKey单点登录认证系统3.5.12发布,重要漏洞修复

业界领先的IAM/IDaas身份管理和认证产品 概述 MaxKey单点登录认证系统,谐音马克思的钥匙寓意是最大钥匙,是业界领先的IAM/IDaas身份管理和认证产品,支持OAuth 2.x/OpenID Connect、SAML 2.0、JWT、CAS、SCIM等标准协议,提供安全、标准和开放的用户身份…

STM32/51单片机实训day3——点亮LED灯、闪烁LED灯(二)实践

内 容:编写代码实现LED灯的点亮功能 学 时:2学时 知识点:分析原理图、LED灯控制原理 重点:GPIO参数配置、LED原理图分析 难点:编写 GPIO参数配置函数、LED点亮函数 时间:2022年12月21日 9:00~…

如何轻松做数据治理?开源技术栈告诉你答案

搭建一套数据治理体系耗时耗力,但或许我们没有必要从头开始搞自己的数据血缘项目。本文分享如何用开源、现代的 DataOps、ETL、Dashboard、元数据、数据血缘管理系统构建大数据治理基础设施。 元数据治理系统 元数据治理系统是一个提供了所有数据在哪、格式化方式…

vue2.0中集成并使用ueditor,解决第一次编辑器正常加载,第二次就不加载的问题,父组件调用子组件的方法

vue2.0中集成并使用ueditor 最近有项目需要使用编辑器,就找了一款百度的ueidtor编辑器,第一次用各种不会,所以记录一下 下面的链接就是ueditor的前后端的配置说明和API等 链接: ueidtor的API 下载ueidtor 下载最新版的1.5.0版本&#xf…

基于Flask+bootstrap+sqlite开发宝宝成长管理系统,宝宝成长记录系统源码

BabyLog 岁月如风,唯有此忆, 任凭时光匆匆,记录点点滴滴。 当爸爸了,就多陪陪孩子,有事没事的记些东西,不要总把心思放在程序编码上,也多陪陪孩子! 记录了那么多条数据,是时候也为…