Diffusion Model
如果你对人工智能有所了解,想必已经听说过Diffusion Model了。如果还没有,那就一起来了解一下吧——
扩散(Diffusion)对于人能智能而言,是一个借用的概念。在热力学中,它指细小颗粒从高密度区域扩散至低密度区域的过程。在统计学领域,这一术语则指将复杂的分布转换为简单分布的过程。
Diffusion Model 定义了一个概率分布转换模型,它的前向传播过程,可以将一个复杂的分布转换为了一个标准正态分布。
这样一个模型有什么用呢?简单而言,它可以接受文字输入,而输出图片。没错,就像你想的那样,你可以用文字描述一个/些形象和场景,Diffusion Model 可以根据你的输入生成图片出来。
Stable Diffusion
需要注意,Diffusion Model 并不是一个特定的模型,而是一类模型。它有很多的具体实现。
比如在 github 已经获得 14.8k star 的 Stable Diffusion : GitHub - CompVis/stable-diffusion.
Stable Diffusion 是慕尼黑大学机器视觉与学习研究小组基于CVPR 2022的论文《[2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models (arxiv.org)), 与 Stability AI 和 Runway 合作开发的一款开源扩散模型。
因为是开源的,你可以从 github 上直接下载 Stable Diffusion Model 本地运行。
DreamStudio
如果本地缺乏运算资源,也可以通过官方提供的网站 Stable Diffusion - DreamStudio 进行在线生成测试。
DreamStudio 有一个非常简单和友好的用户界面:
就算对于右侧的几个参数毫无了解,我们只要保持参数默认值,并在底部文本框里输入描述性文字就好了。
这些描述性文字可以是:
-
简单的关键字(例如:熊猫、狗、篮球运动员……)
-
包含风格描述(例如:现实主义、油画、铅笔画、印象派……)
-
输入艺术家的名字(例如:达芬奇、莫奈、梵高……)
-
想到什么写什么,把想法都描述出来
当然,所有这些,最好是输入英文。其实输入中文也不是不能有output,不过从测试结果来看,基本上“画不达意”。
输入文字后,我们点击 “Dream” 就能生成图片,不过生成图片未必每次效果都好。我们在很多公众号和媒体里面看到的那些非常精致的图,一方面可能是特别设置了各种参数,另一方面肯定也经过了多次尝试。
如果我们只用免费版和默认参数,多数情况生成的图还是比较有“古早AI”的感觉的。
我们的测试结果
先来看看我们在 DreamStudio Lite (beta) 上测试的部分结果。
下面左图的生成语为“a handsome young man”,右图则生成自“a handsome Asian young man”:
下面两幅图,左右的生成语依次是 “A dark hair beauty realistic” 和 “A dark hair Chinese beauty realistic”:
当然少不了萌物,下图左右依次生成自 “a cute cartoon cat Unity 3D”,和“a cute puppy in a cpu realistic photo”:
上面这些是输入短语获得的,如果直接输入一段话呢?那是不是就可以直接图配文生成连环画了?
我试了一下,还真是有门,比如下面这几幅图,就是根据相应文字的描述产生的。乍一看,是不是已经挺像绘本故事了?
《a picture book created by author and Stable Diffusion model》
In storm night, soldiers were fighting to a monster.
The monster had three heads and twelve limbs.
Soldiers were exhausted, thirsty and hungry. If they were dead, the kingdom would be destroyed by the master of the monster.
Suddenly, the chief of the soldiers got injured, and blood was pouring from his wound and mouth. He fell and was insensible. His assistants tried to drag him aside, but they failed.
The monster found them. It opened its big mouth filling with sharp teeth, and was poised for making at them.
In this close call, a brave girl with bright big eyes and black short hair in a red dress held a kitchen knife and ran into the fighting place.
She blocked the view of the horrible monster, and then she shouted to the monster with her courage and loyalty.
怎么样?Diffusion Model 有没有惊艳到你?想不想自己动手试试呢?