AI绘画何以突飞猛进? 从历史到技术突破, 一文读懂火爆的AI绘画发展史

前言

自从前段时间偶然间被当下AI绘画的水平震住之后（超越一切的AI作画神器，和它创作的234个盔甲美女未来战士），作者深感当今AI绘画的飞速进展或许已远超所有人的预期。而这里的前因后果，包括AI绘画的历史，以及最近的突破性进展，值得好好和大伙儿梳理和分享一下。因此有了本文。

本文分为如下几小节：

2022，进击的AI绘画
AI绘画的历史
AI绘画何以突飞猛进
顶级AI绘画模型的PK
AI绘画的突破对人类意味着什么

一、2022，进击的AI绘画

今年以来，输入文本描述自动生成图片的AI绘画神器突然雨后春笋的冒了出来。

首先是Disco Diffusion。

Disco Diffusion 是在今年 2 月初开始爆红的一个 AI 图像生成程序，它可以根据描述场景的关键词渲染出对应的图像：

到了今年4月，著名人工智能团队OpenAI 也发布了新模型 DALL·E 2代，该名称来源于著名画家达利（Dalí）和机器人总动员（Wall-E），同样支持从文本描述生成效果良好的图像。

而很多读者对AI绘画开始产生特别的关注，或许是从以下这幅AI作品闹出的新闻开始的：

这是一幅使用AI绘画服务 MidJourney 生成的数字油画，生成它的用户以这幅画参加美国科罗拉多州博览会的艺术比赛，夺得了第一名。这件事被曝光之后引发了网络上巨大的争论至今。

目前 AI绘画的技术仍在不断变化发展中，其迭代之快，完全可以用”日新月异”来形容。即使把今年年初的AI绘画和现在相比，效果也有天壤之别。

在年初的时候，用Disco Diffusion可以生成一些很有氛围感的草图，但基本还无法生成人脸；仅仅2个月后，DALL-E 2已经可以生成准确的五官；现在，最强大的Stable Diffusion在画作的精致程度和作画速度上更是有了一个量级的变化。

AI绘画这项技术并不是近年才有的，但是今年以来，AI产出作品的质量以肉眼可见的速度日益提升，而效率也从年初的一个小时缩短到现在的十几秒。

在这个变化后面，究竟发生了什么事情？就让我们先全面回顾一下AI绘画的历史，再来理解一下，这一年多来，AI绘画技术足以载入史册的突破发展。

二、AI绘画的历史

AI绘画的出现时间可能比很多人想象的要早。

计算机是上世纪60年代出现的，而就在70年代，一位艺术家，哈罗德·科恩Harold Cohen（画家，加利福尼亚大学圣地亚哥分校的教授）就开始打造电脑程序”AARON”进行绘画创作。只是和当下AI绘画输出数字作品有所不同，AARON是真的去控制一个机械臂来作画的。

Harold 对 AARON的改进一直持续了几十年，直到他离世。在80年代的时候，ARRON”掌握”了三维物体的绘制； 90年代时，AARON能够使用多种颜色进行绘画，据称直到今天，ARRON仍然在创作。

不过，AARON的代码没有开源，所以其作画的细节无从知晓，但可以猜测，ARRON只是以一种复杂的编程方式描述了作者Harold本人对绘画的理解 — 这也是为什么ARRON经过几十年的学习迭代，最后仍然只能产生色彩艳丽的抽象派风格画作，这正是 Harold Cohen 本人的抽象色彩绘画风格。 Harold用了几十年时间，把自己对艺术的理解和表现方式通过程序指导机械臂呈现在了画布上。

尽管难说AARON如何智能，但作为第一个自动作画且真的在画布上作画的程序，给予它一个AI作画鼻祖的称号，倒也符合其身份。

2006年，出现了一个类似ARRON的电脑绘画产品 The Painting Fool。它可以观察照片，提取照片里的块颜色信息，使用现实中的绘画材料如油漆，粉彩或者和铅笔等进行创作。

以上这两个例子算是比较”古典”方式的电脑自动绘画，有点像一个学步的婴儿，有一点样子，但从智能化的角度来看是相当初级的。

而现在，我们所说的”AI绘画”概念，更多指的是基于深度学习模型来进行自动作图的计算机程序。这个绘画方式的发展其实是比较晚的。

在2012年 Google两位大名鼎鼎的AI大神，吴恩达和Jef Dean进行了一场空前的试验，联手使用1。6万个CPU训练了一个当时世界上最大的深度学习网络，用来指导计算机画出猫脸图片。当时他们使用了来自youtube的1000万个猫脸图片，1。6万个CPU整整训练了3天，最终得到的模型，令人振奋的可以生成一个非常模糊的猫脸。

在今天看起来，这个模型的训练效率和输出结果都不值一提。但对于当时的AI研究领域，这是一次具有突破意义的尝试，正式开启了深度学习模型支持的AI绘画这个”全新”研究方向。

在这里我们稍微讲一点技术细节：基于深度学习模型的AI绘画究竟有多麻烦呢，为什么2012年已经很现代水平的大规模计算机集群耗时多天的训练只能得出一点可怜的结果?

读者们或许有个基本概念，深度学习模型的训练简单说来就是利用外部大量标注好的训练数据输入，根据输入和所对应的预期输出，反复调整模型内部参数加以匹配的过程。

那么让AI学会绘画的过程，就是构建已有画作的训练数据，输入AI模型进行参数迭代调整的过程。

一幅画带有多少信息呢？首先就是长x宽个RGB像素点。让计算机学绘画，最简单的出发点是得到一个输出有规律像素组合的AI模型。

但RGB像素组合一起的并非都是画作，也可能只是噪点。一副纹理丰富，笔触自然的画作有很多笔画完成，涉及绘画中每一笔的位置，形状，颜色等多个方面的参数，这里涉及到的参数组合是非常庞大的。而深度模型训练的计算复杂度随着参数输入组合的增长而急剧增长…… 大家可以理解这个事情为啥不简单了。

在吴恩达和Jeff Dean开创性的猫脸生成模型之后，AI科学家们开始前赴后继投入到这个新的挑战性领域里。在2014年，AI学术界提出了一个非常重要的深度学习模型，这就是大名鼎鼎的对抗生成网络GAN（Generative Adverserial Network，GAN）。

正如同其名字”对抗生成”，这个深度学习模型的核心理念是让两个内部程序 “生成器（generator）” 和“判别器（discriminator）”互相PK平衡之后得到结果。

GAN模型一问世就风靡AI学术界，在多个领域得到了广泛的应用。它也随即成为了很多AI绘画模型的基础框架，其中生成器用来生成图片，而判别器用来判断图片质量。 GAN的出现大大推动了AI绘画的发展。

但是，用基础的GAN模型进行AI绘画也有比较明显的缺陷，一方面是对输出结果的控制力很弱，容易产生随机图像，而AI艺术家的输出应该是稳定的。另外一个问题是生成图像的分辨率比较低。

分辨率的问题还好说，GAN在”创作”这个点上还存在一个死结，这个结恰恰是其自身的核心特点：根据GAN基本架构，判别器要判断产生的图像是否和已经提供给判别器的其他图像是同一个类别的，这就决定了在最好的情况下，输出的图像也就是对现有作品的模仿，而不是创新…………

在对抗生成网络GAN之外，研究人员也开始利用其他种类的深度学习模型来尝试教AI绘画。

一个比较著名的例子是2015年 Google发布的一个图像工具深梦（Deep Dream）。深梦发布了一系列画作，一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展。

三、AI绘画何以突飞猛进

在很多科幻电影或剧集里，往往会有这么一幕，主角和特别有科幻感的电脑AI说了一句话，然后AI生成了一个3D影像，用VR/AR/全息投影的方式呈现在主角面前。

抛开那些酷炫的视觉效果包装，这里的核心能力是，人类用语言输入，然后电脑AI理解人类的表达，生成一个符合要求的图形图像，展示给人类。

仔细一想，这个能力最基础的形式，就是一个AI绘画的概念嘛。（当然，从平面绘画到3D生成还稍有一点距离，但相比于AI凭空创作一幅具象有意义的绘画作品的难度，从2D图自动生成对应的3D模型就不是一个量级上的问题）

所以，无论是用说话控制，还是更玄乎的脑电波控制，科幻影视中的酷炫场景实际上描述了一种AI能力，那就是把”语言描述” 通过AI理解自动变为了图像。目前语音自动识别文本的技术已经成熟至极，所以这本质上就是一个从文本到图像的AI绘画过程。

四、顶级AI绘画模型的PK：Stable Diffusion V.S MidJourney

作者在之前文章里已经介绍了MidJourney这个在线AI作画神器，它最大的优点就是零门槛的交互和非常好的输出结果。创作者无需任何技术背景就能利用基于Discord的MidJourney bot进行对话式绘画创作（恩，当然，全英文）

从输出风格上看，MidJourney非常明显针对人像做了一些优化，用多了后，MidJourney的风格倾向也比较明显（作者在MidJourney上花了数百刀的计算资源尝试了各种主题创作后的第一手感受），说得好听是比较细腻讨巧，或者说，比较油腻一点点。

而Stable Diffusion的作品，就明显的更淡雅一些，更艺术化一些。

哪种风格更好？其实萝卜青菜各有所爱。

因为做过针对性的优化，如要出人像图或者糖水风格美图用MidJourney更方便。但比较了多张作品后，作者认为Stable Diffusion还是明显技高一筹，无论从艺术表达上还是风格变化的多样性上。

不过，MidJourney这几个月的迭代是有目共睹的快（毕竟是付费服务，很赚钱很有动力啊），加上Stable Diffusion的完全开源，预计相关技术优势会很快被吸收进MidJourney。而另一方面，Stable Diffusion模型的训练还在持续进行中，我们可以非常期待，未来版本的Stable Diffusion模型也将百尺竿头更进一步。

对所有的创作者用户而言，这都是天大的好事。

五、AI绘画的突破对人类意味着什么

2022年的AI领域，基于文本生成图像的AI绘画模型是风头无两的主角。从2月份的Disco Diffusion开始，4月 DALL-E 2和MidJourney邀请内测，5月和6月Google发布两大模型Imagen 和Parti（不开放内测只有论文，感觉略水），然后7月底，Stable Diffusion横空出世……

真的让人眼花缭乱。也勿怪作者在上篇文章里感慨，怎么稍不注意AI绘画的水平就突飞猛进到如此地步，事实上，确实就是在这一年半载里，AI绘画发生了革命性的，甚至可以说历史上会留名的突破性进展。

而接下去的时间里，AI绘画，或者更广泛的，AI生成内容领域（图像，声音，视频，3D内容等……）还会发生什么，让人充满了遐想和期待。

但不用等待未来，体验了当下以Stable Diffusion 为代表的最先进AI绘画模型所能触达的艺术高度，我们已经基本可以确认，”想象力”和”创造力”这两个曾经充满着神秘主义的词汇，同时也是人类最后的骄傲，其实也是可以被技术解构的。

对人类灵魂神圣至上说法的拥护者而言，当今AI绘画模型所展现的创造力，是一种对信仰的无情打击。所谓灵感，创造力，想象力，这些充满着神性的词，即将（或者已经）被超级算力+大数据+数学模型的强力组合无情打脸了。

事实上，类似Stable Diffusion这种AI生成模型的一个核心思路，或者说很多深度学习AI模型的核心思路，就是把人类创作的内容，表示为某个高维或者低维数学空间里的一个向量（更简单的理解，一串数字）。如果这个”内容-向量”的转化设计足够合理，那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。而存在于这个无限的数学空间里的其他向量，正是那些理论上人类可能创造，但尚未被创造出来的内容。通过逆向的”向量-内容”的转换，这些还没被创造的内容就被AI挖掘出来了。

这正是目前MidJourney，Stable Diffusion这些最新AI绘画模型所做的事情。 AI可以说是在创作新的内容，也可以说是新绘画作品的搬运工。AI产生的新绘画作品在数学意义上一直客观存在，只是被AI通过很聪明的方式，从数学空间里还原出来，而已。

写在最后

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。
在这里插入图片描述

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述