人工智能艺术的简要时间表

一、简述

技术在任何形式的艺术发展中始终发挥着关键作用。从通过化学发明颜色到通过数学发现分形：艺术、文化和技术是无法完全分开的三个维度。

计算机也不例外，它们从一开始就被用来帮助艺术家，常常揭示出我们无法看到的美丽的复杂性。数字和计算艺术领域既复杂又令人着迷，正如它们所使用的技巧和技术一样复杂而令人着迷。

每一项新的尖端技术一旦成为我们日常生活的一部分，就会很快失去这种地位。我们现在认为调色板是理所当然的，常常忽略了我们需要数千人数千年的努力才能确保我们能够拥有今天所拥有的颜料选择。

对于人工智能来说，这也不例外。艺术家每天使用许多人工智能驱动的工具和技术，这些工具和技术已经无缝集成到他们的工作流程中。这就是为什么人工智能艺术这个术语——就像人工智能这个术语本身一样——有些误导性。人工智能现在并将永远成为每个依靠现代技术来创作作品的艺术家作品中不可或缺的一部分。改变的往往是我们愿意考虑的“人工智能”，而不是简单的工艺或工程。

然而，“人工智能艺术”一词目前与一组依赖深度神经网络和机器学习来处理图像和视频的特定技术相关。

二、Deep Dreams (2015)

毫无疑问，人工智能艺术的第一个现代例子就是深度梦想。得益于一篇题为《Inceptionism：深入神经网络》的文章，它们在 2015 年开始流行。他们最初的目的是研究神经网络如何检测图像中的模式。虽然设计了神经网络的架构，但其许多内部工作原理有时很难解读，因为它是称为训练的优化过程的结果。

深梦之所以如此有趣，是因为他们创造了一种新颖而独特的艺术风格，揭示了神经网络（通常被认为是深不可测的“黑匣子”）实际上是如何工作的。

三、神经风格迁移 (2015)

第一个深度梦境的发布使许多研究人员能够研究新技术，借助神经网络，这些技术可以将图像不仅仅是像素的集合。艺术风格的神经算法（A Neural Algorithm of Artistic Style）中描述了一种这样的技术，这篇 2015 年的论文使用卷积神经网络以给定绘画的风格重新绘制图像。这种技术以及所有能够使用神经网络“转移”风格的类似技术现在通常被称为神经风格转移。

该技术的工作原理是找到具有与输入相似的大尺度特征，但具有与我们想要复制的样式相似的小尺度特征的图像。在此过程中，该论文的原作者表达了他们对了解人类创造性过程如何运作的兴趣：“鉴于性能优化的人工神经网络和生物视觉之间的惊人相似之处，我们的工作为通过算法理解人类如何创造和感知艺术图像提供了一条道路。”

原始神经风格迁移技术的一个有趣之处在于，为了“迁移”一种风格，不需要使用相同风格的图像进行训练。这意味着它甚至可以操作从未受过训练或从未见过的绘画。这被称为一次性学习，当人工智能模型达到一定程度的复杂性时，这是可能的。

四、Deepfakes(2017)

2017 年，当所谓的Deepfakes在互联网上流行起来时，围绕人工智能照片编辑的讨论出现了黑暗的转折。虽然该术语最初指的是特定的深度学习技术，但现在它通常用来指代由深度学习和神经网络支持的任何换脸算法。

简而言之，深度换脸能够替换视频中某人的脸部，保留原始表情和语音。第一个发布的逼真示例用于制作名人的成人视频。这引发了有关该技术使用的非常激烈且常常是不诚实的讨论。结果，“deepfake”这个词现在似乎永远被玷污了，并且很少在任何积极的背景下使用。

尽管如此，深度造假以及相关技术在娱乐行业仍具有令人难以置信的潜力。例如，它们可以用来取代演员和替身使用的昂贵的化妆品和假肢，甚至可以自动为其他语言的电影配音。

而且，以一种颇具争议的方式，它甚至可以用来“数字复活”已故演员，以在死后客串。后者在电影行业已经发生过多次——即使没有深度造假——引发了道德和法律方面的担忧。

五、StyleGAN (2018)

另一种在深度学习领域变得越来越流行的技术是生成对抗网络（GAN）。在这种架构中，两个神经网络相互训练：一个神经网络学习生成与训练时相似的图像，另一个学习检测哪些图像是原始图像。经过适当训练后，GAN 会学习创建几乎无法区分的新图像

其中引起媒体关注的第一个用途是StyleGAN ，该技术首次在 2018 年题为“生成对抗网络的基于样式的生成器架构”的论文中提出。StyleGAN 成为头条新闻还得益于出色的“这个人不存在”，该网站每次刷新都会生成一张新人的图片。顾名思义，所有这些高度真实的图像都是使用神经网络生成的，而这些人都不真实存在。

该网站非常成功（而且其性能很容易复制），以至于在短短几周内就出现了许多类似的网站，生成了猫、马、化学品、房屋、兽等等等等。这些架构中的微小变化允许对各个功能进行精细控制。例如，可以转移发型、种族背景，甚至可以将两个人“融合”在一起，如 2019 年题为Image2StyleGAN的论文所示：

传统的视频和图像编辑工具只能将图像视为像素的集合。神经网络具有学习分层语义特征的能力。这使他们能够以传统工具无法做到的方式了解语义结构。简而言之，人工智能工具了解图像内部的内容，并可用于匹配和编辑特征，而不仅仅是像素。

类似的技术也可以应用于肖像以外的主题。例如，CycleGAN 展示了如何执行所谓的图像到图像转换，以交换图像的特定方面。比如把斑马变成马，或者把风景从夏天变成冬天。

六、文本到图像 (2021)

大多数读者可能感兴趣的一项技术是所谓的文本到图像（有时是text2image ）：从简短描述（称为提示）生成图像的可能性。在撰写本文时，公众可以使用多种不同的产品，其中最受欢迎的是：

DALL·E (2021) and DALL·E 2 (2022) by Open.ai
Midjourney (2022)
Stable Diffusion 2 (2022)

其中包括Craiyon（以前称为DALL-E mini）。

这些产品中的每一种都以不同的方式工作，但它们都具有相同的目的：在几秒钟内变出图像：

毫不奇怪，这项新技术的到来有效地划分了受众。一方面，许多人对这些工具提供的新可能性感到欣喜若狂。另一方面，许多艺术家表达了他们对这项技术可能会对他们找到工作的能力产生负面影响的深切担忧。

问题变得更加严重，因为为这些工具提供支持的人工智能模型都是基于从互联网上抓取的大量图像进行训练的。虽然所有使用的数据都可以在互联网上公开获取，但并非全部属于公共领域。事实上，人工智能模型也接受了受版权保护的材料的训练，这引发了一些道德和法律挑战。这是一个非常复杂的主题，将在本文后面进行扩展。

一些人还担心艺术可能会变得只不过是在文本框中写入提示而已。老实说，这是对这项技术的相当幼稚的看法。鉴于目前的方向，人工智能很可能会逐渐在大多数艺术家的工作流程中变得更加重要。但这并不是什么新鲜事，因为技术始终会影响艺术的创作方式。

实际上，当前可用的所有文本到图像工具都基于以下技术之一：变压器和扩散模型。前者用于DALL·E，后者用于DALL·E 2、Midjourney 和Stable Diffusion。

七、ChatGPT (2022)

然而，过去几年最大的革命之一既不是 DALL·E 2，也不是 Midjourney：而是 ChatGPT。名称中的 GPT 代表Generative Pre-training Transformer，是对该应用程序背后的架构和技术类型的回调。ChatGPT 经过不同主题的大量文本训练，并已被证明具有令人难以置信的理解人类语言的能力，在各种不同的任务中表现出色。ChatGPT 有效地通过了图灵测试，这意味着它（通常）与人类几乎没有区别。

聊天 GPT 可以理解复杂的序列，无论其上下文如何。这意味着它不仅可以有效地创建文本，还可以有效地创建音乐和代码。尽管大多数人都在考虑图像，但当提到 AI 艺术时，ChatGPT 提出了与其他基于图像的模型相同的道德挑战和问题。出于这个原因，它值得在本文中提及。

与文本到图像技术相比，ChatGPT（及其竞争对手）可能会改变我们大多数人的工作方式。这是因为它们可以为大多数需要专业知识的流程提供人性化的界面。

OpenAI 首席执行官 Sam Altman 认为 ChatGPT 等工具将对我们的工作方式产生重大影响：这是一个不断发展的世界。我们都会适应，我认为这样会更好。我们不想回去。