AI绘画何以突飞猛进? 从历史到技术突破, 一文读懂火爆的AI绘画发展史

news2024/10/8 22:11:09

前言

自从前段时间偶然间被当下AI绘画的水平震住之后(超越一切的AI作画神器,和它创作的234个盔甲美女未来战士) ,作者深感当今AI绘画的飞速进展或许已远超所有人的预期。 而这里的前因后果,包括AI绘画的历史,以及最近的突破性进展,值得好好和大伙儿梳理和分享一下。 因此有了本文。

本文分为如下几小节:

  1. 2022,进击的AI绘画
  2. AI绘画的历史
  3. AI绘画何以突飞猛进
  4. 顶级AI绘画模型的PK
  5. AI绘画的突破对人类意味着什么

一、2022,进击的AI绘画

今年以来,输入文本描述自动生成图片的AI绘画神器突然雨后春笋的冒了出来。

首先是Disco Diffusion。

Disco Diffusion 是在今年 2 月初开始爆红的一个 AI 图像生成程序,它可以根据描述场景的关键词渲染出对应的图像:

在这里插入图片描述

到了今年4月,著名人工智能团队OpenAI 也发布了新模型 DALL·E 2代,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E),同样支持从文本描述生成效果良好的图像。

在这里插入图片描述

而很多读者对AI绘画开始产生特别的关注,或许是从以下这幅AI作品闹出的新闻开始的:

在这里插入图片描述

这是一幅使用AI绘画服务 MidJourney 生成的数字油画,生成它的用户以这幅画参加美国科罗拉多州博览会的艺术比赛,夺得了第一名。 这件事被曝光之后引发了网络上巨大的争论至今。

目前 AI绘画的技术仍在不断变化发展中,其迭代之快,完全可以用”日新月异”来形容。即使把今年年初的AI绘画和现在相比,效果也有天壤之别。

在年初的时候,用Disco Diffusion可以生成一些很有氛围感的草图,但基本还无法生成人脸; 仅仅2个月后,DALL-E 2已经可以生成准确的五官; 现在,最强大的Stable Diffusion在画作的精致程度和作画速度上更是有了一个量级的变化。

AI绘画这项技术并不是近年才有的,但是今年以来,AI产出作品的质量以肉眼可见的速度日益提升,而效率也从年初的一个小时缩短到现在的十几秒。

在这个变化后面,究竟发生了什么事情?就让我们先全面回顾一下AI绘画的历史,再来理解一下,这一年多来,AI绘画技术足以载入史册的突破发展。

二、AI绘画的历史

AI绘画的出现时间可能比很多人想象的要早。

计算机是上世纪60年代出现的,而就在70年代,一位艺术家,哈罗德·科恩Harold Cohen(画家,加利福尼亚大学圣地亚哥分校的教授) 就开始打造电脑程序”AARON”进行绘画创作。 只是和当下AI绘画输出数字作品有所不同,AARON是真的去控制一个机械臂来作画的。

Harold 对 AARON的改进一直持续了几十年,直到他离世。 在80年代的时候,ARRON”掌握”了三维物体的绘制; 90年代时,AARON能够使用多种颜色进行绘画,据称直到今天,ARRON仍然在创作。

不过,AARON的代码没有开源,所以其作画的细节无从知晓,但可以猜测,ARRON只是以一种复杂的编程方式描述了作者Harold本人对绘画的理解 — 这也是为什么ARRON经过几十年的学习迭代,最后仍然只能产生色彩艳丽的抽象派风格画作,这正是 Harold Cohen 本人的抽象色彩绘画风格。 Harold用了几十年时间,把自己对艺术的理解和表现方式通过程序指导机械臂呈现在了画布上。

在这里插入图片描述

尽管难说AARON如何智能,但作为第一个自动作画且真的在画布上作画的程序,给予它一个AI作画鼻祖的称号,倒也符合其身份。

2006年,出现了一个类似ARRON的电脑绘画产品 The Painting Fool。 它可以观察照片,提取照片里的块颜色信息,使用现实中的绘画材料如油漆,粉彩或者和铅笔等进行创作。

以上这两个例子算是比较”古典”方式的电脑自动绘画,有点像一个学步的婴儿,有一点样子,但从智能化的角度来看是相当初级的。

而现在,我们所说的”AI绘画”概念,更多指的是基于深度学习模型来进行自动作图的计算机程序。 这个绘画方式的发展其实是比较晚的。

在2012年 Google两位大名鼎鼎的AI大神,吴恩达和Jef Dean进行了一场空前的试验,联手使用1。6万个CPU训练了一个当时世界上最大的深度学习网络,用来指导计算机画出猫脸图片。 当时他们使用了来自youtube的1000万个猫脸图片,1。6万个CPU整整训练了3天,最终得到的模型,令人振奋的可以生成一个非常模糊的猫脸。

在今天看起来,这个模型的训练效率和输出结果都不值一提。 但对于当时的AI研究领域,这是一次具有突破意义的尝试,正式开启了深度学习模型支持的AI绘画这个”全新”研究方向。

在这里我们稍微讲一点技术细节: 基于深度学习模型的AI绘画究竟有多麻烦呢,为什么2012年已经很现代水平的大规模计算机集群耗时多天的训练只能得出一点可怜的结果?

读者们或许有个基本概念,深度学习模型的训练简单说来就是利用外部大量标注好的训练数据输入,根据输入和所对应的预期输出,反复调整模型内部参数加以匹配的过程。

那么让AI学会绘画的过程,就是构建已有画作的训练数据,输入AI模型进行参数迭代调整的过程。

一幅画带有多少信息呢?首先就是长x宽个RGB像素点。 让计算机学绘画,最简单的出发点是得到一个输出有规律像素组合的AI模型。

但RGB像素组合一起的并非都是画作,也可能只是噪点。 一副纹理丰富,笔触自然的画作有很多笔画完成,涉及绘画中每一笔的位置,形状,颜色等多个方面的参数,这里涉及到的参数组合是非常庞大的。 而深度模型训练的计算复杂度随着参数输入组合的增长而急剧增长…… 大家可以理解这个事情为啥不简单了。

在吴恩达和Jeff Dean开创性的猫脸生成模型之后,AI科学家们开始前赴后继投入到这个新的挑战性领域里。 在2014年,AI学术界提出了一个非常重要的深度学习模型,这就是大名鼎鼎的对抗生成网络GAN(Generative Adverserial Network,GAN)。

正如同其名字”对抗生成”,这个深度学习模型的核心理念是让两个内部程序 “生成器(generator)” 和“判别器(discriminator)”互相PK平衡之后得到结果。

GAN模型一问世就风靡AI学术界,在多个领域得到了广泛的应用。 它也随即成为了很多AI绘画模型的基础框架,其中生成器用来生成图片,而判别器用来判断图片质量。 GAN的出现大大推动了AI绘画的发展。

但是,用基础的GAN模型进行AI绘画也有比较明显的缺陷,一方面是对输出结果的控制力很弱,容易产生随机图像,而AI艺术家的输出应该是稳定的。 另外一个问题是生成图像的分辨率比较低。

分辨率的问题还好说,GAN在”创作”这个点上还存在一个死结,这个结恰恰是其自身的核心特点: 根据GAN基本架构,判别器要判断产生的图像是否和已经提供给判别器的其他图像是同一个类别的,这就决定了在最好的情况下,输出的图像也就是对现有作品的模仿,而不是创新…………

在对抗生成网络GAN之外,研究人员也开始利用其他种类的深度学习模型来尝试教AI绘画。

一个比较著名的例子是2015年 Google发布的一个图像工具深梦(Deep Dream)。 深梦发布了一系列画作,一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展。

在这里插入图片描述

三、AI绘画何以突飞猛进

在很多科幻电影或剧集里,往往会有这么一幕,主角和特别有科幻感的电脑AI说了一句话,然后AI生成了一个3D影像,用VR/AR/全息投影的方式呈现在主角面前。

抛开那些酷炫的视觉效果包装,这里的核心能力是,人类用语言输入,然后电脑AI理解人类的表达,生成一个符合要求的图形图像,展示给人类。

仔细一想,这个能力最基础的形式,就是一个AI绘画的概念嘛。(当然,从平面绘画到3D生成还稍有一点距离,但相比于AI凭空创作一幅具象有意义的绘画作品的难度,从2D图自动生成对应的3D模型就不是一个量级上的问题)

所以,无论是用说话控制,还是更玄乎的脑电波控制,科幻影视中的酷炫场景实际上描述了一种AI能力 ,那就是把”语言描述” 通过AI理解自动变为了图像。 目前语音自动识别文本的技术已经成熟至极,所以这本质上就是一个从文本到图像的AI绘画过程。

四、顶级AI绘画模型的PK:Stable Diffusion V.S MidJourney

作者在之前文章里已经介绍了MidJourney这个在线AI作画神器,它最大的优点就是零门槛的交互和非常好的输出结果。创作者无需任何技术背景就能利用基于Discord的MidJourney bot进行对话式绘画创作(恩,当然,全英文)

从输出风格上看,MidJourney非常明显针对人像做了一些优化,用多了后,MidJourney的风格倾向也比较明显(作者在MidJourney上花了数百刀的计算资源尝试了各种主题创作后的第一手感受),说得好听是比较细腻讨巧,或者说,比较油腻一点点。

而Stable Diffusion的作品,就明显的更淡雅一些,更艺术化一些。

哪种风格更好?其实萝卜青菜各有所爱。

因为做过针对性的优化,如要出人像图或者糖水风格美图用MidJourney更方便。 但比较了多张作品后,作者认为Stable Diffusion还是明显技高一筹,无论从艺术表达上还是风格变化的多样性上。

不过,MidJourney这几个月的迭代是有目共睹的快(毕竟是付费服务,很赚钱很有动力啊),加上Stable Diffusion的完全开源,预计相关技术优势会很快被吸收进MidJourney。 而另一方面,Stable Diffusion模型的训练还在持续进行中,我们可以非常期待,未来版本的Stable Diffusion模型也将百尺竿头更进一步。

对所有的创作者用户而言,这都是天大的好事。

五、AI绘画的突破对人类意味着什么

2022年的AI领域,基于文本生成图像的AI绘画模型是风头无两的主角。 从2月份的Disco Diffusion开始,4月 DALL-E 2和MidJourney邀请内测,5月和6月Google发布两大模型Imagen 和Parti(不开放内测只有论文,感觉略水),然后7月底,Stable Diffusion横空出世……

真的让人眼花缭乱。 也勿怪作者在上篇文章里感慨,怎么稍不注意AI绘画的水平就突飞猛进到如此地步,事实上,确实就是在这一年半载里,AI绘画发生了革命性的,甚至可以说历史上会留名的突破性进展。

而接下去的时间里,AI绘画,或者更广泛的,AI生成内容领域(图像,声音,视频,3D内容等……)还会发生什么,让人充满了遐想和期待。

但不用等待未来,体验了当下以Stable Diffusion 为代表的最先进AI绘画模型所能触达的艺术高度,我们已经基本可以确认,”想象力”和”创造力”这两个曾经充满着神秘主义的词汇,同时也是人类最后的骄傲,其实也是可以被技术解构的。

对人类灵魂神圣至上说法的拥护者而言,当今AI绘画模型所展现的创造力,是一种对信仰的无情打击。 所谓灵感,创造力,想象力,这些充满着神性的词,即将(或者已经)被超级算力+大数据+数学模型的强力组合无情打脸了。

事实上,类似Stable Diffusion这种AI生成模型的一个核心思路,或者说很多深度学习AI模型的核心思路,就是把人类创作的内容,表示为某个高维或者低维数学空间里的一个向量(更简单的理解,一串数字)。 如果这个”内容-向量”的转化设计足够合理,那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。 而存在于这个无限的数学空间里的其他向量,正是那些理论上人类可能创造,但尚未被创造出来的内容。 通过逆向的”向量-内容”的转换,这些还没被创造的内容就被AI挖掘出来了。

这正是目前MidJourney,Stable Diffusion这些最新AI绘画模型所做的事情。 AI可以说是在创作新的内容,也可以说是新绘画作品的搬运工。AI产生的新绘画作品在数学意义上一直客观存在,只是被AI通过很聪明的方式,从数学空间里还原出来,而已。

写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
在这里插入图片描述

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1917706.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

科研人必备!6个AI学术论文写作好帮手

人们都说一个新的人工智能时代已经到来,很多工作都将被这类机器人取代。不可否认的是,在学术界,有了 AI,科学研究人员将可以有更多时间专注在更有意义的任务上。科研人员可以利用 AI 工具分析大量数据、识别模式、做出决策&#x…

stm32h743 阿波罗v2 NetXduo http server CubeIDE+CubeMX

在这边要设置mpu的大小,要用到http server,mpu得设置的大一些 我是这么设置的,做一个参考 同样,在FLASH.ld里面也要对应修改,SECTIONS里增加.tcp_sec和 .nx_data两个区,我们用ram_d2区域去做网络&#xff…

电商IP分类及其应用是什么?

在现代电商运营中,IP地址不仅是网络通信的基础,也扮演着关键的角色,支持多种功能和应用场景。本文将介绍几种常见的电商IP分类,以及它们在电商领域中的具体应用。 1. 前台IP与后台IP 电商网站在运营过程中通常需要区分前台IP和后…

机器学习——L1 L2 范数 —>L1 L2正则化

1、L1范数和L2范数是机器学习和数据分析中经常使用的两种范数,它们之间存在多个方面的区别。 以下是关于L1范数和L2范数区别的详细解释: 一、定义差异 L1范数:也被称为曼哈顿范数,是向量元素的绝对值之和。对于一个n维向量x&am…

全网最全,保姆级Stable Diffusion系列入门使用教程(图生图、LoRA、提示词权重),建议收藏!

大家好,我是画画的小强 今天将给大家讲解 Stable Diffusion 入门使用教程的 图生图、LoRA和提示词权重的教程,如果你还没有使用或者安装SD,那么可以看看我的往期入门教程AI绘画『Stable Diffusion』面向小白的免费AI绘画工具:解压…

技术开发分享:商品详情APP原数据实时接口代码解析

商品详情app端原数据实时接口代码解析主要包括以下几个步骤: 获取商品ID:首先需要从淘宝的分享链接中提取商品ID,可以通过正则表达式匹配的方式获取。 构建请求URL:根据商品ID构建请求URL,通常包括淘宝的商品详情API地…

SAP HCM 如何知道标准程序有自定义增强代码 Configure Debugger Layer

导读 INTRODUCTION Configure Debugger Layer :今天分享下我在处理HCM业务中,如何通过debug的Configure Debugger Layer找到标准程序中的客制化的代码?也许在网上查看到很多找badi的方法或者其他的办法,但是这些办法比较繁琐&…

电脑数据恢复篇:如何从电脑中恢复已删除的照片

按下 Shift Delete 后后悔了?想要恢复已删除的照片?好吧,如果是这样的话,你来对地方了。在本文中,我们将讨论如何从 PC 中恢复已删除的文件。 自从摄影的概念被提出以来,人们就对它着迷。以前&#xff0c…

Windows下载及安装OpenSSL

文章目录 前言一、OpenSSL下载二、OpenSSL安装1.双击下载好的安装包2.选择【I accept the agreement】→ 点击【Next】3.选择OpenSSL安装的位置 → 点击【Next】4.点击【Next】5.点击【Next】6.点击【Install】安装OpenSSL7.等待安装8.取消勾选 → 点击【Finish】完成安装 三、…

优思学院|流水线生产为什么不是最高效的?

谈到工厂的生产模式,人们印象中可能会浮现出长长的流水线和密集的作业人员。在传统的大规模生产装配线上确实如此,强调的是标准化大规模生产,采用专职分工方式,生产线上的作业人员只做同一个简单的动作,以达到降低成本…

SSL 证书错误:如何修复以及错误发生的原因

SSL证书可以提升网站的可信度。然而,如果您的SSL证书出现错误,您可能会得到一个“不安全”的标签,这可能会导致访问者失去对您网站的信任并转向竞争对手。 本文将介绍SSL证书错误的原因及其对用户的潜在影响。随后,我们将提供详细…

实验7 数据查询(2)

一、实验目的 学习SQL语言的定义、操纵功能熟悉通过SQL语言对数据库进行查询操作,包括单表查询、多表查询、嵌套查询、集合查询 二、实验软件 MySQL三、实验内容和要求 给定四个关联表,其定义和数据加载如下: 学生表 Student create tab…

【信创国产化】Nacos 2.3.2连接达梦数据库

JeecgBoot 目前提供的nacos版本号 2.3.2已经支持与达梦数据库对接。 jeecg-boot/jeecg-server-cloud/jeecg-cloud-nacos项目默认加入了达梦驱动和yml配置。如果你是老代码,可以参考下面的步骤手工集成 项目地址:https://github.com/jeecgboot/JeecgBoot…

【文科类cpci/cnki会议,主题广泛】第九届现代管理、教育与社会科学国际学术会议(MMET2024)

会议信息 点击跳转会议官网(更多会议信息可添加会议官网下方负责老师-杨老师) 大会时间:2024年09月20-22日 大会地点:中国-厦门 提交检索:CPCI,CNKI (知网检索快速稳定) 点击一键投稿 点击一键参会&a…

各向异性含水层中地下水三维流基本微分方程的推导(二)

各向异性含水层中地下水三维流基本微分方程的推导 参考文献: [1] 刘欣怡,付小莉.论连续性方程的推导及几种形式转换的方法[J].力学与实践,2023,45(02):469-474. 书接上回: 我们能得到三个方向的流入流出平衡方程: ∂ ρ u x ∂ x d x d y d…

入门PHP就来我这(高级)22 ~ 七天免登录案例

有胆量你就来跟着路老师卷起来! -- 纯干货,技术知识分享 路老师给大家分享PHP语言的知识了,旨在想让大家入门PHP,并深入了解PHP语言。 上文讲述了cookie的概念,创建,获取,销毁以及生命周期后&am…

java设计模式(十五)命令模式(Command Pattern)

1、模式介绍: 命令模式(Command Pattern)是一种行为设计模式,其主要目的是将请求封装成一个对象,从而允许使用不同的请求、队列或者日志来参数化其他对象。这种模式使得命令的请求者和实现者解耦。 2、应用场景&…

王道计算机数据结构+插入排序、冒泡排序、希尔排序、快速排序、简单选择排序

本内容是基于王道计算机数据结构的插入排序、冒泡排序、希尔排序、快速排序、简单选择排序整理。 文章目录 插入排序算法性能代码 冒泡排序算法性能代码 希尔排序算法性能代码 快速排序算法性能代码 简单选择排序算法性能代码 插入排序 算法 算法思想:每次将一个…

谷歌报告显示:2023 年 50% 的0day漏洞利用背后都是间谍软件供应商

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 导 读 谷歌威胁分析小组 (TAG) 和谷歌子公司 Mandiant 表示,他们观察到 2023 年攻击中利用的0day漏洞…

骑行耳机有哪些品牌值得入手?盘点5大品质与口碑兼顾的耳机推荐!

骨传导耳机凭借卓越的骑行兼容性,赢得了众多骑行爱好者的青睐,然而,关于骨传导耳机导致佩戴不适或影响骑行安全的反馈却屡见不鲜。这一看似矛盾的现象,实则源于市场被众多非专业骨传导耳机品牌充斥,尤其是一些标榜专为…