人工智能绘画的历史

news2024/10/6 10:33:23

        人工智能绘画的起源可以追溯到20世纪50年代。当时,艺术家和科学家开始使用计算机生成图像和图形,将绘画艺术与技术领域相结合。计算机图像可以被视为人工智能绘画的一部分。下面,我们将按照时间顺序来了解人工智能绘画发展的一些关键时间节点。

        (1)在20世纪50年代,电子艺术先驱Ben Laposky使用计算机示波器生成了一幅艺术作品,如图所示。

        (2)在20世纪60年代,艺术家和科学家开始使用计算机的计算能力进行创作。下图是计算机艺术之父Charles Csuri用计算机生成的作品,名为“蜂鸟”。

        (3)在20世纪70—90年代,随着计算机硬件和软件的不断进步,计算机图形学技术取得了重大突破。在这期间,HaroldCohen开发了AARON绘画程序,并在随后的几十年中不断改进和完善,成为人工智能绘画领域的先驱之作。下图为AARON的一件作品。

        (4)在21世纪初,随着深度学习技术的发展,计算机视觉和图像生成算法取得了显著进展,为人工智能绘画提供了新的可能性。在2009年,基于深度学习的艺术风格迁移算法DeepArt发布,使得将某种艺术风格应用于图像成为可能。图为基于DeepArt算法绘制的作品。

        真正意义上的人工智能绘画指的是基于深度学习模型进行自动作图的计算机程序,这种绘画方式的发展在时间上是较晚的。

        (5)在2012年,Google公司的吴恩达(Andrew Ng)和Jef Dean进行了一项实验,使用1.6万个CPU训练一个当时世界上最大的深度学习网络,用于指导计算机绘制猫脸图像。他们使用来自YouTube的1000万幅猫脸图像进行训练,历时3天,最终用得到的模型生成了一幅非常模糊的猫脸图像,如图所示。

        这个模型的训练效率和输出结果对于当时的AI研究领域来说是一次具有突破意义的尝试。它正式开启了支持深度学习模型的人工智能绘画这个全新的研究方向。人工智能科学家们纷纷投入到这个新的具有挑战性的领域中,探索如何利用深度学习技术来生成具有艺术性的图像和绘画作品。这项实验的成功为后续的研究和发展奠定了坚实的基础,并推动了人工智能绘画的进一步发展。

        (6)在2014年,AI学术界提出了一个非常重要的深度学习模型,那就是著名的对抗生成网络(Generative AdversarialNetwork,GAN)。这个深度学习模型的核心理念是通过让两个内部程序,即生成器(generator)和判别器(discriminator), 相互对抗平衡来获得结果。

        生成器的目标是生成逼真的样本,如图像、音频等,而判别器的目标是尽可能准确地区分生成器生成的样本和真实样本。通过不断地进行对抗训练,生成器和判别器相互竞争、学习和提升,最终达到生成高质量样本的目的。

        GAN模型一问世就风靡AI学术界,在多个领域得到了广泛的应用。它也随即成为许多AI绘画模型的基础框架,其中生成器用来生成图像,而判别器用来评估图像质量。GAN模型的引入极大地推动了图像生成、风格迁移等领域的发展,从而推动了AI绘画的发展。图1-9为基于GAN模型的AI绘画作品。

        但是,使用基础的GAN模型进行AI绘画也存在明显的缺陷。一方面,对于输出结果的控制力较弱,往往容易产生随机图像,而AI艺术家的输出应该是稳定可控的。另一方面,生成图像的分辨率较低。

        (7)在2015年,人工智能绘画领域取得了新的突破。Gatys等人提出了著名的神经风格迁移论文,通过将卷积神经网络(CNN)应用于艺术风格迁移,使得人工智能绘画的技术更加成熟。这项研究将艺术风格与内容分离,并利用CNN的特征表示来实现图像的风格迁移。这一方法在艺术创作和图像处理领域引起了广泛的关注和应用,为人工智能绘画的发展带来了重要的进步

        (8)在2015年,Google发布了一个名为深梦(Deep Dream)的图像工具,该工具引起了广泛的关注。深梦通过对图像进行迭代处理,强调和增强图像中的纹理和模式,创造出独特而幻觉般的视觉效果。深梦生成的画作吸引了很多人的注意,谷歌甚至为这些作品策划了一场画展,进一步展示了深梦在艺术领域中的潜力和影响。图为深梦的作品之一《月球时代的白日梦》。

        2018年,Obvious艺术团队利用GAN创作的《肖像:埃德蒙・贝拉米》在佳士得拍卖中以43.25万美元的价格成交。这一事件意味着人工智能绘画正式被认可为一种艺术形式,并得到了市场的承认。这次拍卖成交的高价反映了人工智能绘画作品的独特性和艺术价值,同时也引发了对于人工智能在艺术创作中的探索和潜力的讨论。图为GAN创造的这幅作品。

        (9)2021年年初,OpenAI发布了备受关注的DALL-E系统,这标志着人工智能开始具备一个重要的能力,那就是可以根据文字进行创作。DALL-E系统利用深度学习模型生成图像,并能够根据文字描述来创造出与之对应的图像。这一技术的推出引起了广泛的关注和讨论,为人工智能在创作领域的发展带来了新的可能性。通过输入文字,人工智能可以生成与之相关的图像,这为创意产业和设计领域带来了新的创作工具和思路。图为DALL-E系统创作的作品《戴珍珠耳环的少女》。

        (10)在2021年1月,OpenAI团队开源了他们的深度学习模型CLIP(Contrastive Language-Image Pre-Training,对比文本-图像预训练模型),这是当时最先进的图像分类人工智能模型之一。

        CLIP模型的训练过程可以简单概括为:使用已标注好的“文字-图像”训练数据,分别对文字和图像进行模型训练。通过不断调整两个模型的内部参数,使得模型输出的文字特征值和图像特征值能够准确匹配对应的“文字-图像”关系。CLIP模型与以往的“文字-图像”匹配模型不同,它利用了40亿个“文本-图像”训练数据。这么多的数据和昂贵的训练时间使得CLIP模型终于修成正果。互联网上的图像通常都带有各种文本描述,例如标题、注释、用户标签等,这些文本成为可用的训练样本。通过这种巧妙的方式,CLIP的训练过程完全避免了最昂贵费时的人工标注,或者说,全世界的互联网用户已经提前完成了标注工作。这一创新为图像分类和语义理解领域带来了重要的突破,使得AI能够更好地理解和处理图像与文本之间的关系。

        (11)2022年3月,一个全球范围的非营利机器学习研究机构LAION开放了当前最大规模的开源跨模态数据库LAION-5B。该数据库包含接近60亿(58.5亿)个图像-文本对,可用于训练从文本到图像的生成模型以及用于给文本和图像的匹配程度打分的CLIP模型。这两种模型都是现代AI图像生成的核心。

        LAION不仅提供了大量的训练素材库,还训练AI根据艺术感和视觉美感对LAION-5B中的图像进行评分,并将得分较高的图像归入名为LAION-Aesthetics的子集。实际上,最新的AI绘画模型,包括随后提到的AI绘画Stable Diffusion,都是基于LAION-Aesthetics这个高质量数据集进行训练的。这一数据集的质量和规模为AI绘画领域的研究和发展提供了重要的资源和支持。

        (12)扩散模型的引入为AI绘画领域带来了新的思路,并弥补了GAN模型的一些不足之处。GAN模型是生成对抗网络,它在附加条件方面表现较差。例如,在生成人脸后,很难进一步指定发型、细节等特定要求。为了解决这个问题,扩散模型被提出作为另一种思路。

        扩散模型通过将图像加入高斯噪点形成噪点图,然后通过算法逆过程进行减噪,生成最终的图像。这种模型可以在噪点图的基础上进行操作,通过调整和控制噪点的分布,实现更加精细的图像生成。扩散模型已经成为主流的AI绘画软件的基础,它可以更好地满足用户对于图像的特定要求和细节控制,提供更灵活和个性化的绘画体验。

        (13)Diffusion模型是一种对于像素空间具有巨大算力需求的模型进行优化的方法。传统的扩散模型在像素空间中操作,因此需要大量的计算资源和内存。为了解决这个问题,提出了基于潜在空间的Diffusion模型,通过降低维度来减少计算和内存需求。

        基于潜在空间的Diffusion模型与像素空间模型相比,能够显著降低内存和计算要求。例如,Stable Diffusion模型使用的潜在空间编码缩减因子为8,即将图像的长和宽都缩减8倍,一个512×512像素的图像在潜在空间中直接变为64×64像素,节省了8×8=64倍的内存。

        这种基于潜在空间的优化能够在保持图像质量的同时,大幅度减少计算和内存需求,使得Diffusion模型在实际应用中更加高效和可行。这为AI绘画领域的发展带来了重要的技术突破,使得更多人能够在有限的硬件资源下享受到高质量的AI绘画体验

        (14)在2022年的AI领域,基于文本生成图像的AI绘画模型成为备受关注的主角。其中,Disco Diffusion是一个在2月初开始爆红的AI图像生成程序,它能够根据描述场景的关键词渲染出相应的图像。这个程序的开发者是艺术家兼程序开发员Somnai_dreams。

        Disco Diffusion的独特之处在于它能够通过文字输入描述来生成具有艺术感的图像,并且能够根据关键词准确地渲染出所需的场景。这种技术为艺术创作和设计领域提供了新的可能性,使得艺术家和创作者能够以更直观的方式表达他们的创意和想象。Somnai_dreams作为该程序的开发者,通过结合艺术和技术的力量,为AI绘画领域带来了新的创新和突破。图为Disco Diffusion程序的界面。

        (15)2022年4月,著名人工智能团队OpenAI发布了新一代的模型,名为DALL-E 2.0。该名称来源于著名画家达利Dalí)和电影《机器人总动员》(Wall-E)。同样类似于前一代的DALL-E模型,DALL-E 2.0也具备从文本描述生成效果良好的图像的能力。DALL-E 2.0在继承了前一代模型的基础上进行了改进和优化,以提供更高质量、更多样化的图像生成结果。

        (16)2022年4月,人工智能Midjourney邀请内测。由Midjourney创作的《太空歌剧院》作品一度引起了轰动,并在美国科罗拉多州举办的新兴数字艺术家竞赛中荣获“数字艺术/数字修饰照片”类别的一等奖。《太空歌剧院》的获奖彰显了人工智能在数字艺术领域的潜力和创造力。Midjourney的创作展示了人工智能在图像处理和艺术创作方面的能力。图为Midjourney创作的《太空歌剧院》。

        (17)在2022年的5月和6月,Google发布了两个重要的模型,分别是Imagen和Parti,并开放了相关的论文。Imagen模型和Parti模型都代表了人工智能图像处理领域的前沿技术,它们在图像生成、图像分割、图像处理等方面具有重要的应用价值。Google的开放论文也为学术界和研究人员提供了宝贵的参考和研究资源。

        (18)在2022年的8月,Stable Diffusion模型开源。StableDiffusion是一个重要的AI绘画模型,通过扩散化和潜在空间的技术,实现了高质量图像的生成。该模型的开源使更多的研究人员和开发者能够了解和应用这一先进的AI绘画技术,促进了AI绘画领域的进一步发展和创新。这一开源的举措为艺术家和 创作者提供了更多的工具和资源,推动了AI在艺术创作中的应用和探索。

        (19)2022年8月26日,基于家用GPU的训练模型Dreambooth正式宣布问世。12天后,该模型的开源端口也被公布出来。随后的25天,Dreambooth的训练所需的内存空间降低了整整79%。到了10月8日,Dreambooth已经能够在仅有8GB的GPU上进行训练。这些进展意味着Dreambooth模型在训练过程中对硬件资源的需求大大降低,使更多的个人用户和研究者能够在家用GPU上使用和训练该模型。Dreambooth的出现为AI绘画领域带来了更加便捷和高效的训练方案,推动了AI艺术创作的普及和发展。

        (20)2023年2月,Stable Diffusion基于图像精确控制的ControlNet发布。

         (21)2023年3月,Midjourney v5正式发布。

        (22)2023年5月,著名的图像软件公司Adobe发布了Firefly。

        人工智能绘画(AI绘画)作为一个充满探索和交流氛围的领域,将会在技术的不断发展和应用中不断取得进步。随着人工智能技术的不断成熟和进步,我们可以期待人工智能在艺术领域发挥更加重要的作用。

        人工智能绘画不仅为艺术家和创作者提供了新的工具和资源,还激发了更多的创新和创造力。通过人工智能的算法和模型,我们能够以更加智能和高效的方式进行艺术创作,探索出更多新颖、独特的艺术表达形式。

        未来,人工智能绘画有望在艺术领域带来更多的创新和发展。它将成为艺术家们的合作伙伴和创作工具,为艺术作品注入新的灵感和想象力。我们可以期待在人工智能的帮助下,艺术领域将迎来更多的突破和进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1798485.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算机毕业设计】基于SSM++jsp的在线医疗服务系统【源码+lw+部署文档】

包含论文源码的压缩包较大,请私信或者加我的绿色小软件获取 免责声明:资料部分来源于合法的互联网渠道收集和整理,部分自己学习积累成果,供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。 本人尊重原创作者…

如何快速上手Python,成为一名数据分析师

如何快速上手Python,成为一名数据分析师 成为一名数据分析师需要掌握Python编程语言以及数据分析相关的知识和技能。以下是一些步骤和建议,帮助你快速上手Python并成为一名数据分析师: 学习Python基础知识:首先,你需要…

我找到了全网最低价买服务器的 bug !!!

拍断大腿 周五,放松一下,给大家分享下我最近的事儿,以及带大家薅个(可能会有)的羊毛。 上个月,家里买了 Apple TV(可理解为苹果的电视盒子)装了 infuse(一个在电视盒子上…

(南京观海微电子)——屏幕材质及优缺点对比

LED/LCD LCD(Liquid Crystal Ddisplay)即“液晶显示器”,由两块偏光镜、两块薄膜晶体管以及彩色滤光片、光源(荧光灯)、显示面板组成的成像元器件。 LED(Light Emitting Diode)即“发光二极管…

Excel 交叉表的格转成列,行转成格

Excel里交叉表的左表头是卡车号,上表头是工作,交叉格是工作编号。 ABCD1Truck NumberJob1Job2Job3271592859285928372395859282971473297159282971 要求:将交叉格转为列,左表头转为格。 ABC1297139585928272727137371473715726…

http和https数据传输与协议区分

目录 1. 数据传输安全性2. 端口号3. URL 前缀4. SSL/TLS 证书5. 性能6. SEO 和用户信任7. 应用场景总结 HTTP(HyperText Transfer Protocol)和 HTTPS(HyperText Transfer Protocol Secure)是用于在客户端(如浏览器&…

Linux Mint 默认禁用未经验证的 Flatpak 软件包

Linux Mint 默认禁用未经验证的 Flatpak 软件包 Linux Mint 新政策 Linux Mint 项目宣布了一项新政策,即默认禁用那些未经官方验证的 Flatpak 软件包,以增强用户的安全保障。 当用户选择启用未经验证的 Flatpak 软件包时,Linux Mint 的软…

从零开始手把手Vue3+TypeScript+ElementPlus管理后台项目实战三(引入ElementPlus图标)

步骤 项目中引入ElementPlus图标分3步: 1.安装图标库 pnpm install element-plus/icons-vue2.main.ts导入 import * as ElementPlusIconsVue from "element-plus/icons-vue";const app createApp(App); for (const [key, component] of Object.entri…

gbase 扩容 集群数据同步 主备切换

问题: 问题1磁盘满 1.原本是100G的大小,我们实际还没接入真正业务,昨日空间满了,需要帮忙看下是什么原因导致磁盘满的吗 数据库是每天备份一次,是不是备份的太频繁,还是数据量的问题导致,需要…

IDEA2023.1.4配置springboot项目

新建“Spring Initializr”项目 勾选以下三个依赖项即可。 springboot分为代码层、资源层和测试层。 代码层 根目录:src/main/java 入口启动类及程序的开发目录。在这个目录下进行业务开发、创建实体层、控制器层、数据连接层等。 资源层 根目录:src…

坐实了!“神坛企业”也是草台班子

越接近真相,越觉得荒诞!这次就算删稿也得说两句,KP基于BMC的“可信计算”,正在沦为业内笑柄。戳破那层保护色,施施然端坐神坛的某厂,内里可能也是个草台班子。 近期,网上流传着几页HW给客户洗脑…

Moonshot AI API使用(1)-获取MOONSHOT_API_KEY

Moonshot AI 开放平台 用户注册,使用微信扫码登录 把这个key复制下来

Faster R-CNN:端到端的目标检测网络

本文回顾了由微软研究人员开发的 Faster R-CNN 模型。Faster R-CNN 是一种用于物体检测的深度卷积网络,在用户看来,它是一个单一的、端到端的统一网络。该网络可以准确快速地预测不同物体的位置。为了真正理解 Faster R-CNN,我们还必须快速概…

如何轻松将Android同步到 PC? 【6个最适合你的方法!】

尽管许多Android手机都配备了充足的数据存储空间,但将手机中的重要数据备份到电脑上始终是明智之举,以防止数据丢失。那么,如何将Android手机与电脑同步呢?虽然大多数Android用户可能会使用USB线或蓝牙传输文件到PC,但…

一文了解物联网通信协议之MQTT如何助力无线模块广泛连接

引言:随着物联网技术的飞速发展,无线模块在连接各种智能设备、实现数据交互中扮演着至关重要的角色。为了有效满 足物联网通信的多样化需求,一种轻量级、高效且可靠的消息传输协议显得尤为重要。MQTT(消息队列遥测传输&#xff0…

【论文阅读】MODELING AND SOLVING THE TRAVELING SALESMAN PROBLEM WITH PRIORITY PRIZES

文章目录 论文基本信息摘要1.引言2. INTEGER QUADRATIC PROGRAM FOR TSPPP3. MIXED INTEGER LINEAR PROGRAMS FOR TSPPP4. TABU SEARCH ALGORITHM FOR TSPPP5. COMPUTATIONAL RESULTS6. CONCLUDING REMARKS补充 论文基本信息 《MODELING AND SOLVING THE TRAVELING SALESMAN P…

快速制作技术插图,高效管理零部件手册

在当前的制造业和工程领域中,技术插图对于产品设计、制造、维修和市场营销等环节具有至关重要的作用。然而,传统的插图制作方式往往依赖于人工绘制或使用较为复杂的软件,效率低下,而且容易出错。 由于CAD技术的广泛应用&#xff…

《数字电路》

问答题4*5 在数字电路中,三极管经常工作在哪两种开关状态? 在数字电路中,三极管经常工作在饱和导通状态和截止状态。 时序电路根据输出信号分为哪两类? 时序电路根据输出信号分为莫尔型和米里型两类。 写出三种以上常用的二-十…

消息队列的 6 种经典使用场景和 Kafka 架构设计原理详细解析

今天来聊一聊 Kafka 消息队列的使用场景和核心架构实现原理,帮助你全面了解 Kafka 其内部工作原理和设计理念。。 Apache Kafka 是一个高吞吐量、分布式的流处理平台,广泛应用于实时数据管道和流处理应用中。 Kafka 以其高性能、低延迟、扩展性和可靠性…

基于腾讯云HAI玩转StableDiffusion,告别GPU烦恼

前言 随着人工智能技术的飞速发展,AI已经在各行各业发挥着越来越重要的作用。最近,Stable Diffusion文本生成图片模型作为一种备受瞩目的AI技术,引发了广泛关注。这种模型能够根据用户提供的文本描述,生成与之相对应的高质量图片…