进击的 AI 生成,创造性的新世界!

news2024/11/29 8:54:00

2022年,AI艺术生成文本生成图像的AI绘画生成器如雨后春笋般涌现,以一幅幅“不明觉厉”的AI作品进入大众视野。从2月Disco Diffusion爆火,仅两个月后OpenAI发布DALL-E 2,谷歌和Meta紧随其后宣布了各自的AI”画家“Imagen和Make-A-Scene,再到7月MidJourney向公众付费开放,8月Stable Diffusion横空出世,AI绘画模型掀起了“人人都是艺术家”的一个个热潮。随之而来的视频生成AI模型更是让“人人都能是导演”。

进击的 AI 生成艺术|盘点大佬们的 AI 绘画/3D 模型/AI 视频作品!

文本-图像AI

由于其开源属性,以及突飞猛进的”艺术造诣”,Disco Diffusion最先引发了全民作画的热潮。只要输入文字提示(prompt),就能让AI输出它所理解的对应图像。虽然出图速度慢,在细节处理方面也比较抱歉,尤其是人脸生成,不过图片整体效果较为惊艳、氛围感强(更适合抽象艺术)。

在矩池云上生成的DD图片

在矩池云上生成的DD图片

相较于DD的”不拘小节“,OpenAI的DALL-E 2在细节方面拿捏比较到位,生成的图像比较精准逼真,而且作画速度提高了不少,为图像生成领域立了新的标杆。另外,DALL-E 2能对所生成的图像进行二次编辑。早期OpenAI只邀请了部分用户进行内测并且限制绘图次数,不过近期已全面开放所有人使用(中国地区账号暂不支持)。

Prompt: “a painting of a fox sitting in a field at sunrise in the style of Claude Monet”

Prompt: “a painting of a fox sitting in a field at sunrise in the style of Claude Mone

来源: https://openai.com/dall-e-2/

对标OpenAI的DALL-E 2,谷歌推出的Imagen声称提供了“前所未有的照片真实感和深度语言理解”。在为不同对象分配颜色、带引号文本、对象位置关系方面,Imagen表现似乎更优。不过,该模型未开放,谷歌给出的解释是:“系统太危险了,不能发布”。

同期还有另一科技巨头Meta的Make-a-scene,它的创新在于”交互+可控“,重点是用户控制。通过文本描述,再加上一张草图,让AI有针对性地生成图像。目前,只有部分艺术家受邀进行了使用。

图片描述

而引发更多人关注AI绘画的是使用Midjourney生成的一副油画——

Théâtre d'Opéra Spatial(《太空歌剧院》)

这幅使用MidJourney 生成的数字油画在美国科罗拉多州博览会(Colorado State Fair)的艺术比赛中夺得了第一名。这一新闻被报道后引发了圈内外的广泛讨论。

Midjourney也是不负众望,综合能力比较全面,图像生成速度极快,很多艺术家会借助Midjourney作为创作灵感。另外,因为 Midjourney 搭载在 Discord 频道上,所以有非常良好的社区讨论环境和用户基础。不过,表现不俗、简单上手也意味着Midjourney需要付费使用。

AI绘画模型模型是否开源生成速度生成内容限制运行设备
Disco DiffusionCLIP+Diffusion开源分/时无限制>显存10G,Nvidia 1080ti级别
DALL-E 2CLIP+改进版GLIDE(Diffusion模型的一种)部分开源秒/分无法生成暴力、裸体或真实面孔的图像/
Stable DiffusionLatent Diffusion开源秒/分无限制>显存6G,RTX 2060级别

“三代”AI绘画模型对比

紧接着,“更上一层楼”的Stable Diffusion来了。Stable Diffusion不仅开源免费,上手还足够简单,出图速度也极快,图片效果更为精准写实,掀起了AI绘画的又一个高潮。

在矩池云上生成的SD图片

在矩池云上生成的SD图片

在AI绘画模型“墙外开花”的同时,这股浪潮也席卷了国内,百度等科技巨头以及一大批艺术、AI从业者和爱好者也不甘其后,纷纷发布文本输入生成图像的国产AI绘画产品文心一格(暂时免费)、6pen(部分免费)、MuseArt(付费+看广告)、盗梦师(免费次数+付费微信小程序)等等。

文本-视频AI

当我们还在鉴赏(挑刺)AI生成的图像时,“下笔生花”的算法研究员们早已不满足于二维创作/图像生成,在三维甚至视频生成这一赛道上,大家也在摩拳擦掌……

Google Research的DreamFusion模型,可以通过输入简单的文本提示生成3D模型,甚至可以把生成的多个3D模型融合到一个场景里。

清华大学和智源研究院早在今年5月发布了基于Transformer的AI生成模型CogVideo,能够根据文本直接合成视频。

9月29日,Meta发布了基于AI的短视频生成模型Make-A-Video,是对其Make-A-Scene文本到图像工具的升级,可以通过文本提示生成新的视频内容。

仅一周后,谷歌接连发布了两个AI生成视频模型——Imagen Video和Phenaki。和Meta的Make-A-Video相比,谷歌的Imagen Video更高清,能生成1280*768分辨率、每秒24帧的视频片段。

Phenaki则能根据200个词左右的提示语生成2分钟以上的长镜头,就是说,人人都能是”导演”了。Phenaki还可以任意切换视频风格,高清视频或卡通。

在视频风格转换方面,几天前来自新加坡南洋理工大学的研究团队发布了一个能够进行可控高分辨率人像视频风格转换的框架——VToonify。基于StyleGAN的VToonify满足了很多人在短视频平台上使用卡通形象录制视频的需求,可以实现对人像进行高度可调的卡通风格切换。

AI生成技术的迭代

图片描述

AI生成图像的表现越来越出色,得益于深度学习模型的快速迭代。2012年,AI大牛吴恩达和Jeff Dean等人通过1000台电脑创造出多达10亿个连接的“神经网络”,基于上千万张猫脸图片进行训练后,最终生成了一个模糊的猫脸,这意味着机器自主学会了识别猫脸。

在这一开创性猫脸生成实验后,AI科学家们在图像生成方向上继续摸索。两年后大名鼎鼎的对抗生成网络GANs诞生,它通过生成器和判别器两者的互相对抗不断提升生成能力。自此,AI生成领域主要基于GANs进行了不断的尝试。

彼时,AI绘画还无法实现通过文字输入提示(prompt)进行图像生成。
直到2021年,OpenAI发布了一个新的深度学习模型CLIP(Contrastive Language-Image Pre-Training),实现了图像与文本的匹配。CLIP基于大规模图文数据集进行了对比学习训练,学习给定文本片段与图像的关联。也就是说,CLIP并不是试图预测给定图像的对应文字说明,而是只学习任何给定文本与图像之间的关联。好的,自然语言和视觉任务的跨界界限自此被CLIP打破!

生成式AI会让艺术家们失业吗

而每当技术爆炸迭代到令人瞠目结舌的地步,“人类会不会被机器取代”这一永恒命题又悄然而至——AI会让艺术家们失业吗?AI会冲击短视频行业吗?

就像其他职业的AI威胁论一样,AI取代部分机械重复性较高的工作可能不可避免,但天马行空的想象力和四季三餐的情感共鸣对于AI来说想得而不可得。正如Midjourney创始人David Holz评论AI绘画,

“汽车比人的速度快,但这并不意味着我们不再行走。远距离移动大量物体时,我们需要用到发动机,无论是飞机、轮船还是汽车。我们认为AI绘画技术就是想象力的引擎。”

参考链接

AI绘画何以突飞猛进? 从历史到技术突破, 一文读懂火爆的AI绘画发展史

https://github.com/OpenAI/CLIP

What are Diffusion Models? | Lil'Log

Meta’s new text-to-video AI generator is like DALL-E for video - The Verge

An interview with David Holz, CEO of AI image-generator Midjourney: it’s ‘an engine for the imagination’ - The Verge

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/142446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

尚医通-排班规则接口-排班详情接口-前端整合(二十五)

目录: (1)医院排班-排班规则接口 (2)医院排班-排班规则-前端整合 (3)医院排班-排班详情接口 (4)医院排班-排班详情前端整合 (1)医院排班-排班…

一文分析Linux虚拟化KVM-Qemu分析之内存虚拟化

说明: KVM版本:5.9.1QEMU版本:5.0.0工具:Source Insight 3.5, Visio 1. 概述 深入分析Linux虚拟化KVM-Qemu之ARMv8虚拟化文中描述过内存虚拟化大体框架,再来回顾一下: 非虚拟化下的内存的访问…

剑指 Offer 07. 重建二叉树

剑指 Offer 07. 重建二叉树 一、题目 输入某二叉树的前序遍历和中序遍历的结果,请构建该二叉树并返回其根节点。 假设输入的前序遍历和中序遍历的结果中都不含重复的数字。 Input: preorder [3,9,20,15,7], inorder [9,3,15,20,7] Output: [3,9,20,null,null,1…

ansible第三天作业

1.挂载本地光盘到/mnt 2.配置yum源仓库文件通过多种方式实现 仓库1 : Name: RH294_Base Description: RH294 base software Base urt: file:///mnt/BaseOS 不需要验证钦件包 GPG 签名 启用此软件仓库 仓库 2: Name: RH294_Stream Description …

QGIS编译---QGIS3.22.4 + Qt5.15.3 + VS2019 ---64位版本

0 编译结果 先放上编译结果: 图1 QGIS3.22 启动界面 图2 QGIS3.22 操作界面 1 前言 因一些主观、客观原因,一年多没更新博客了,提笔继续。 这是笔者编译的第三个版本QGIS,本次编译原因有四: (1&#xff…

05-微服务调用组件FeignDubbo实战

JAVA 项目中如何实现接口调用 1)Httpclient HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 Http 协议的客户端编程工具包,并且它支持 HTTP 协议最新版本和建议。HttpClient 相比传统 JDK 自带的UR…

Neo4j图数据库实现节点批量删除

1 前言 1-1 简介 由于对图数据库需要经常维护,图数据库建设初期,需要经常对数据写入删除等操作。 1-2 任务背景 再将1100万数据写入Neo4j后,由于需要对每个实体的label做精细化处理,之前写入的时候每个实体的label全部都为‘Comm…

Webhook端口使用介绍与演示

在API接口调用的集成项目中,用户调用知行之桥的API接口以给EDI系统推送数据时,经常会有这样的疑问:怎样查看是否调用接口成功?怎样查看数据是否推送成功?推送之后用户端会有怎样的响应提示? 为满足以上问题…

个人资料、消息、书签和偏好设置 干货 | 环境问题还是测试的老大难?两个步骤轻松搞定

在实际的工作中,绝大部分公司都至少有3个以上的环境,供测试与研发人员使用。测试人员不可能为每个环境都准备一个自动化测试的脚本,这样的维护成本太过庞大。所以就需要做到一套脚本,可以在各个环境上面运行。首先在上一节提到过的…

并发编程——7.共享模型之工具

目录7.共享模型之工具7.1.线程池7.1.1.自定义线程池7.1.2.ThreadPoolExecutor7.1.2.1.线程池状态7.1.2.2.构造方法7.1.2.3.newFixedThreadPool7.1.2.4.newCachedThreadPool7.1.2.5.newSingleThreadExecutor7.1.2.6.提交任务7.1.2.7.关闭线程池7.1.2.9.异步模式之工作线程7.1.2.…

python之字符串分割

str.split() 是 Python 中字符串类型的一个方法,可以用来将字符串按照指定的分隔符分割成多个子字符串。 例如,如果你有一个字符串 ‘a,b,c,d’,你可以这样分割它: >>> a,b,c,d.split(,) [a, b, c, d]这会将字符串按照…

Web API的方法论及实践

文章目录前言基本原则构建步骤API 实践商品呈现初始的设计个性化,千人千面 & 可视化超前的设计监控遗漏的监控业务服务效率是第一生产力业务服务API样例服务配置ClientInfo“用完即走”的业务服务一个周末的辛劳无数个喝咖啡的悠闲时光总结参考资料前言 对于网…

EMQX+阿里云飞天洛神云网络 NLB:MQTT 消息亿级并发、千万级吞吐性能达成

随着物联网技术的发展与各行业数字化进程的推进,全球物联网设备连接规模与日俱增。一个可靠高效的物联网系统需要具备高并发、大吞吐、低时延的数据处理能力,支撑海量物联网数据的接入与分析,从而进一步挖掘数据价值。 于今年五月发布的 EMQ…

Java后端知识之代码混淆-避免反编译工具获取原码

java, 代码混淆, 编译, 反编译本文是向大家介绍java后端小知识,它能够实现编译后的class代码加密,能够避免使用反编译工具获取源码。本文介绍java代码编译成class后,怎么避免用反编译工具获取源码。编译简单先看一下java源码反编译就是针对编…

MCU-51:单片机蜂鸣器播放孤勇者

目录一、蜂鸣器介绍二、驱动电路2.1 三极管驱动2.2 集成电路驱动三、蜂鸣器播放音乐3.1 键盘与音符对照3.2 音符与频率对照四、孤勇者乐谱五、代码演示前面学习了 MCU-51:单片机蜂鸣器播放音乐和提示音我们知道了可以用51单片机播放乐谱今天我们用51单片机播放 孤勇…

修改NuGet包默认存放位置

默认情况下,NuGet下载的包存放在系统盘(C盘中),这样一来,时间长了下载的包越多,C盘占用的空间也就越多。 1、问题描述 默认情况下,NuGet下载的包存放在系统盘(C盘中,一般在路径C:\Users\用户\.nuget\packag…

让人意外,iPhone15将增加中国制造的比例,苹果再回头

业界人士指出苹果的iPhone15将会分单给中国代工商,屏幕、镜头玻璃等也会增加给中国厂商的比例,这是在业界传闻苹果试图摆脱中国制造之后的好消息,显示出苹果仍然需要中国制造。一、iPhone15加大中国制造比例据悉iPhone15 Pro max将会有部分订…

【20230105】pip pip3 替换国内镜像源

1 存在问题 在使用默认pip3安装库时,出现超时情况。 pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host‘files.pythonhosted.org’, port443): Read timed out. 2 国内的pip源 阿里云:https://mirrors.aliyun.com/pypi/sim…

k8s之使用yaml创建pod

写在前面 本文一起看下如何通过声明式的yaml文件来创建pod。 1:命令式和声明式 命令式就是具体告诉计算机做什么,比如我们写的Java代码,Dockerfile定义FROM,COPY,CMD,RUN,Expose等语句&#…

CVE-2017-12615 Tomcat PUT方法任意写文件漏洞复现

今天继续给大家介绍渗透测试相关知识,本文主要内容是CVE-2017-12615 Tomcat PUT方法任意写文件漏洞复现。 免责声明: 本文所介绍的内容仅做学习交流使用,严禁利用文中技术进行非法行为,否则造成一切严重后果自负! 再次…