全面了解三大 AI 绘画:Midjourney、Stable Diffusion、DALL·E 的区别和特点

news2024/11/24 12:52:52

大家好,我是设计师阿威

在当前,比较流行的 AI 绘画软件主要有三个,分别是:StabilityAI 公司的 Stable Diffusion,OpenAI 公司的 DALL·E2,以及更为大众所熟知的,Leap Motion公司创始人 David Holz 携十一人团队创建的 Midjourney。

它们各自有各自的特点以及适用场景,接下来我们一一来介绍一下。

(提示词:ditorial Style photo Mid-range Classic Clothing 35 Asian Full-body shot Dior Cotton, Silk High Pastel Colors Romantic and Elegant Studio Lighting Elegant Mansion Evening Sophisticated --v 5.2)

01、Midjourney

首先是 Midjourney。Midjourney 广为大众所熟知,是从今年 3 月份一张广州情侣的照片开始的。就是下面这张,相信很多人都看过这个新闻。大家都以为这是一张真人照片,但实际是由 AI 生成的,使用的就是 Midjourney V5。

还有后来美国人整蛊的,川普被捕的图片,也都是出自 Midjourney 之手。

在三大绘画中,如果仅仅评价文生图的质量,midjourney 毫无疑问是最好的。而且 Midjourney 的上手门槛是最低的,普通人不需要经过特别严格的训练,就可以生成相当漂亮好看的图片。

但 Midjourney 的缺点也很明显,那就是其发散性相当大,虽然生成的图片非常好看清晰,但是如果你想精确控制图片的内容,往往是相当困难的。也就是说,Midjourney 介入绘画相当深。虽然可以通过参数–s设置其艺术加工的程度,但是对于一些专业领域的场景,比如给定一个毛坯房照片生成装修图,或者给定线稿生图,生成的图片总是与参考图是有一些差异的。这是 Midjourney 的缺点。

这与 Midjourney 自身的定位有关。Midjourney 的定位就是一款大众化的文生图模型,所以其易用性,通用性,上手门槛是最低的。像这种高级、复杂、定制的需求场景,需要使用更加专业的工具来实现。比如 Stable Diffusion。


02、Stable Diffusion

Stable Diffusion 的概念非常复杂。(SD安装包和安装教程请看我往期入门教程或扫描获取哦)

同 Midjourney 不同的是,Stable Diffusion是一个开源模型。也就是说,我们可以下载或者看到其完整源代码,并部署在本地个人电脑上(对显卡和显存有一定要求)。

当然,StabilityAI 公司也做了一个公有服务,可以免部署直接使用。当然也是收费的。所以,当我们说起 SD 的时候,需要明白我们说的是公有云版,还是私有部署版,他们区别相当大,几乎不是一回事。

这其中主要在于模型的区别。当我们讨论 Midjourney 的时候,我们不需要太关注模型这个概念,这也是它简单的地方。但当我们讨论 Stable Diffusion 的时候,其实我们主要是在讨论模型。

Stable Diffusion 的模型分为基础(base)模型和定制化(fine-tuned)模型。基础模型,就是公有服务上提供的那些,也可以称之为“通用模型”,如:

顾名思义,既然是“通用模型”,那必然是没有什么特点。事实上,在 SDXL1.0 模型出来之前,使用通用模型,在没有任何调教的情况下,画出的画,质量是不高的。

那么我们如何画出好看的画?小某书和网上那些好看的图片又是如何画出来的?不也是用的 Stable Diffusion 么?

答案就是:用定制化模型。定制化模型是在以上那些通用模型的基础上,通过添加特定风格的图片作为素材样本进行训练得到的模型。也可以叫“微调模型”。

C站(https://civitai.com/)就是这样一个汇集了各路人才训练出的模型的地方。上面有各种风格的模型:

也就是说,如果你想画人物,需要下载一个人物模型;如果你想画卡通,下载一个卡通模型:社区有。不同于通用模型,这些微调模型全是各领域的专家,画特定的风格表现非常突出。但是下什么模型,就只能画什么风格的图片。每个模型的大小大约在 1-5 个G 之间,但如果是 LoRA 会小一些,在几十 M 到几百 M 之间。

公有版只能使用基础模型。想使用微调模型,只能本地部署 Stable Diffusion

这里是私有部署 Stable Diffusion 后的一个界面:

可以看到有多少参数,这些参数仅仅占了所有参数的 1/3,剩余选项卡下面大约还有这么多的参数。SD 的上手难度和 Midjourney 不是一个级别的。

另外,得益于 ControlNet 和 inpaint(局部重绘) 的加持,SD 几乎可以胜任任何 Midjourney 不能胜任的工作,比如说:换脸换装、线稿生图、毛坯房装修、上色等等等等。

可以说,如果你对 SD 足够精通,你几乎可以将图片的控制粒度达到像素级别。前提是你要对 SD 的使用“足够精通”。这需要很长时间的学习成本和大量的实践练习。

(文末附全套AI绘画Midjourney和Stable Diffusion学习教程资料)


03、DALL·E2

最后我们来简单介绍一下 DALL·E2。不知道 OpenAI 是不是把资金都投入到 GPT 的研发上了,DALL·E2 的表现非常一般。和通用模型下的 SD 表现相当。这里就不过多赘述了。不过 DALL·E2 也有个优点,就是生成速度快,也许可以当做图形验证码来用。

综上所述,Midjourney 的特点是:上手难度低,易操作。通过一个简单的描述词就可以生成画面精美的图片,适合大多数用户,可用来辅助设计、logo、头像、创意等。

Stable Diffusion 的特点是:上手难度高,参数多,可玩性高,可定制化程度极高,适合专业人士和动手、探索能力强的极客玩家。

DALL·E 的特点是生成速度快,效果差。可用于批量生成图片验证码的场景。

Midjourney 就像以前的全自动傻瓜相机,只要稍微一按,就会为你生成很不错的照片; Stable Diffusion 就像单反,成本高,造价贵,需要调一堆参数,但是如果用对了,能力也更强。

另外需要补充的一点是,Stable Diffusion 在两周前最新推出的SDXL1.0(Stable Diffusion XL v1.0) 通用模型,已经具备了接近甚至媲美 Midjourney 的能力,而且更为重要的一点:SDXL1.0 模型支持指定文字!这在其他任何一款绘画 AI 包括 Midjourney 中都还是无法实现的一项功能,其生成效果如下图所示:

(提示词:Close-up shots of a miniature Eiffel Tower inside a glass bottle with a label that says “Paris”)

没有最好的,只有最适合的。大家可以根据自己的实际需要,选择适合自身应用场景的 AI 绘画工具。

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

若有侵权,请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1833336.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年6月10日~2024年6月16日周报

文章目录 一、前段时间工作二、完成情况2.1 可变形卷积的学习2.1.1 Introduction-介绍2.1.2 Related Work-相关工作2.1.3 Method-方法2.1.3.1 可变形卷积动态属性的重认识2.1.3.2 Speeding up DCN—加速DCN 2.2 部署可变形卷积 三、假期计划 一、前段时间工作 在之前一段时间主…

【多视图感知】BEVFormer: Learning Bird’s-Eye-View Representation

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers 论文链接:http://arxiv.org/abs/2203.17270 代码链接:https://github.com/fundamentalvision/BEVFormer 一、摘要 本文提出了一种名为BEVFormer的新框架&am…

Marin说PCB之orcad-capture原理图封装库的创建总结----01

今天是个不错的日子,我早上一出门刚骑车到半路就开始下大雨了,可是天气预报上明明说的没有雨啊,所以说天气预报就像是女人的脾气一样,难以揣摩啊,也尽量少去揣摩吧。 小编我刚刚到公司,就收到美国分部同事J…

Nginx + KeepAlived高可用负载均衡集群

目录 一、Keepealived脑裂现象 1.现象 2.原因 3.解决 4.预防 二、实验部署 1.两台nginx做初始化操作并安装nginx 2.四层反向代理配置 3.配置高可用 4.准备检查nginx运行状态脚本 5.开启keepalived服务并测试 一、Keepealived脑裂现象 1.现象 主服务器和备服务器都同…

喜讯 | 全视通获得珠海市第七届“市长杯”工业设计大赛三等奖

近日,在珠海市举行的第七届“市长杯”工业设计大赛颁奖典礼上,珠海全视通信息技术有限公司(以下简称“全视通”)凭借创新的“医护对讲一体终端机”产品,历经激烈的竞争和严格的评选流程,包括大赛宣传发动、…

移植案例与原理 - startup子系统之syspara_lite系统属性部件 (2)

系统属性部件syspara_lite负责提供获取与设置操作系统相关的系统属性,包括默认系统属性、OEM厂商系统属性和自定义系统属性。为满足OpenHarmony产品兼容性规范,产品解决方案需要实现获取设备信息的接口,如:产品名、品牌名、厂家名…

手持气象仪:科技与自然交汇的奇妙工具

TH-SQ5在广袤无垠的大自然中,天气总是瞬息万变,让人难以捉摸。然而,随着科技的进步,人类已经能够借助各种先进的仪器来预测和监测天气变化,其中,手持气象仪便是其中的佼佼者。 手持气象仪,顾名…

聚焦 Navicat 17 新特性 | 查询与配置的革新之处

随着 Navicat 17 的发布,引起业界热烈讨论与关注,这也标志着 Navicat 的产品力再次飞跃。新版本引入的众多创新特性极大地提升了用户在数据库管理和数据分析方面的体验,涵盖模型设计与同步、数据字典、数据分析(data profiling&am…

安卓手机删除文件怎么找回?2个方法,一键救援错过的数据

我们通过手机拍照、录音、录像、浏览网页、社交互动等方式记录和分享生活中的每一个瞬间。然而,手机中的数据也是我们最容易误删的。 当我们不小心删除了重要的文件或数据时,将给生活和工作带来不小的困扰。那么,删除文件怎么找回呢&#xf…

人脸识别系统---年龄预测

一、预测年龄 1.加载预训练的人脸检测模型 face_cascade cv2.CascadeClassifier(haarcascade_frontalface_default.xml)2.加载预训练的性别和年龄识别模型 gender_net cv2.dnn.readNetFromCaffe(deploy_gender.prototxt, gender_net.caffemodel) age_net cv2.dnn.readNet…

英语恶补ing

ing的词组都有停下来做某事的感觉了。 second hand是形容词了。 wouldnt buy这里的would是情态动词,也是助动词 助动词不能单独使用,要搭配实义动词,这样才能构成谓语 情态动词(modals)在英语中有多种作用&#xff…

Linux系统编程——网络编程

目录 一、对于Socket、TCP/UDP、端口号的认知: 1.1 什么是Socket: 1.2 TCP/UDP对比: 1.3 端口号的作用: 二、字节序 2.1 字节序相关概念: 2.2 为什么会有字节序: 2.3 主机字节序转换成网络字节序函数…

springboot + Vue前后端项目(第十七记)

项目实战第十七记 写在前面1. 个人信息1.1 Person.vue1.2 设置路由并改动Header.vue1.3 动态刷新头像1.3.1 在保存个人信息时,触发方法1.3.2 父组件Manage.vue1.3.3 再将user以prop方式传递给子组件Header.vue1.3.4 Header.vue使用user 1.4 效果图 2. 修改密码2.1 前…

《跟我一起学“网络安全”》——等保风评加固应急响应

等保风评加固应急响应 一、安全加固 背景 随着IP技术的飞速发展,一个组织的信息系统经常会面临内部和外部威胁的风险,网络安全已经成为影响信息系统的关键问题。 虽然传统的防火墙等各类安全产品能提供外围的安全防护,但并不能真正彻底的消…

每日复盘-202406017

今日关注: 20240617 六日涨幅最大: ------1--------301036--------- 双乐股份 五日涨幅最大: ------1--------301176--------- 逸豪新材 四日涨幅最大: ------1--------300868--------- 杰美特 三日涨幅最大: ------1--------301082--------- 久盛电气 二日涨幅最大…

day02论文学习:能够使大语言模型产生带有引用的文章

1.主题:Enabling Large Language Models to Generate Text with Citations(能够使大语言模型产生带有引用的文章) 引用出处: Gao, T., Yen, H., Yu, J., & Chen, D. (2023). Enabling Large Language Models to Generate Tex…

C#特性-CallerMemberName、CallerFilePath和CallerLineNumber的介绍和应用

介绍 在csharp中,CallerMemberName, CallerFilePath, 和 CallerLineNumber 是编译时常量,它们是csharp 5.0引入的特性,用于提供有关调用堆栈的信息,通常用于日志记录和调试。这些特性可以自动填充方法的参数,无需显式…

你必须知道的Linux基础知识(一)

Linux简介 类 Unix 系统 Linux 是一种自由、开放源码的类似 Unix 的操作系统 Linux 本质是指 Linux 内核 Linux 这个词本身只表示 Linux 内核,单独的 Linux 内核并不能成为一个可以正常工作的操作系统,所以Linux 出现了各种发行版。 Linux 之父 (林纳斯本纳第…

【系统架构设计师】一、计算机系统基础知识(指令系统|存储系统|输入输出技术|总线结构)

目录 一、指令系统 1.1 计算机指令 1.2 指令寻址方式 1.3 CISC 与 RISC 1.4 指令流水线 二、存储系统 2.1 分级存储体系 2.2 地址映射 2.3 替换算法 2.4 磁盘 2.4.1 磁盘结构和参数 2.4.2 磁盘调度算法 三、输入输出技术 四、总线结构 五、考试真题练习 一、指令…