最时髦的AI画画,一文包教包会
大概半年前,AI 绘画工具 Disco Diffusion 从 Text-to-Image 开发社区和设计行业,火到了普通用户的视野中。即便它界面简陋,满屏英文和代码,也“劝退”不了人们。因为对那些没有任何美术功底的他们来说,往输入框写一小段字,就能指导 AI 生成画面足够惊艳的画作。
Simon_阿文用 Disco Diffusion 生成,他输入的描述词是 🦋 🤖 ⛅️|作者授权
AI 绘画工具进化的速度,在这半年远超人们想象。Disco Diffusion 之后,搭在 Discord 群聊上的 Midjourney、OpenAI 擅长写实的 DALL·E 2、开源的 Stable Diffusion 等工具涌现,它们更强大,更用户友好,生成一张图的时间甚至压缩到了数秒。
AI 绘画的热度被一步步推高。在国内一些电商平台,你甚至可以看到有零散商家在卖教程。
今天,我们整理了 3 个对普通用户来说最容易上手的工具:它们中一个专于生成二次元画作;一个社区氛围浓厚,生成图艺术感极强;一个是国内团队的产品,这回,你用中文挥洒创意!
Stable Diffusion
特点:被认为是最强的 AI 绘画工具,已完全开源,市面上还有很多”魔改版“,比如专用来生成二次元人像的 Waifu Diffusion;
事前准备:以下介绍的是 Stable Diffusion 的在线版本 DreamStudio,这种方案对设备没有要求,只要用浏览器打开 https://beta.dreamstudio.ai/dream 即可。
相比 Disco Diffusion,Stable Diffusion 这个在线工具的界面非常简洁、友好,你打开网站后注册,然后在底下的输入框写好描述语句,点击“Dream”就能一键生成,等待时间仅为数秒。
描述词为 A dream of a distant galaxy(图像主体), by Caspar David Friedrich(艺术家), matte painting trending on artstation HQ(绘画风格)丨界面截图
界面右侧还有一系列的调节选项,从上到下分别是:
- Width、Height:生成图的长宽尺寸;
- Cfg Scale:大概可以理解为是图像和描述词(prompt)的匹配程度,高于 20 容易有失真效果;
- Steps:模型生成图片的迭代步数,每多一次迭代都会给 AI 更多的机会去比对描述词和当前结果,默认值为 50;
- Number of images:生成图的数量;
- Sampler:扩散去噪算法的采样模式;
- Seed:随机种子,系统每次产生的随机种子都不同,所以即使你原封不动搬来了艺术家给的描述词,也无法生成相同的图片,但如果他给了你特定的随机种子码,就能生成。
基本的配置搞定后,开始做画作生成中最关键的一步——写描述词。该怎么写呢?官方提供了一份入门教程:
- 先输入你图像的对象、主体,比如一只熊猫、一个持剑的战士,如果只是如此简单的描述,生成的风格会非常随机,所以需要描述风格来加以限定;
- 常被使用的风格有写实、油画、铅笔画、概念艺术等,你可以指定你要的是一幅画(a painting of + raw prompt)还是一张照片(a photograph of + raw prompt);
- 加上风格鲜明的艺术家关键词,来进一步明确和加强生成图的风,比如加上达芬奇、米开朗基罗、莫奈等,另外,官方还建议尝试混合多个艺术家,这或许可以融合成更让人惊叹的效果;
- 还可以加上一些特定的描述词,来完成最后的润色。比如,你如果让画面有更逼真的光照,可以带上“Unreal Engine”,建议的关键词还有 surrealism(超现实主义)、sharp focus(有锐利的对焦)、8k,甚至是“the most beautiful image ever seen”。
在线版本目前调教功能偏弱,比如无法批量生成图像等,如果你想有更好的生成体验,可以将已开源的 Stable Diffusion 部署到自己的电脑上,配置要求 RTX 2060 显卡等 6GB 显存(及以上)显卡等。这里不展开了。
**自 Stable Diffusion 开源以来,市面上迅速出现了它的各种“魔改版”,其中近期热度最高的要数 Waifu Diffusion。**Waifu 指漫画、动画、游戏中的一些女性角色,有些玩家、观众喜欢这类角色到了会将她们当成妻子。可见,这是一个专于生成“纸片人”的模型。
界面截图
只要打开 https://colab.research.google.com/drive/1_8wPN7dJO746QXsFnB09Uq2VGgSRFuYE#scrollTo=1HaCauSq546O,然后点击上方的“全部运行”,等几分钟就能看到描述词的输入框。
界面截图
至于描述词参考,可以在 Twitter 上搜索“waifudiffusion ALT”,之后你就会看到玩家们的图像,图像上如果有 ALT 标识,点开即可找到生成图的描述词。
界面截图
在 Stable Diffusion 上试验 AI 作画的人太多了,各渠道累计日活用户超过 1000 万。创始人 Emad Mostaque 说,“我们迟早会到达每天生成 10 亿张图片的阶段,尤其是当动画生成的功能被解锁后。”
现在,甚至有人建起了 AI 作画关键词相关的搜索引擎,比如 KERA。
界面截图
目前,KERA 已经收录了百万条关键词,比如搜索“Elon Musk”就能得到以上结果,如果对某一个结果感兴趣,还可以点进去看看对应的描述语句。
收费标准:有大概 200 张的免费生成额度,之后需要付费购买点数(生成越复杂,尺寸越大,消耗的点数越多)
版权要求:可以商用自己创作的图像,但图像如果是通过 DreamStudio 生成的,就自动变成了 CC0 1.0 授权,这样,服务提供商 Stability.ai 也能处理你的图像,无需付费甚至不会经过你同意,也会一并成为通用公共领域 royalty-free 的图片资源。如果是你自己部署了开源的 Stable Diffusion,消耗的是你自己的 GPU 资源,那著作权都归你所有。
Midjourney
特点:可以边聊天边生成,社区氛围浓重,画作艺术感强;
事前准备:备好电脑,以及注册一个通讯软件 Discord 的账号,打开 https://discord.gg/midjourney。
点击上方链接进入官方服务器后,你在左侧频道列表中找到任意一个 #newbies 频道进入,然后在对话框输入/imagine,在其后出现的填空框里输入描述词,按下回车。Midjourney bot 会在 60 秒内生成 4 张图像。
如图所示的红框内,是属于我们 #newbies 的频道 | Midjourney 页面截图
图像生成后,下方会附带 4 个“U”和 4 个“V”选项,U 代表 upscaling(提升清晰度),V 代表 variations(基于已生成图像的风格再生成四张不同的图像)。你可以点击它们进一步优化图像。
描述词为埃德加·艾伦·坡的塔罗牌,新艺术风格,安妮·麦卡弗里 --s 1250 | Midjourney 页面截图
Midjourney 设在一个人声鼎沸的聊天室,初次接触 Discord 的人或许会有些晕头转向,这里有几点需要注意:首先,你在公开的频道里试用时,生成结果是所有人可见的!同时,你的请求可能会混入快速变化的信息流,不要走开!如果真的找不到了,不要慌张,点击右上角的收件箱找回你的请求。
任意时间点进去,都有很多人在跟你一起玩 | Midjourney 页面截图
对于描述词,官方给出了一些建议:
- 使用已经存在大量视觉图像的物体,比如 Wizard(巫师)、Angel(天使)、Rocket(火箭)等;
- 使用风格、艺术家、绘画媒介作为提示词,比如赛博朋克、达利、吉卜力、水墨画、雕塑等;
- 避免否定句,因为模型通常会无视它,比如当你输入“一顶不是红色的帽子”,模型看到的更可能是“帽子”、“红色”;
- 使用单数或具体数字,而非“一堆”、“很多”、“一些”;
- 避免空泛概念,你知道的,就是老板开会时经常会说的那些,以及甲方的需求。
火龙,但是建筑草图风格
真正的“高玩”还可以加入一些“黑话”,也就是一系列以“–”为前缀的提示词为图片设定条件。比如,输入–ar 16:9”,图片比例会变成 16 乘 9;输入“–s”加一个数值,你可以决定 AI 要在风格化这条路上走多远,数字越大越离谱,–s 60000,天知道会发生什么!”
实在写不动描述词了,或者某张图片符合你想要的感觉,也可以直接把图片链接写进描述词里。
看看别人是怎么写的是个很好的学习渠道。当然,你也可以随时在 #prompt-chat 频道礼貌请教:我想生成特定样式的图像,该用怎样的提示词呢?或者常在官方画廊(https://www.midjourney.com/showcase/)那里逛逛,可以参考自己与别人生成的作品。
与别的模型相比,Midjourney 以其艺术性闻名。有人如此评价,“Midjourney 就像一个有它自己风格的艺术生。”身上附着着成百上千艺术家先辈的魂灵。
从生成结果也能看出,不管你输入什么,Midjourney 都更倾向于给你输出一幅绘画一样的图像,而不是假照片。比如,同样是面对描述词“女孩发现生命的意义”,Midjourney 和 DALL-E 得到的分别是以上的样子|https://dallery.gallery/midjourney-guide-ai-art-explained/
这也让它备受美术领域青睐,此前广受争议的在数字艺术比赛上获奖的作品《太空歌剧院》就是由 Midjourney 生成(后用 Photoshop 润色)。
《太空歌剧院》|Jason Allen
新平台层出不穷的情况下,让 Midjourney 仍能保持吸引力的是它的超级社群——目前人数已经超三百万,远超原本占据头部的 Minecraft 和《堡垒之夜》。在红杉总结的当前 AIGC 创业图谱中,只有 Midjourney 同时具备了图像生成和消费者 / 社交两项特性。
社群里,人们会自发地为新手答疑解惑,互相称赞,大方分享自己使用的描述词。官方也会定期发起主题创作,举行 Office Hour。用创始人的话说,他想让人们体验“一起做一件事”的快乐:你“画”出一只“狗”,有人会添一笔把它变成“太空狗”,紧接着有人把它变成“阿兹特克太空狗”……
你能不能在 Midjourney 里用中文呢?也不是不可以,但它似乎不是很懂。
收费标准:任何人都可以免费在公共频道生成 25 张图片,之后继续使用需要会员订阅。基础会员价格为每月 10 美元,可生成 200 张图片;标准会员为每月 30 美元,生成次数不限。
版权要求:公共频道里生成的作品默认为 CC BY-NC 4.0 版权,意味着他人可任意使用或改动你的这些作品。付费用户可以任意商用生成的图片,但有一个例外,如果是一家年收入超 100 万的公司在使用,就需转而订阅企业会员。
6pen
特点:支持用中文描述,还列出了很多艺术家和风格限定词供参考;
事前准备:在 iOS 平台下载 app,或者打开 https://6pen.art/ 直接在网页生成。
Disco Diffusion 大火之后,国内一些团队开始尝试降低其使用门槛,将它产品化,比如说重整 UI、提供云端算力、对模型做 finetune(微调)等。6pen 就是其中一支团队。
6pen 基于市面上已有的开源模型 Latent Diffusion 和 Disco Diffusion,做了自研模型,还根据生成速度和体量,分别研发了擅长小体量、简单场景的南瓜模型,和擅长复杂场景,但响应速度较慢的西瓜模型。官方表示,相比原版,自研模型比较重要的优化部分,是提高分辨率和支持中文。
6pen 很自信,在合适的文本描述和风格修饰下,他们相信 6pen 可以实现不输于 Midjourney 甚至 DALL·E 2 的效果。
界面简洁,引导细致,还列出了很多艺术家和风格限定词供参考丨app 界面截图
官方自己有一份非常详细的使用教程,手把手教,亲切地像生怕你学不会的老母亲。
我们整理了这样一些建议:
- 你可以直接使用中文描述!
- 描述词要具体,讲出你要的物体和它的特征,但物体不要太多,两到三个就好;
- 放弃描述情绪和事件,模型不会懂什么是“她爱不爱我”并画下来;
- 视角、细节和纹理、物体占据画面的大小、色调、画面特点、年代、渲染 / 建模工具,这些是模型可以处理的信息;
- 如果点选的参考艺术家画过很多裸体,会有概率出现纯黑的图片(系统判定你在“搞黄色”);
- 描述词之外,可以加入画面类型、艺术家、尺寸等信息,他们有点像滤镜,能让你的画看起来更像那么回事儿;
- 如果你有绘画基础,可以自己画底稿,再由 AI 在你的基础上描绘具体场景,底稿建议使用色块和形状而非纯线稿,因为 AI 不会自动填色。
官方给的描述词案例丨界面截图
此外,6pen 还会返回每个生成过程的迭代图,Loss 曲线,甚至电量消耗等数据,让用户更好了解生产过程,帮助改进。
在等待生成期间,6pen 会让你为一些生成作品投票,看看哪张作品效果更好。这时你会觉得自己像一个给 AI 的打工者,帮助模型升级进步。
6pen 的创始人王登科指出过 AI 绘画技术目前的不足,比如人的肢体(主要是手指)和眼球效果较差,多主体对象生成效果差,也无法进行有逻辑延续的故事性生成。
收费标准:可以免费排队生成,也可以付费快速生成,价格为 0.1 元起;
版权要求:6pen 的自研模型都采用 MIT 协议开源,生成出来的图片版权完全授权给生成者本人。6pen 也支持采用 CC0 协议的 Stable Diffusion,这时产生的作品版权就不由生成者独享了。生成者如果使用了还在世的艺术家作为画面参考,且生成作品的风格与艺术家相似,也可能存在版权争议。同理,如果使用了参考图,且参考图并非原创 (如摄影、绘画),那么生成的结果也存在版权争议。
AI 绘画还在狂奔路上,现在这些工具解决的是“写写字就能画画”,未来可能会进一步解决“写写字就能画多好”的问题。
随着这些工具的基础功能,以及背后的模型逐步完善,我们要争的,就是如何写 prompt 了。
那天,我看到有人问“prompt 这个词现在有中文翻译了吗?”底下有人回答,“咒语。”