最时髦的AI画画，一文包教包会

大概半年前，AI 绘画工具 Disco Diffusion 从 Text-to-Image 开发社区和设计行业，火到了普通用户的视野中。即便它界面简陋，满屏英文和代码，也“劝退”不了人们。因为对那些没有任何美术功底的他们来说，往输入框写一小段字，就能指导 AI 生成画面足够惊艳的画作。

Simon_阿文用 Disco Diffusion 生成，他输入的描述词是 🦋 🤖 ⛅️｜作者授权

AI 绘画工具进化的速度，在这半年远超人们想象。Disco Diffusion 之后，搭在 Discord 群聊上的 Midjourney、OpenAI 擅长写实的 DALL·E 2、开源的 Stable Diffusion 等工具涌现，它们更强大，更用户友好，生成一张图的时间甚至压缩到了数秒。

AI 绘画的热度被一步步推高。在国内一些电商平台，你甚至可以看到有零散商家在卖教程。

今天，我们整理了 3 个对普通用户来说最容易上手的工具：它们中一个专于生成二次元画作；一个社区氛围浓厚，生成图艺术感极强；一个是国内团队的产品，这回，你用中文挥洒创意！

Stable Diffusion

特点：被认为是最强的 AI 绘画工具，已完全开源，市面上还有很多”魔改版“，比如专用来生成二次元人像的 Waifu Diffusion；

事前准备：以下介绍的是 Stable Diffusion 的在线版本 DreamStudio，这种方案对设备没有要求，只要用浏览器打开 https://beta.dreamstudio.ai/dream 即可。

相比 Disco Diffusion，Stable Diffusion 这个在线工具的界面非常简洁、友好，你打开网站后注册，然后在底下的输入框写好描述语句，点击“Dream”就能一键生成，等待时间仅为数秒。

描述词为 A dream of a distant galaxy（图像主体）, by Caspar David Friedrich（艺术家）, matte painting trending on artstation HQ（绘画风格）丨界面截图

界面右侧还有一系列的调节选项，从上到下分别是：

Width、Height：生成图的长宽尺寸；
Cfg Scale：大概可以理解为是图像和描述词（prompt）的匹配程度，高于 20 容易有失真效果；
Steps：模型生成图片的迭代步数，每多一次迭代都会给 AI 更多的机会去比对描述词和当前结果，默认值为 50；
Number of images：生成图的数量；
Sampler：扩散去噪算法的采样模式；
Seed：随机种子，系统每次产生的随机种子都不同，所以即使你原封不动搬来了艺术家给的描述词，也无法生成相同的图片，但如果他给了你特定的随机种子码，就能生成。

基本的配置搞定后，开始做画作生成中最关键的一步——写描述词。该怎么写呢？官方提供了一份入门教程：

先输入你图像的对象、主体，比如一只熊猫、一个持剑的战士，如果只是如此简单的描述，生成的风格会非常随机，所以需要描述风格来加以限定；
常被使用的风格有写实、油画、铅笔画、概念艺术等，你可以指定你要的是一幅画（a painting of + raw prompt）还是一张照片（a photograph of + raw prompt）；
加上风格鲜明的艺术家关键词，来进一步明确和加强生成图的风，比如加上达芬奇、米开朗基罗、莫奈等，另外，官方还建议尝试混合多个艺术家，这或许可以融合成更让人惊叹的效果；
还可以加上一些特定的描述词，来完成最后的润色。比如，你如果让画面有更逼真的光照，可以带上“Unreal Engine”，建议的关键词还有 surrealism（超现实主义）、sharp focus（有锐利的对焦）、8k，甚至是“the most beautiful image ever seen”。

在线版本目前调教功能偏弱，比如无法批量生成图像等，如果你想有更好的生成体验，可以将已开源的 Stable Diffusion 部署到自己的电脑上，配置要求 RTX 2060 显卡等 6GB 显存（及以上）显卡等。这里不展开了。

**自 Stable Diffusion 开源以来，市面上迅速出现了它的各种“魔改版”，其中近期热度最高的要数 Waifu Diffusion。**Waifu 指漫画、动画、游戏中的一些女性角色，有些玩家、观众喜欢这类角色到了会将她们当成妻子。可见，这是一个专于生成“纸片人”的模型。

界面截图

只要打开 https://colab.research.google.com/drive/1_8wPN7dJO746QXsFnB09Uq2VGgSRFuYE#scrollTo=1HaCauSq546O，然后点击上方的“全部运行”，等几分钟就能看到描述词的输入框。

界面截图

至于描述词参考，可以在 Twitter 上搜索“waifudiffusion ALT”，之后你就会看到玩家们的图像，图像上如果有 ALT 标识，点开即可找到生成图的描述词。

界面截图

在 Stable Diffusion 上试验 AI 作画的人太多了，各渠道累计日活用户超过 1000 万。创始人 Emad Mostaque 说，“我们迟早会到达每天生成 10 亿张图片的阶段，尤其是当动画生成的功能被解锁后。”

现在，甚至有人建起了 AI 作画关键词相关的搜索引擎，比如 KERA。

界面截图

目前，KERA 已经收录了百万条关键词，比如搜索“Elon Musk”就能得到以上结果，如果对某一个结果感兴趣，还可以点进去看看对应的描述语句。

收费标准：有大概 200 张的免费生成额度，之后需要付费购买点数（生成越复杂，尺寸越大，消耗的点数越多）

版权要求：可以商用自己创作的图像，但图像如果是通过 DreamStudio 生成的，就自动变成了 CC0 1.0 授权，这样，服务提供商 Stability.ai 也能处理你的图像，无需付费甚至不会经过你同意，也会一并成为通用公共领域 royalty-free 的图片资源。如果是你自己部署了开源的 Stable Diffusion，消耗的是你自己的 GPU 资源，那著作权都归你所有。

Midjourney

特点：可以边聊天边生成，社区氛围浓重，画作艺术感强；

事前准备：备好电脑，以及注册一个通讯软件 Discord 的账号，打开 https://discord.gg/midjourney。

点击上方链接进入官方服务器后，你在左侧频道列表中找到任意一个 #newbies 频道进入，然后在对话框输入/imagine，在其后出现的填空框里输入描述词，按下回车。Midjourney bot 会在 60 秒内生成 4 张图像。

如图所示的红框内，是属于我们 #newbies 的频道 | Midjourney 页面截图

图像生成后，下方会附带 4 个“U”和 4 个“V”选项，U 代表 upscaling（提升清晰度），V 代表 variations（基于已生成图像的风格再生成四张不同的图像）。你可以点击它们进一步优化图像。

描述词为埃德加·艾伦·坡的塔罗牌，新艺术风格，安妮·麦卡弗里 --s 1250 | Midjourney 页面截图

Midjourney 设在一个人声鼎沸的聊天室，初次接触 Discord 的人或许会有些晕头转向，这里有几点需要注意：首先，你在公开的频道里试用时，生成结果是所有人可见的！同时，你的请求可能会混入快速变化的信息流，不要走开！如果真的找不到了，不要慌张，点击右上角的收件箱找回你的请求。

任意时间点进去，都有很多人在跟你一起玩 | Midjourney 页面截图

对于描述词，官方给出了一些建议：

使用已经存在大量视觉图像的物体，比如 Wizard（巫师）、Angel（天使）、Rocket（火箭）等；
使用风格、艺术家、绘画媒介作为提示词，比如赛博朋克、达利、吉卜力、水墨画、雕塑等；
避免否定句，因为模型通常会无视它，比如当你输入“一顶不是红色的帽子”，模型看到的更可能是“帽子”、“红色”；
使用单数或具体数字，而非“一堆”、“很多”、“一些”；
避免空泛概念，你知道的，就是老板开会时经常会说的那些，以及甲方的需求。

火龙，但是建筑草图风格

真正的“高玩”还可以加入一些“黑话”，也就是一系列以“–”为前缀的提示词为图片设定条件。比如，输入–ar 16:9”，图片比例会变成 16 乘 9；输入“–s”加一个数值，你可以决定 AI 要在风格化这条路上走多远，数字越大越离谱，–s 60000，天知道会发生什么！”

实在写不动描述词了，或者某张图片符合你想要的感觉，也可以直接把图片链接写进描述词里。

看看别人是怎么写的是个很好的学习渠道。当然，你也可以随时在 #prompt-chat 频道礼貌请教：我想生成特定样式的图像，该用怎样的提示词呢？或者常在官方画廊（https://www.midjourney.com/showcase/）那里逛逛，可以参考自己与别人生成的作品。

与别的模型相比，Midjourney 以其艺术性闻名。有人如此评价，“Midjourney 就像一个有它自己风格的艺术生。”身上附着着成百上千艺术家先辈的魂灵。

从生成结果也能看出，不管你输入什么，Midjourney 都更倾向于给你输出一幅绘画一样的图像，而不是假照片。比如，同样是面对描述词“女孩发现生命的意义”，Midjourney 和 DALL-E 得到的分别是以上的样子｜https://dallery.gallery/midjourney-guide-ai-art-explained/

这也让它备受美术领域青睐，此前广受争议的在数字艺术比赛上获奖的作品《太空歌剧院》就是由 Midjourney 生成（后用 Photoshop 润色）。

《太空歌剧院》｜Jason Allen

新平台层出不穷的情况下，让 Midjourney 仍能保持吸引力的是它的超级社群——目前人数已经超三百万，远超原本占据头部的 Minecraft 和《堡垒之夜》。在红杉总结的当前 AIGC 创业图谱中，只有 Midjourney 同时具备了图像生成和消费者 / 社交两项特性。

社群里，人们会自发地为新手答疑解惑，互相称赞，大方分享自己使用的描述词。官方也会定期发起主题创作，举行 Office Hour。用创始人的话说，他想让人们体验“一起做一件事”的快乐：你“画”出一只“狗”，有人会添一笔把它变成“太空狗”，紧接着有人把它变成“阿兹特克太空狗”……

你能不能在 Midjourney 里用中文呢？也不是不可以，但它似乎不是很懂。

收费标准：任何人都可以免费在公共频道生成 25 张图片，之后继续使用需要会员订阅。基础会员价格为每月 10 美元，可生成 200 张图片；标准会员为每月 30 美元，生成次数不限。

版权要求：公共频道里生成的作品默认为 CC BY-NC 4.0 版权，意味着他人可任意使用或改动你的这些作品。付费用户可以任意商用生成的图片，但有一个例外，如果是一家年收入超 100 万的公司在使用，就需转而订阅企业会员。

6pen

特点：支持用中文描述，还列出了很多艺术家和风格限定词供参考；

事前准备：在 iOS 平台下载 app，或者打开 https://6pen.art/ 直接在网页生成。

Disco Diffusion 大火之后，国内一些团队开始尝试降低其使用门槛，将它产品化，比如说重整 UI、提供云端算力、对模型做 finetune（微调）等。6pen 就是其中一支团队。

6pen 基于市面上已有的开源模型 Latent Diffusion 和 Disco Diffusion，做了自研模型，还根据生成速度和体量，分别研发了擅长小体量、简单场景的南瓜模型，和擅长复杂场景，但响应速度较慢的西瓜模型。官方表示，相比原版，自研模型比较重要的优化部分，是提高分辨率和支持中文。

6pen 很自信，在合适的文本描述和风格修饰下，他们相信 6pen 可以实现不输于 Midjourney 甚至 DALL·E 2 的效果。

界面简洁，引导细致，还列出了很多艺术家和风格限定词供参考丨app 界面截图

官方自己有一份非常详细的使用教程，手把手教，亲切地像生怕你学不会的老母亲。

我们整理了这样一些建议：

你可以直接使用中文描述！
描述词要具体，讲出你要的物体和它的特征，但物体不要太多，两到三个就好；
放弃描述情绪和事件，模型不会懂什么是“她爱不爱我”并画下来；
视角、细节和纹理、物体占据画面的大小、色调、画面特点、年代、渲染 / 建模工具，这些是模型可以处理的信息；
如果点选的参考艺术家画过很多裸体，会有概率出现纯黑的图片（系统判定你在“搞黄色”）；
描述词之外，可以加入画面类型、艺术家、尺寸等信息，他们有点像滤镜，能让你的画看起来更像那么回事儿；
如果你有绘画基础，可以自己画底稿，再由 AI 在你的基础上描绘具体场景，底稿建议使用色块和形状而非纯线稿，因为 AI 不会自动填色。

官方给的描述词案例丨界面截图

此外，6pen 还会返回每个生成过程的迭代图，Loss 曲线，甚至电量消耗等数据，让用户更好了解生产过程，帮助改进。

在等待生成期间，6pen 会让你为一些生成作品投票，看看哪张作品效果更好。这时你会觉得自己像一个给 AI 的打工者，帮助模型升级进步。

6pen 的创始人王登科指出过 AI 绘画技术目前的不足，比如人的肢体（主要是手指）和眼球效果较差，多主体对象生成效果差，也无法进行有逻辑延续的故事性生成。

收费标准：可以免费排队生成，也可以付费快速生成，价格为 0.1 元起；

版权要求：6pen 的自研模型都采用 MIT 协议开源，生成出来的图片版权完全授权给生成者本人。6pen 也支持采用 CC0 协议的 Stable Diffusion，这时产生的作品版权就不由生成者独享了。生成者如果使用了还在世的艺术家作为画面参考，且生成作品的风格与艺术家相似，也可能存在版权争议。同理，如果使用了参考图，且参考图并非原创 (如摄影、绘画)，那么生成的结果也存在版权争议。

AI 绘画还在狂奔路上，现在这些工具解决的是“写写字就能画画”，未来可能会进一步解决“写写字就能画多好”的问题。

随着这些工具的基础功能，以及背后的模型逐步完善，我们要争的，就是如何写 prompt 了。

那天，我看到有人问“prompt 这个词现在有中文翻译了吗？”底下有人回答，“咒语。”