最时髦的AI画画,一文包教包会

news2024/11/16 17:49:23

最时髦的AI画画,一文包教包会

大概半年前,AI 绘画工具 Disco Diffusion 从 Text-to-Image 开发社区和设计行业,火到了普通用户的视野中。即便它界面简陋,满屏英文和代码,也“劝退”不了人们。因为对那些没有任何美术功底的他们来说,往输入框写一小段字,就能指导 AI 生成画面足够惊艳的画作。

img

Simon_阿文用 Disco Diffusion 生成,他输入的描述词是 🦋 🤖 ⛅️|作者授权

AI 绘画工具进化的速度,在这半年远超人们想象。Disco Diffusion 之后,搭在 Discord 群聊上的 Midjourney、OpenAI 擅长写实的 DALL·E 2、开源的 Stable Diffusion 等工具涌现,它们更强大,更用户友好,生成一张图的时间甚至压缩到了数秒。

AI 绘画的热度被一步步推高。在国内一些电商平台,你甚至可以看到有零散商家在卖教程。

今天,我们整理了 3 个对普通用户来说最容易上手的工具:它们中一个专于生成二次元画作;一个社区氛围浓厚,生成图艺术感极强;一个是国内团队的产品,这回,你用中文挥洒创意!

Stable Diffusion

img

特点:被认为是最强的 AI 绘画工具,已完全开源,市面上还有很多”魔改版“,比如专用来生成二次元人像的 Waifu Diffusion;

事前准备:以下介绍的是 Stable Diffusion 的在线版本 DreamStudio,这种方案对设备没有要求,只要用浏览器打开 https://beta.dreamstudio.ai/dream 即可。

相比 Disco Diffusion,Stable Diffusion 这个在线工具的界面非常简洁、友好,你打开网站后注册,然后在底下的输入框写好描述语句,点击“Dream”就能一键生成,等待时间仅为数秒。

img

描述词为 A dream of a distant galaxy(图像主体), by Caspar David Friedrich(艺术家), matte painting trending on artstation HQ(绘画风格)丨界面截图

界面右侧还有一系列的调节选项,从上到下分别是:

  • Width、Height:生成图的长宽尺寸;
  • Cfg Scale:大概可以理解为是图像和描述词(prompt)的匹配程度,高于 20 容易有失真效果;
  • Steps:模型生成图片的迭代步数,每多一次迭代都会给 AI 更多的机会去比对描述词和当前结果,默认值为 50;
  • Number of images:生成图的数量;
  • Sampler:扩散去噪算法的采样模式;
  • Seed:随机种子,系统每次产生的随机种子都不同,所以即使你原封不动搬来了艺术家给的描述词,也无法生成相同的图片,但如果他给了你特定的随机种子码,就能生成。

基本的配置搞定后,开始做画作生成中最关键的一步——写描述词。该怎么写呢?官方提供了一份入门教程:

  • 先输入你图像的对象、主体,比如一只熊猫、一个持剑的战士,如果只是如此简单的描述,生成的风格会非常随机,所以需要描述风格来加以限定;
  • 常被使用的风格有写实、油画、铅笔画、概念艺术等,你可以指定你要的是一幅画(a painting of + raw prompt)还是一张照片(a photograph of + raw prompt);
  • 加上风格鲜明的艺术家关键词,来进一步明确和加强生成图的风,比如加上达芬奇、米开朗基罗、莫奈等,另外,官方还建议尝试混合多个艺术家,这或许可以融合成更让人惊叹的效果;
  • 还可以加上一些特定的描述词,来完成最后的润色。比如,你如果让画面有更逼真的光照,可以带上“Unreal Engine”,建议的关键词还有 surrealism(超现实主义)、sharp focus(有锐利的对焦)、8k,甚至是“the most beautiful image ever seen”。

在线版本目前调教功能偏弱,比如无法批量生成图像等,如果你想有更好的生成体验,可以将已开源的 Stable Diffusion 部署到自己的电脑上,配置要求 RTX 2060 显卡等 6GB 显存(及以上)显卡等。这里不展开了。

**自 Stable Diffusion 开源以来,市面上迅速出现了它的各种“魔改版”,其中近期热度最高的要数 Waifu Diffusion。**Waifu 指漫画、动画、游戏中的一些女性角色,有些玩家、观众喜欢这类角色到了会将她们当成妻子。可见,这是一个专于生成“纸片人”的模型。

img

界面截图

只要打开 https://colab.research.google.com/drive/1_8wPN7dJO746QXsFnB09Uq2VGgSRFuYE#scrollTo=1HaCauSq546O,然后点击上方的“全部运行”,等几分钟就能看到描述词的输入框。

img

界面截图

至于描述词参考,可以在 Twitter 上搜索“waifudiffusion ALT”,之后你就会看到玩家们的图像,图像上如果有 ALT 标识,点开即可找到生成图的描述词。

img

界面截图

在 Stable Diffusion 上试验 AI 作画的人太多了,各渠道累计日活用户超过 1000 万。创始人 Emad Mostaque 说,“我们迟早会到达每天生成 10 亿张图片的阶段,尤其是当动画生成的功能被解锁后。

现在,甚至有人建起了 AI 作画关键词相关的搜索引擎,比如 KERA。

img

界面截图

目前,KERA 已经收录了百万条关键词,比如搜索“Elon Musk”就能得到以上结果,如果对某一个结果感兴趣,还可以点进去看看对应的描述语句。

收费标准:有大概 200 张的免费生成额度,之后需要付费购买点数(生成越复杂,尺寸越大,消耗的点数越多)

版权要求:可以商用自己创作的图像,但图像如果是通过 DreamStudio 生成的,就自动变成了 CC0 1.0 授权,这样,服务提供商 Stability.ai 也能处理你的图像,无需付费甚至不会经过你同意,也会一并成为通用公共领域 royalty-free 的图片资源。如果是你自己部署了开源的 Stable Diffusion,消耗的是你自己的 GPU 资源,那著作权都归你所有。

Midjourney

img

特点:可以边聊天边生成,社区氛围浓重,画作艺术感强;

事前准备:备好电脑,以及注册一个通讯软件 Discord 的账号,打开 https://discord.gg/midjourney。

点击上方链接进入官方服务器后,你在左侧频道列表中找到任意一个 #newbies 频道进入,然后在对话框输入/imagine,在其后出现的填空框里输入描述词,按下回车。Midjourney bot 会在 60 秒内生成 4 张图像。

img

如图所示的红框内,是属于我们 #newbies 的频道 | Midjourney 页面截图

图像生成后,下方会附带 4 个“U”和 4 个“V”选项,U 代表 upscaling(提升清晰度),V 代表 variations(基于已生成图像的风格再生成四张不同的图像)。你可以点击它们进一步优化图像。

img

描述词为埃德加·艾伦·坡的塔罗牌,新艺术风格,安妮·麦卡弗里 --s 1250 | Midjourney 页面截图

Midjourney 设在一个人声鼎沸的聊天室,初次接触 Discord 的人或许会有些晕头转向,这里有几点需要注意:首先,你在公开的频道里试用时,生成结果是所有人可见的!同时,你的请求可能会混入快速变化的信息流,不要走开!如果真的找不到了,不要慌张,点击右上角的收件箱找回你的请求。

img

任意时间点进去,都有很多人在跟你一起玩 | Midjourney 页面截图

对于描述词,官方给出了一些建议:

  • 使用已经存在大量视觉图像的物体,比如 Wizard(巫师)、Angel(天使)、Rocket(火箭)等;
  • 使用风格、艺术家、绘画媒介作为提示词,比如赛博朋克、达利、吉卜力、水墨画、雕塑等;
  • 避免否定句,因为模型通常会无视它,比如当你输入“一顶不是红色的帽子”,模型看到的更可能是“帽子”、“红色”;
  • 使用单数或具体数字,而非“一堆”、“很多”、“一些”;
  • 避免空泛概念,你知道的,就是老板开会时经常会说的那些,以及甲方的需求。

img

火龙,但是建筑草图风格

真正的“高玩”还可以加入一些“黑话”,也就是一系列以“–”为前缀的提示词为图片设定条件。比如,输入–ar 16:9”,图片比例会变成 16 乘 9;输入“–s”加一个数值,你可以决定 AI 要在风格化这条路上走多远,数字越大越离谱,–s 60000,天知道会发生什么!”

实在写不动描述词了,或者某张图片符合你想要的感觉,也可以直接把图片链接写进描述词里。

看看别人是怎么写的是个很好的学习渠道。当然,你也可以随时在 #prompt-chat 频道礼貌请教:我想生成特定样式的图像,该用怎样的提示词呢?或者常在官方画廊(https://www.midjourney.com/showcase/)那里逛逛,可以参考自己与别人生成的作品。

与别的模型相比,Midjourney 以其艺术性闻名。有人如此评价,“Midjourney 就像一个有它自己风格的艺术生。”身上附着着成百上千艺术家先辈的魂灵。

img

从生成结果也能看出,不管你输入什么,Midjourney 都更倾向于给你输出一幅绘画一样的图像,而不是假照片。比如,同样是面对描述词“女孩发现生命的意义”,Midjourney 和 DALL-E 得到的分别是以上的样子|https://dallery.gallery/midjourney-guide-ai-art-explained/

这也让它备受美术领域青睐,此前广受争议的在数字艺术比赛上获奖的作品《太空歌剧院》就是由 Midjourney 生成(后用 Photoshop 润色)。

img

《太空歌剧院》|Jason Allen

新平台层出不穷的情况下,让 Midjourney 仍能保持吸引力的是它的超级社群——目前人数已经超三百万,远超原本占据头部的 Minecraft 和《堡垒之夜》。在红杉总结的当前 AIGC 创业图谱中,只有 Midjourney 同时具备了图像生成和消费者 / 社交两项特性。

社群里,人们会自发地为新手答疑解惑,互相称赞,大方分享自己使用的描述词。官方也会定期发起主题创作,举行 Office Hour。用创始人的话说,他想让人们体验“一起做一件事”的快乐:你“画”出一只“狗”,有人会添一笔把它变成“太空狗”,紧接着有人把它变成“阿兹特克太空狗”……

img

你能不能在 Midjourney 里用中文呢?也不是不可以,但它似乎不是很懂。

收费标准:任何人都可以免费在公共频道生成 25 张图片,之后继续使用需要会员订阅。基础会员价格为每月 10 美元,可生成 200 张图片;标准会员为每月 30 美元,生成次数不限。

版权要求:公共频道里生成的作品默认为 CC BY-NC 4.0 版权,意味着他人可任意使用或改动你的这些作品。付费用户可以任意商用生成的图片,但有一个例外,如果是一家年收入超 100 万的公司在使用,就需转而订阅企业会员。

6pen

img

特点:支持用中文描述,还列出了很多艺术家和风格限定词供参考;

事前准备:在 iOS 平台下载 app,或者打开 https://6pen.art/ 直接在网页生成。

Disco Diffusion 大火之后,国内一些团队开始尝试降低其使用门槛,将它产品化,比如说重整 UI、提供云端算力、对模型做 finetune(微调)等。6pen 就是其中一支团队。

6pen 基于市面上已有的开源模型 Latent Diffusion 和 Disco Diffusion,做了自研模型,还根据生成速度和体量,分别研发了擅长小体量、简单场景的南瓜模型,和擅长复杂场景,但响应速度较慢的西瓜模型。官方表示,相比原版,自研模型比较重要的优化部分,是提高分辨率和支持中文。

6pen 很自信,在合适的文本描述和风格修饰下,他们相信 6pen 可以实现不输于 Midjourney 甚至 DALL·E 2 的效果。

img

界面简洁,引导细致,还列出了很多艺术家和风格限定词供参考丨app 界面截图

官方自己有一份非常详细的使用教程,手把手教,亲切地像生怕你学不会的老母亲。

我们整理了这样一些建议:

  • 你可以直接使用中文描述!
  • 描述词要具体,讲出你要的物体和它的特征,但物体不要太多,两到三个就好;
  • 放弃描述情绪和事件,模型不会懂什么是“她爱不爱我”并画下来;
  • 视角、细节和纹理、物体占据画面的大小、色调、画面特点、年代、渲染 / 建模工具,这些是模型可以处理的信息;
  • 如果点选的参考艺术家画过很多裸体,会有概率出现纯黑的图片(系统判定你在“搞黄色”);
  • 描述词之外,可以加入画面类型、艺术家、尺寸等信息,他们有点像滤镜,能让你的画看起来更像那么回事儿;
  • 如果你有绘画基础,可以自己画底稿,再由 AI 在你的基础上描绘具体场景,底稿建议使用色块和形状而非纯线稿,因为 AI 不会自动填色。

img

官方给的描述词案例丨界面截图

此外,6pen 还会返回每个生成过程的迭代图,Loss 曲线,甚至电量消耗等数据,让用户更好了解生产过程,帮助改进。

img

在等待生成期间,6pen 会让你为一些生成作品投票,看看哪张作品效果更好。这时你会觉得自己像一个给 AI 的打工者,帮助模型升级进步。

6pen 的创始人王登科指出过 AI 绘画技术目前的不足,比如人的肢体(主要是手指)和眼球效果较差,多主体对象生成效果差,也无法进行有逻辑延续的故事性生成。

收费标准:可以免费排队生成,也可以付费快速生成,价格为 0.1 元起;

版权要求:6pen 的自研模型都采用 MIT 协议开源,生成出来的图片版权完全授权给生成者本人。6pen 也支持采用 CC0 协议的 Stable Diffusion,这时产生的作品版权就不由生成者独享了。生成者如果使用了还在世的艺术家作为画面参考,且生成作品的风格与艺术家相似,也可能存在版权争议。同理,如果使用了参考图,且参考图并非原创 (如摄影、绘画),那么生成的结果也存在版权争议。

AI 绘画还在狂奔路上,现在这些工具解决的是“写写字就能画画”,未来可能会进一步解决“写写字就能画多好”的问题。

随着这些工具的基础功能,以及背后的模型逐步完善,我们要争的,就是如何写 prompt 了。

那天,我看到有人问“prompt 这个词现在有中文翻译了吗?”底下有人回答,“咒语。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/506908.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

kali php无法执行,直接下载或显示php文件内容

问题描述: 开启apache或nginx,访问php文件要么直接显示php文件内容,要么直接下载,这都是php文件无法解析的问题,需要nginxphp-fpm解决 1、安装NGINX 查看是否安装,如下图则已安装 #apt-cache policy ngi…

Linux安装MinIO及springboot项目整合使用实战(详细)

以往的项目,用的比较多的OSS服务是腾讯云和阿里云的存储服务,不过从去年到今年,最近的几个项目,普遍要使用Minio,所以我在开发服务器和测试服务器上都装上了minio 一、首先minio的安装 MInIO的安装有很多方法、单实例的、集群分…

Django学习——安装、创建项目、数据库、用户管理案例

目录 1、 安装django 1.1django是第三方模块,用pip install django 安装: 1.2 python的安装目录 : 2、创建项目 2.1在终端创建的步骤 执行过程 2.2使用pycharm(企业版)创建 django项目 2.3对比两种方式 2.4默认…

推荐5款体积小、无广告、超实用的办公软件

大家好,我又来啦,今天给大家带来的几款软件,共同特点都是无广告、超实用,大家观看完可以自行搜索下载哦。 1.网络分析工具——Wireshark Wireshark 是一款开源的网络分析工具,它可以让你捕获和浏览网络上的数据包&am…

《我命由我不由天》蔡志忠——笔记二

目录 经典记录 天才不是天生的 如何认识自己、如何发掘和重用自己 自己拯救自己才是唯一出路 了解自己是人生第一个智慧 科学家证实,成就与选择目标的年龄成反比! “努力无用论” 经典记录 天才不是天生的 美国物理学家理查德费曼两三岁时&#x…

Ubuntu18.04 制作系统ISO镜像并物理机还原(Systemback)

简单记录使用Systemback工具打包Ubuntu系统得到iso镜像文件,并在物理机上进行还原(安装)的流程。测试结果发现,使用打包的iso文件安装得到的Ubuntu系统继承了我之前的Ubuntu系统,包括并不限于如下内容:Home…

公司新来个卷王,让人崩溃...

最近内卷严重,各种跳槽裁员,相信很多小伙伴也在准备今年的面试计划。 在此展示一套学习笔记 / 面试手册,年后跳槽的朋友可以好好刷一刷,还是挺有必要的,它几乎涵盖了所有的软件测试技术栈,非常珍贵&#x…

母亲节营销案例大盘点,真的有被狠狠共情住

⼀直以来,节⽇营销都是品牌借势和消费者建⽴情感链接的好时机。尤其是在母亲节这个温情的⽇⼦⾥,借助催泪、温情的⼴告歌颂母爱的无私与伟⼤来打动消费,也成为品牌母亲节营销的标配。 随之⽽来的,越来越多的品牌也⾯临困局&#x…

基于粒子群算法优化的核极限学习机(KELM)分类算法-附代码

基于粒子群算法优化的核极限学习机(KELM)分类算法 文章目录 基于粒子群算法优化的核极限学习机(KELM)分类算法1.KELM理论基础2.分类问题3.基于粒子群算法优化的KELM4.测试结果5.Matlab代码 摘要:本文利用粒子群算法对核极限学习机(KELM)进行优化,并用于分…

三硬币模型——机器学习课后作业

题目要求: 给出解决代码如下: import numpy as npdef miu_calc(pii, pi, qi, yj):up_b pii * pi ** yj * (1 - pi) ** (1 - yj)up_c (1 - pii) * qi ** yj * (1 - qi) ** (1 - yj)return up_b / (up_b up_c)yj np.array([1, 1, 0, 1, 0, 0, 1, 0, 1…

MySQL数据库的备份与恢复

一、数据备份的重要性 备份的主要目的是灾难恢复。 在生产环境中,数据的安全性至关重要。 任何数据的丢失都可能产生严重的后果。 造成数据丢失的原因: 程序错误人为操作错误运算错误磁盘故障灾难(如火灾、地震)和盗窃 二、数据…

华为OD机试 - 第一个错误的版本(Java)

一、题目描述 你是产品经理,目前正在带领一个团队开发新的产品。不幸的是,你的产品的最新版本没有通过质量检测。由于每个版本都是基于之前的版本开发的,所以错误的版本之后的所有版本都是错的。 假设你有 n 个版本 [1, 2, …, n]&#xff…

【seata的部署和集成】

seata的部署和集成 seata的部署和集成一、部署Seata的tc-server1.下载2.解压3.修改配置4.在nacos添加配置5.创建数据库表6.启动TC服务 二、微服务集成seata1.引入依赖2.修改配置文件 三、TC服务的高可用和异地容灾1.模拟异地容灾的TC集群2.将事务组映射配置到nacos3.微服务读取…

应用在虚机和容器场景下如何优雅上下线

在生产场景中部署的服务提供者常因业务升级或其他场景需要下线和上线的部署操作,本文总结了应用在上下线过程中会遇到的典型问题,并思考在虚机和容器场景该如何处理这些问题,规避该过程中可能出现的服务消费者的请求失败,实现应用…

人工智能学习07--pytorch16--MobileNet网络详解

MobileNet详解 DW卷积: 每个卷积核的深度为1,而不是像之前一样等于特征矩阵的深度。 每个卷积核只负责输入特征矩阵的一个channel进行卷积运算,再得到相应的输出矩阵的一个channel。 因为每个卷积核只负责一个channel,则采用的特征…

Android WebView 的 addJavascriptInterface 探究

Android WebView 的 addJavascriptInterface 探究 一、前言 Java和JS交互的方式有多种,这里探讨的方式是通过以下方式进行的交互。 webView.addJavascriptInterface(this, "JSBridge") 这篇文章是想弄明白 JavaScript 和 Java是如何实现这种方式互调的,就从源码…

C高级 day1

初始工作路径不在家目录下,在不切换路径的情况下,在家目录下创建一个subdir目录,在subdir这个目录下,创建subdir1和subdir2,并且把/etc/passwd拷贝到subdir1中,把/etc/group文件拷贝到subdir2中&#xff0c…

java获取登陆用户ip方法

今天和大家分享一下获取登录用户 ip的方法,如果你想获取自己的登陆用户 ip,可以参考以下思路: 1.可以通过 Java动态链接库的方式获取到,方法很简单,就是把需要的 ip地址添加到动态链接库中,然后在需要用到时…

Word三线表创建

三线表是论文写作中经常使用到的表格格式 自定义三线表 “插入”-->“表格”,随便插入一个表格,然后将光标移动到表格内 “表设计”-->“其他”-->“新建表格样式” 修改模板名称为“三线表”,方便下次直接套用 首先设置标题行【…

把苹果全家桶用于VR全身追踪是什么体验

此前,青亭网曾报道了一项无需摄像头的VR全身追踪方案:Standable: Full Body Estimation(简称SFBE),这套方案就是利用了头显双手柄数据来模拟预测全身动作数据,效果还算不错。 近期在CHI2023活动上&#xff…