前言
提到文生图,很多人都会想到植根于根植于Discord社区的Midjourney,本篇文章就基于作者的使用体验+思考,并结合了Discord来对Midjourney进行探讨,感兴趣的朋友一起来看看吧。
如果要说现在最火的文生图,不得不说到Midjourney,它根植于Discord社区,也因此我们聊的时候会结合Discord对它进行展开探讨。
坦率说,当下国内并没有看到一篇真正琢磨Midjourney的文章,更多是媒体报道,在这里Super抛砖引玉,基于少量的使用体验+思考,希望能和大家一起拨开迷雾,找到对的方向。
一、 简述Midjourney
1. Midjourney是什么?
Midjourney is an independent research lab exploring new mediums of thought and expanding the imaginative powers of the human species.
We are a small self-funded team focused on design, human infrastructure, and AI. We have 11 full-time staff and an incredible set of advisors.
Midjourney是一个独立的研究实验室,探索新的思维媒介,扩大人类物种的想象力。
专注于设计、人力基础设施和人工智能。
这是它们官网的介绍,我们现在可见的是文本生成图片的产品,未来产品形态还是可能会出现变化的。
首页里的第一个按钮“Join in the beta”,直接会跳转到它们在Discord上的频道:
截至目前已经有381万用户加入它们的Discord频道。
大部分工作Midjourney都通过Discord来完成,比如最核心的bot:
用户主要通过Discord的bot机制,通过提交Prompt(提示词),获得图片。
Midjourney也通过bot机制来完成一些其他工作,比如:
- 将用户生成的图片同步到官网的个人中心;
- 通过官网收取订阅费,再对用户授予使用次数;
后面会简单阐述下Discord,方便大家更好地理解Midjourney和Discord是如何共生的。
2. 创始人David Holz
David Holz:我的名字是David Holz,是个连续创业者。简短来说,我的经历是:我在高中的时候做过设计生意,大学学的是物理和数学,我在NASA和Max Planck工作的时候攻读了流体力学博士学位。
有一次我不知所措,把所有的事情都放在一边。所以我搬到了旧金山,在2011年左右创办了一家名为Leap Motion的科技公司。我们销售那些可以在手上做动态捕捉的设备,创造了很多手势界面空间。
我创立了Leap Motion并且经营了12年,(但)最终,我希望寻找一个不同的环境而不是一家风投支持的大公司,我离开并创办了Midjourney。
现在,它的规模还很小,我们只有10个人,没有投资者,而且我们也不是以财务回报为动机的。我们没有压力销售什么东西也不用成为上市公司,只是为了未来十年能够有一个家,可以从事很多比较有意义的、酷的项目,希望不仅是对我,还对世界有意义,并且享受乐趣。
【注意,当前资本很热的情况下确实并未看到Midjourney融资的新闻,并且我猜测付费率应该能过5%(早期全球范围内几乎独此一份),也会带来一个月200万美元以上的收入,个人觉得没有必要拿融资。】
他对于Midjourney的理解大体是这样的:
“Midjourney不光是想象力的引擎,往未来迈一步,如果不是一次拍摄几张照片,而是一次拍摄几万张照片,面对这一切,我会感觉自己就像是小孩看着水池的深处,知道自己不会游泳,却能感觉到水池的深度。
AI就是水,人们把它看成老虎,这是错的。水也有危险,但水也是文明的驱动力,如果人类能知道如何与水共处,会过得更好。
Midjourney是一股新的水源。”
这一段有点韵味,建议翻到文末看一下TheVerge采访的原文感受一下。
3. Midjourney欲向何方?
We’re working on a lot of different projects. It’s going to be a wide and diverse research lab. But there are themes: things like reflection, imagination, and coordination. And what we’re starting to become well known for is this image creation stuff.
And we don’t think it’s really about art or making deepfakes, but — how do we expand the imaginative powers of the human species? And what does that mean? What does it mean when computers are better at visual imagination than 99 percent of humans?
That doesn’t mean we will stop imagining. Cars are faster than humans, but that doesn’t mean we stopped walking. When we’re moving huge amounts of stuff over huge distances, we need engines, whether that’s airplanes or boats or cars.
And we see this technology as an engine for the imagination. So it’s a very positive and humanistic thing.
Midjourney在做很多不同的项目,但是创造图像这个工作让他们出名了。
我觉得他们肯定会在这个有着强烈需求的方向上继续拓展,包括可以看到他们也在招聘相关的人才来扩展:
但相信有了足够的资金后,他们还是会在“things like reflection, imagination, and coordination”方向上探索种种可能性。
二、Discord造就Midjourney
“A lot of people ask us, why don’t you just make an iOS app that makes you a picture?” Midjourney’s founder, David Holz, told The Verge in an interview. “But people want to make things together, and if you do that on iOS, you have to make your own social network. And that’s pretty hard. So if you want your own social experience, Discord is really great.”
为什么是Discord?创始人Holz在回答为什么不做个iOS App的时候,说到,如果我们想做一个自己的社交网络,非常难,但我们想让大家一起创造,从这点来说,Discord非常棒的实现介质。
这种选择很好的帮助了Midjourney快速成长,在继续展开前,我们最好先理解一下Discord是什么?
1. Discord是什么?
Discord是2015年上线的,最初主打游戏语音连麦,基于Voip技术,由于多端支持(特别是支持网页端)、免费、上手门槛低,然后语音清晰、延时低、连接稳定这些特点,逐步获得用户的认可。
疫情之后,由于Discord的社区功能,从游戏领域破圈,比如,他成了欧洲大量高校的线上教学工具:
图源知乎
我们可以理解,Discord的本质是一个社区,语音只是他的主打功能之一。
Discord的两位创始人表示:“Discord与大多数在线社交工具完全不同,它没有游戏化系统,没有追随者人数,没有算法推荐。它就是创造了一个地方,让你感觉就像你的朋友就在身边,你遇到他们并与他们交谈、闲聊。”
你可以非常便捷的创建服务器,在服务器上设立不同的频道,可以理解为频道是不同的主题房间。
另外一个很关键的点是,Discord有Bot,你可以把它理解为机器人,或者插件,允许第三方在Discord提供的接口下独自开发。
这极大的扩展了社区的功能,也增加了用户的粘性,并且支持开放邀请Bot加入频道的功能(Midjourney也支持了邀请功能)。
Midjourney通过在Discord上创建了自己的服务器,并创建了大量的频道,以及开发了自己的机器人,来向用户提供服务。
2. 如何在Discord里使用Midjourney?
我们进一步,简单来和大家分享一下如何在Discord里使用Midjourney,这样一些无法访问的朋友可以更好地理解:
首先还是要注册一个账号,然后进入新手的newbie频道就可以快速生成图片:
在newbie频道,“/”可以掉出所有的命令:
当你输入/imagine +提示词,再回车后,就相当于把Prompt提交给了bot,接着会进入生成过程:
会有个从模糊到清晰的图像生成过程和进度给到你,
完成后会让你从4张图中选择,注意此时还没有结束,你可以从4张图中选择一张来U(Upscale,放大像素并提升细节),或者V(Variation,基于所选图片来延伸变形),1~4代表着左上到右下的4张照片。
比如我点击了V4之后,bot又进入了一次新的图片生成过程:
这里面,我觉得第二张黑色的太阳不错,
点了U2:
然后就生成了最终的图,当然你还可以做变形、用网页打开原图,以及给出你的反馈,是惊喜还是失望,等操作。
我点击了Upscale to Max,把清晰度拉满,最后生成了:
以上就是生成图片的过程。
每个新用户会有一些免费点数,使用完后,Bot会提示你,该交钱啦:
这一部分在后面的商业模式部分会再展开,现在先跳过去,我们下面来聊聊本节标题,为什么是Discord造就Midjourney?
3. 为什么是Discord造就了Midjourney呢?
首先,Discord是一个共创的土壤。
Inside the community, you have a million people making images, and they’re all riffing off each other, and by default,everybody can see everybody else’s images. You have to pay extra to pull out the community — and usually, if you do that, it means you’re some type of commercial user.
So everyone’s ripping off each other, and there’s all these new aesthetics. It’s almost like aesthetic accelerationism. And they’re all bubbling up and swirling round, and they’re not AI aesthetics. They’re new, interesting, human aesthetics that I think will spill out into the world.
Holz说,个体的想象力是有限的,但我们发现把人们放到一起,大家就会想象力爆棚,所以我们需要创造一个Midjourney的社交,它就是基础设施:Discord。
在社区里,大家都在互相模仿,相当于提供了一个共创的土壤。
如果用户愿意付出额外费用脱离社区自己玩,也恰恰说明他们是特殊的商业客户。
我们来看看Discord可以做什么:
公告区,创始人Holz发布了一个公告,请付费会员对新的V4算法产出的图片质量做一个评分,发动群众,相当于最后系统会借鉴用户评分去调整模型的生成倾向。
不同的主题频道,可以把喜好不同的付费用户分流到不同的频道内,帮助用户之间更好的形成共创。
其次,Discord有广泛的用户基础。
在今年7月底,负责Discord社区运营的高级经理戴(Mindy Day)表示,Discord月活超过1.5亿。
广泛的用户认知也大幅降低了导流转化的成本。
包括前面说的Discord支持多端访问,Super自己都是直接用网页版本访问Midjourney频道,也很流畅,这种体验的优秀也保证了用户的使用感受。
最后,Discord的Bot机制可以帮助Midjourney很好地完成服务。
刚才我们介绍过了Bot机制,这里再做个简单的总结:
- 用户给Bot发送Prompt;
- Bot监测用户的付费情况(以及图片生成额度情况);
- 如果有限额,Midjourney在后端直接生成图片并通过Bot返给用户;
- 如果无限额,提示用户付费。
由于Discord的这些因素,Midjourney可以持续的快速增长,只需要维护好Bot,以及后端服务即可,大量的降低了其他部分工作量,可以用极少量的员工支持大规模的用户。
4. 基于Discord的Midjourney由于什么爆火?
《Théâtre D’opéra Spatial》
8月底,美国科罗拉多州博览会的美术大赛公布了获奖结果,一幅名为《太空歌剧院(Théâtre D’opéra Spatial)》的作品在“数字艺术”类别中摘得了桂冠。
这幅图无论是主题、光影、人物、色彩在专业人士眼中都算得上是上乘之作,然后被爆料是作者使用AI生成的(其实是Ai生成后精修的),被人质疑合法性、公平性,并和艺术可能会消亡挂上钩。
这引起了轩然大波,当然,Midjourney就是这个新闻背后的AI……事实上也带来了海量的用户。
根据报道,Midjourney在8月底应该只有30万左右用户,到了9月底就达到了150万+,说明8月底这次美术大赛事件对他们用户增长带来的巨大增长。
再加上前面说的用户使用门槛最低(只需要加入Discord,输入Prompt),简单、效果好、超级牛逼的冷启动,使得它破圈了,再加上本身基于Discord建立的社区不断地鼓励用户共创、增加了粘性,这个增长回路使得Midjourney不断地爆发:
得益于Discord的社区调性、Bot机制实现的共创效果、以及Midjourney生成的高质量图片抓人的眼球,进而带来的用户传播自增长,这几个部分共同构成了Midjourney的持续增长。
到今天看到的数据用户总数已经破380万。
当然我们也要知道,主动退出Discord的用户毕竟是少数,380万可以算是一个累计用户数(虚荣指标),不过最近登录Discord,我也发现基本能看到的在线用户数都在30万左右,在某种程度上来说,这个用户活跃度还是很高的。
另一个角度,Midjourney和Discord互相成就,Midjourney也是Discord上用户数量最多的服务器。
这里直接将该软件分享出来给大家吧~
1.stable diffusion安装包
随着技术的迭代,目前 Stable Diffusion 已经能够生成非常艺术化的图片了,完全有赶超人类的架势,已经有不少工作被这类服务替代,比如制作一个 logo 图片,画一张虚拟老婆照片,画质堪比相机。
最新 Stable Diffusion 除了有win多个版本,就算说底端的显卡也能玩了哦!此外还带来了Mac版本,仅支持macOS 12.3或更高版本。
2.stable diffusion视频合集
我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,一步步带你入坑stable diffusion,科学有趣才能更方便的学习下去。
3.stable diffusion模型下载
stable diffusion往往一开始使用时图片等无法达到理想的生成效果,这时则需要通过使用大量训练数据,调整模型的超参数(如学习率、训练轮数、模型大小等),可以使得模型更好地适应数据集,并生成更加真实、准确、高质量的图像。
4.stable diffusion提示词
提示词是构建由文本到图像模型解释和理解的单词的过程。可以把它理解为你告诉 AI 模型要画什么而需要说的语言,整个SD学习过程中都离不开这本提示词手册。
5.SD从0到落地实战演练
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名SD大神的正确特征了。
这份完整版的stable diffusion资料我已经打包好,需要的点击下方插件,即可前往免费领取!