AI绘画工具Midjourney:和Discord互相成就

news2024/11/18 3:47:55

前言

提到文生图,很多人都会想到植根于根植于Discord社区的Midjourney,本篇文章就基于作者的使用体验+思考,并结合了Discord来对Midjourney进行探讨,感兴趣的朋友一起来看看吧。

如果要说现在最火的文生图,不得不说到Midjourney,它根植于Discord社区,也因此我们聊的时候会结合Discord对它进行展开探讨。

坦率说,当下国内并没有看到一篇真正琢磨Midjourney的文章,更多是媒体报道,在这里Super抛砖引玉,基于少量的使用体验+思考,希望能和大家一起拨开迷雾,找到对的方向。

一、 简述Midjourney

1. Midjourney是什么?

在这里插入图片描述

Midjourney is an independent research lab exploring new mediums of thought and expanding the imaginative powers of the human species.

We are a small self-funded team focused on design, human infrastructure, and AI. We have 11 full-time staff and an incredible set of advisors.

Midjourney是一个独立的研究实验室,探索新的思维媒介,扩大人类物种的想象力

专注于设计、人力基础设施和人工智能。

这是它们官网的介绍,我们现在可见的是文本生成图片的产品,未来产品形态还是可能会出现变化的。

首页里的第一个按钮“Join in the beta”,直接会跳转到它们在Discord上的频道:

在这里插入图片描述

截至目前已经有381万用户加入它们的Discord频道。

大部分工作Midjourney都通过Discord来完成,比如最核心的bot:

用户主要通过Discord的bot机制,通过提交Prompt(提示词),获得图片。

Midjourney也通过bot机制来完成一些其他工作,比如:

  • 将用户生成的图片同步到官网的个人中心;
  • 通过官网收取订阅费,再对用户授予使用次数;

后面会简单阐述下Discord,方便大家更好地理解Midjourney和Discord是如何共生的。

2. 创始人David Holz

David Holz:我的名字是David Holz,是个连续创业者。简短来说,我的经历是:我在高中的时候做过设计生意,大学学的是物理和数学,我在NASA和Max Planck工作的时候攻读了流体力学博士学位。

有一次我不知所措,把所有的事情都放在一边。所以我搬到了旧金山,在2011年左右创办了一家名为Leap Motion的科技公司。我们销售那些可以在手上做动态捕捉的设备,创造了很多手势界面空间。

我创立了Leap Motion并且经营了12年,(但)最终,我希望寻找一个不同的环境而不是一家风投支持的大公司,我离开并创办了Midjourney。

现在,它的规模还很小,我们只有10个人,没有投资者,而且我们也不是以财务回报为动机的。我们没有压力销售什么东西也不用成为上市公司,只是为了未来十年能够有一个家,可以从事很多比较有意义的、酷的项目,希望不仅是对我,还对世界有意义,并且享受乐趣。

【注意,当前资本很热的情况下确实并未看到Midjourney融资的新闻,并且我猜测付费率应该能过5%(早期全球范围内几乎独此一份),也会带来一个月200万美元以上的收入,个人觉得没有必要拿融资。】

他对于Midjourney的理解大体是这样的:

“Midjourney不光是想象力的引擎,往未来迈一步,如果不是一次拍摄几张照片,而是一次拍摄几万张照片,面对这一切,我会感觉自己就像是小孩看着水池的深处,知道自己不会游泳,却能感觉到水池的深度。

AI就是水,人们把它看成老虎,这是错的。水也有危险,但水也是文明的驱动力,如果人类能知道如何与水共处,会过得更好。

Midjourney是一股新的水源。”

这一段有点韵味,建议翻到文末看一下TheVerge采访的原文感受一下。

3. Midjourney欲向何方?

We’re working on a lot of different projects. It’s going to be a wide and diverse research lab. But there are themes: things like reflection, imagination, and coordination. And what we’re starting to become well known for is this image creation stuff.

And we don’t think it’s really about art or making deepfakes, but — how do we expand the imaginative powers of the human species? And what does that mean? What does it mean when computers are better at visual imagination than 99 percent of humans?

That doesn’t mean we will stop imagining. Cars are faster than humans, but that doesn’t mean we stopped walking. When we’re moving huge amounts of stuff over huge distances, we need engines, whether that’s airplanes or boats or cars.

And we see this technology as an engine for the imagination. So it’s a very positive and humanistic thing.

Midjourney在做很多不同的项目,但是创造图像这个工作让他们出名了。

我觉得他们肯定会在这个有着强烈需求的方向上继续拓展,包括可以看到他们也在招聘相关的人才来扩展:

在这里插入图片描述

但相信有了足够的资金后,他们还是会在“things like reflection, imagination, and coordination”方向上探索种种可能性。

二、Discord造就Midjourney

“A lot of people ask us, why don’t you just make an iOS app that makes you a picture?” Midjourney’s founder, David Holz, told The Verge in an interview. “But people want to make things together, and if you do that on iOS, you have to make your own social network. And that’s pretty hard. So if you want your own social experience, Discord is really great.”

为什么是Discord?创始人Holz在回答为什么不做个iOS App的时候,说到,如果我们想做一个自己的社交网络,非常难,但我们想让大家一起创造,从这点来说,Discord非常棒的实现介质。

这种选择很好的帮助了Midjourney快速成长,在继续展开前,我们最好先理解一下Discord是什么?

1. Discord是什么?

在这里插入图片描述

Discord是2015年上线的,最初主打游戏语音连麦,基于Voip技术,由于多端支持(特别是支持网页端)、免费、上手门槛低,然后语音清晰、延时低、连接稳定这些特点,逐步获得用户的认可。

疫情之后,由于Discord的社区功能,从游戏领域破圈,比如,他成了欧洲大量高校的线上教学工具:

在这里插入图片描述

图源知乎

我们可以理解,Discord的本质是一个社区,语音只是他的主打功能之一。

Discord的两位创始人表示:“Discord与大多数在线社交工具完全不同,它没有游戏化系统,没有追随者人数,没有算法推荐。它就是创造了一个地方,让你感觉就像你的朋友就在身边,你遇到他们并与他们交谈、闲聊。”

在这里插入图片描述

你可以非常便捷的创建服务器,在服务器上设立不同的频道,可以理解为频道是不同的主题房间。

另外一个很关键的点是,Discord有Bot,你可以把它理解为机器人,或者插件,允许第三方在Discord提供的接口下独自开发。

在这里插入图片描述

这极大的扩展了社区的功能,也增加了用户的粘性,并且支持开放邀请Bot加入频道的功能(Midjourney也支持了邀请功能)。

Midjourney通过在Discord上创建了自己的服务器,并创建了大量的频道,以及开发了自己的机器人,来向用户提供服务。

2. 如何在Discord里使用Midjourney?

我们进一步,简单来和大家分享一下如何在Discord里使用Midjourney,这样一些无法访问的朋友可以更好地理解:

首先还是要注册一个账号,然后进入新手的newbie频道就可以快速生成图片:

在这里插入图片描述

在newbie频道,“/”可以掉出所有的命令:

在这里插入图片描述

当你输入/imagine +提示词,再回车后,就相当于把Prompt提交给了bot,接着会进入生成过程:

在这里插入图片描述

会有个从模糊到清晰的图像生成过程和进度给到你,

在这里插入图片描述

完成后会让你从4张图中选择,注意此时还没有结束,你可以从4张图中选择一张来U(Upscale,放大像素并提升细节),或者V(Variation,基于所选图片来延伸变形),1~4代表着左上到右下的4张照片。

比如我点击了V4之后,bot又进入了一次新的图片生成过程:

在这里插入图片描述

这里面,我觉得第二张黑色的太阳不错,

在这里插入图片描述

点了U2:

在这里插入图片描述

然后就生成了最终的图,当然你还可以做变形、用网页打开原图,以及给出你的反馈,是惊喜还是失望,等操作。

我点击了Upscale to Max,把清晰度拉满,最后生成了:

在这里插入图片描述

以上就是生成图片的过程。

每个新用户会有一些免费点数,使用完后,Bot会提示你,该交钱啦:

在这里插入图片描述

这一部分在后面的商业模式部分会再展开,现在先跳过去,我们下面来聊聊本节标题,为什么是Discord造就Midjourney?

3. 为什么是Discord造就了Midjourney呢?

首先,Discord是一个共创的土壤。

Inside the community, you have a million people making images, and they’re all riffing off each other, and by default,everybody can see everybody else’s images. You have to pay extra to pull out the community — and usually, if you do that, it means you’re some type of commercial user.

So everyone’s ripping off each other, and there’s all these new aesthetics. It’s almost like aesthetic accelerationism. And they’re all bubbling up and swirling round, and they’re not AI aesthetics. They’re new, interesting, human aesthetics that I think will spill out into the world.

Holz说,个体的想象力是有限的,但我们发现把人们放到一起,大家就会想象力爆棚,所以我们需要创造一个Midjourney的社交,它就是基础设施:Discord。

在社区里,大家都在互相模仿,相当于提供了一个共创的土壤。

如果用户愿意付出额外费用脱离社区自己玩,也恰恰说明他们是特殊的商业客户。

我们来看看Discord可以做什么:

在这里插入图片描述

公告区,创始人Holz发布了一个公告,请付费会员对新的V4算法产出的图片质量做一个评分,发动群众,相当于最后系统会借鉴用户评分去调整模型的生成倾向。

在这里插入图片描述

不同的主题频道,可以把喜好不同的付费用户分流到不同的频道内,帮助用户之间更好的形成共创。

其次,Discord有广泛的用户基础

在今年7月底,负责Discord社区运营的高级经理戴(Mindy Day)表示,Discord月活超过1.5亿

广泛的用户认知也大幅降低了导流转化的成本。

包括前面说的Discord支持多端访问,Super自己都是直接用网页版本访问Midjourney频道,也很流畅,这种体验的优秀也保证了用户的使用感受。

最后,Discord的Bot机制可以帮助Midjourney很好地完成服务

刚才我们介绍过了Bot机制,这里再做个简单的总结:

  1. 用户给Bot发送Prompt;
  2. Bot监测用户的付费情况(以及图片生成额度情况);
  3. 如果有限额,Midjourney在后端直接生成图片并通过Bot返给用户;
  4. 如果无限额,提示用户付费。

由于Discord的这些因素,Midjourney可以持续的快速增长,只需要维护好Bot,以及后端服务即可,大量的降低了其他部分工作量,可以用极少量的员工支持大规模的用户。

4. 基于Discord的Midjourney由于什么爆火?

在这里插入图片描述

《Théâtre D’opéra Spatial》

8月底,美国科罗拉多州博览会的美术大赛公布了获奖结果,一幅名为《太空歌剧院(Théâtre D’opéra Spatial)》的作品在“数字艺术”类别中摘得了桂冠。

这幅图无论是主题、光影、人物、色彩在专业人士眼中都算得上是上乘之作,然后被爆料是作者使用AI生成的(其实是Ai生成后精修的),被人质疑合法性、公平性,并和艺术可能会消亡挂上钩。

这引起了轩然大波,当然,Midjourney就是这个新闻背后的AI……事实上也带来了海量的用户。

根据报道,Midjourney在8月底应该只有30万左右用户,到了9月底就达到了150万+,说明8月底这次美术大赛事件对他们用户增长带来的巨大增长。

再加上前面说的用户使用门槛最低(只需要加入Discord,输入Prompt),简单、效果好、超级牛逼的冷启动,使得它破圈了,再加上本身基于Discord建立的社区不断地鼓励用户共创、增加了粘性,这个增长回路使得Midjourney不断地爆发:

在这里插入图片描述

得益于Discord的社区调性、Bot机制实现的共创效果、以及Midjourney生成的高质量图片抓人的眼球,进而带来的用户传播自增长,这几个部分共同构成了Midjourney的持续增长。

到今天看到的数据用户总数已经破380万。

当然我们也要知道,主动退出Discord的用户毕竟是少数,380万可以算是一个累计用户数(虚荣指标),不过最近登录Discord,我也发现基本能看到的在线用户数都在30万左右,在某种程度上来说,这个用户活跃度还是很高的。

另一个角度,Midjourney和Discord互相成就,Midjourney也是Discord上用户数量最多的服务器。

这里直接将该软件分享出来给大家吧~
在这里插入图片描述

1.stable diffusion安装包

随着技术的迭代,目前 Stable Diffusion 已经能够生成非常艺术化的图片了,完全有赶超人类的架势,已经有不少工作被这类服务替代,比如制作一个 logo 图片,画一张虚拟老婆照片,画质堪比相机。

最新 Stable Diffusion 除了有win多个版本,就算说底端的显卡也能玩了哦!此外还带来了Mac版本,仅支持macOS 12.3或更高版本

在这里插入图片描述

2.stable diffusion视频合集

我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,一步步带你入坑stable diffusion,科学有趣才能更方便的学习下去。

在这里插入图片描述

3.stable diffusion模型下载

stable diffusion往往一开始使用时图片等无法达到理想的生成效果,这时则需要通过使用大量训练数据,调整模型的超参数(如学习率、训练轮数、模型大小等),可以使得模型更好地适应数据集,并生成更加真实、准确、高质量的图像。

在这里插入图片描述

4.stable diffusion提示词

提示词是构建由文本到图像模型解释和理解的单词的过程。可以把它理解为你告诉 AI 模型要画什么而需要说的语言,整个SD学习过程中都离不开这本提示词手册。

在这里插入图片描述

5.SD从0到落地实战演练

在这里插入图片描述

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名SD大神的正确特征了。

这份完整版的stable diffusion资料我已经打包好,需要的点击下方插件,即可前往免费领取!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1884275.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

openmetadata1.3.1 自定义连接器 开发教程

openmetadata自定义连接器开发教程 一、开发通用自定义连接器教程 官网教程链接: 1.https://docs.open-metadata.org/v1.3.x/connectors/custom-connectors 2.https://github.com/open-metadata/openmetadata-demo/tree/main/custom-connector (一&…

本周波动预警!7月将一路上涨,牛市“复苏“?低于6万美元的比特币,是熊市陷阱吗?

比特币在第三季度伊始发出了一些积极信号。随着上周末的涨势,BTC/USD最高一度达到63818美元,这让人对比特币能否重拾牛市信心满怀希望。不过,在冲破关键阻力位64000美元之前,市场参与者仍保持谨慎态度。比特币要想维系开头的牛市态…

掌握React与TypeScript:从零开始绘制中国地图

最近我需要使用reactts绘制一个界面,里面需要以中国地图的形式展示区块链从2019-2024年这五年的备案以及注销情况,所以研究了一下这方面的工作,初步有了一些成果,所以现在做一些分享,希望对大家有帮助! 在这…

使用Qt制作一个简单的界面

1、创建工程 步骤一: 步骤二: 步骤三: 选择 build system,有qmake、CMake 和 Qbs 三个选项。 CMake 很常用,功能也很强大,许多知名的项目都是用它,比如 OpenCV 和 VTK,但它的语法繁…

heic格式转化jpg如何操作?heic转jpg,分享6款图片转化器!

随着苹果iOS 11系统的推出,HEIC格式作为一种新的图片格式逐渐走进大众视野,heic格式在保证照片质量的同时,能显著减少系统存储空间的占用。然而,这也给非苹果用户带来了一些困扰,因为HEIC格式的图片在Windows系统上并不…

深入理解C# log4Net日志框架:功能、使用方法与性能优势

文章目录 1、log4Net的主要特性2、log4Net框架详解配置日志级别 3、log4Net的使用示例4、性能优化与对比5、总结与展望 在软件开发过程中,日志记录是一个不可或缺的功能。它可以帮助开发者追踪错误、监控应用程序性能,以及进行调试。在C#生态系统中&…

探秘 Django 专业之道

一、Django项目开发 1.web框架底层 1.1 网络通信 注意:局域网 个人一般写程序,想要让别人访问:阿里云、腾讯云。 去云平台租服务器(含公网IP)程序放在云服务器 先以局域网为例 我的电脑【服务端】 import sock…

无法访问指向的web服务器(或虚拟主机)的目录,请检查网络设置

微信公众平台,进行业务域名、JS接口安全域名、网页授权域名配置时,遇到的问题中有:无法访问指向的web服务器(或虚拟主机)的目录,请检查网络设置,这里简单记录一下处理过程。 关于这个问题首先保证下载…

基于PHP技术的校园论坛设计的设计与实现08586

基于PHP技术的校园论坛设计的设计与实现 摘 要 本项目旨在基于PHP技术设计与实现一个校园论坛系统,以提供一个功能丰富、用户友好的交流平台。该论坛系统将包括用户注册与登录、帖子发布与回复、个人信息管理等基本功能,并结合社交化特点,增强…

2023软考中级《软件设计师》(备考冲刺版) | 数据库系统

目录 1.数据库的基本概念 1.1 数据库体系结构 1.2 三级模式结构 1.3 数据仓库 2.数据库设计过程 2.1 概念结构设计 2.1.1 概念设计过程 2.1.2 E-R图 2.2 逻辑结构设计 2.2.1 关系模式相关概念 2.2.2 E-R图转关系模式(涉及下午题) 2.2.3 关系…

SysML与MBSE的关系

SysML与MBSE的关系 对于任何基于模型的系统工程 (MBSE) 方法,推荐的最佳实践是基于模型的语言、基于模型的工具、基于模型的流程和基于模型的架构框架的协同应用,如下图所示 系统架构四元组 图。经过十年将SysML应用于棘手的系统…

海思NNIE部署yolov5-shufflenet

1.简要说明 由于NNIE上transpose支持的顺序是固定的,shufflenet那种x=torch.transpose(x,1,2).contiguous() 的操作一般是不支持的。需要进行调整。 2.使用工程以及修改 使用的是开源工程:GitHub - Lufei-github/shufflev2-yolov5: shufflev2-yolov5:lighter, faster and ea…

基于“香港世界”的SLAM技术介绍

在视觉感知技术中,理解和描述复杂的三维室外场景至关重要,尤其是自动驾驶技术的发展要求对陌生环境具有更强的适应能力和鲁棒性。传统上,使用“曼哈顿世界”和“亚特兰大世界”模型来描述具有垂直和水平结构的城市场景。 当遇到像香港这样地形…

python爬虫之scrapy框架基本使用

python爬虫之scrapy框架基本使用 1、环境安装:pip install scrapy 2、创建一个工程:scrapy startproject xxxPro 3、cd xxxPro 4、在spiders子目录中创建一个爬虫文件:scrapy genspider spiderName www.xxx.com 5、执行工程:scra…

当年很多跑到美加澳写代码的人现在又移回香港?什么原因?

当年很多跑到美加澳写代码的人现在又移回香港?什么原因? 近年来,确实有部分曾经移民到美国、加拿大、澳大利亚等地的香港居民选择移回香港。这一现象与多种因素相关,主要可以归结为以下几点: 疫情后的环境变化&#…

高通源代码版本ADK工具版本源代码release版本MDE版本介绍

0 Preface/Foreword 1 版本介绍 高通代码存放在chipcode中,网址URL:Chipcode 1.1 高通源代码版本 Bluetooth Audo芯片的高通源代码版本号(类似于分类的类名):ADK.SRC.1.0 (最新qcc307x系列及之后的芯片如…

如何用matplotlib绘制图像分类任务的类别特征空间分布

import matplotlib.pyplot as plt import numpy as np from sklearn.decomposition import PCA from sklearn.datasets import load_iris from mpl_toolkits.mplot3d import Axes3D# 加载示例数据(Iris 数据集) data load_iris() X data.data y data.…

wordpress建站有哪些优点

对于绝大多数站长来说,使用wordpress建站是一个非常不错的选择。那么wordpress建站有哪些优点呢?下面小编就来为大家解答。 1.wordpress是什么? WordPress是一款全球最受欢迎的内容管理系统(CMS),主要用于…

【第11章】MyBatis-Plus条件构造器(上)

文章目录 前言一、功能详解1. allEq2. eq3. ne4. gt5. ge6. lt7. le8. between9. notBetween10. like11. notLike12. likeLeft13. likeRight14. notLikeLeft15. notLikeRight16. isNull17. in18. notIn19. inSql20. notInSql21. eqSqlSince 3.5.622. gtSql Since 3.4.3.223. ge…

LLM大模型工程师面试经验宝典--进阶版(2024.7月最新)

一、什么是生成式大模型? 生成式大模型(一般简称大模型LLMs)是指能用于创作新内容,例如文本、图片、音频以及视频的一类 深度学习模型。相比普通深度学习模型,主要有两点不同: 1. 模型参数量更大&#xff…