Stable Diffusion7

news2025/1/19 8:20:13

它也写到第七部了..

Stability AI宣布,Stable Diffusion 2.0版本上线!1.0版本在今年8月出炉,三个月不到,还热乎着呢,新版本就来了。

深度学习文本到图像模型的最新版本——Stable Diffusion 2.0。相较于1.0,新的算法比之前的更高效、更稳健。

时间回到几个月前,Stable Diffusion的发布,掀起了一场文本到图像模型领域的新革命。

可以说,Stable Diffusion 1.0彻底改变了开源AI模型的性质,并且在全球范围内催生了数百种新模型,和其他方面的进步。

它是最快达到10K Github star星数的项目之一,在不到两个月的时间里飙升至33K星,在Github上的一众项目中可以封神了。

开发Stable Diffusion 1.0版本的团队是Robin Rombach(Stability AI)和 Patrick Esser(Runway ML),他们来自LMU Munich CompVis Group。

在实验室之前的Latent Diffusion Models基础上,他们开发出了Stable Diffuision 1.0,并且得到了 LAION 和 Eleuther AI 的大力支持。

这次的Stable Diffusion 2.0版本,具有强大的文本到图像模型。

这个模型是由LAION在全新的文本编码器OpenCLIP训练的,跟1.0版本相比,它显著提高了生成图像的质量——这次的模型可以输出默认分辨率为512×512像素和768×768像素的图像。 

使用Stable Diffusion 2.0生成的图像示例,分辨率为768x768

模型在Stability AI的DeepFloyd团队创建的LAION-5B数据集上进行训练。

LAION-5B是一个包含58.5亿个CLIP过滤图像文本对的数据集,比LAION-400M大14倍,曾是世界上最大的可公开访问的图像文本数据集。

训练完成后,就使用LAION的NSFW过滤器进一步过滤,删掉「成人内容」。

这对于很多网友来说,堪称是「史诗级削弱」了……

 

LAION 5B的采集管道流程图

2.0比1.0强在哪里?

具体来看,2.0比1.0有了哪些升级呢?

图像生成质量明显提升

上文我们已经看到,2.0版本中的文本转图像模型默认可以生成512x512 和 768x768 像素分辨率的图像。

 

超分辨率Upscaler扩散模型

Stable Diffusion 2.0包含了一个Upscaler Diffusion模型,这个模型可以将图像分辨率提高四倍

左图:128x128 低分辨率图像。右图:Upscaler 生成的 512x512 分辨率图像

可以看出,这个模型将低质量生成图像 (128×128) 放大为更高分辨率图像 (512×512) 。

有了Upscaler Diffusion的加持,Stable Diffusion 2.0与以前的文本到图像模型结合使用时,可以生成分辨率为2048×2048或更高的图像。

depth2img深度图像扩散模型

团队采用了一种新的深度引导(depth-guided)稳定扩散模型——depth2img。

它扩展了1.0之前的图像到图像功能,为创意应用提供了全新的可能性。

通过使用现有模型,Depth2img能够推断输入图像的深度,然后使用文本和深度信息生成新图像。

左边的输入图像可以产生几个新图像(右边)。这种新模型可用于保持结构的图像到图像和形状条件图像合成(structure-preserving image-to-image and shape-conditional image synthesis)

Depth-to-Image

Depth-to-Image 可以提供各种新的创意应用程序,转换后的图像看起来与原始图像截然不同,但仍保持了图像的连贯性和深度。

更新文本引导修复扩散模型  

此外,这次更新还引入了一个新的文本引导(text-guided)修复模型,在新的Stable Diffusion 2.0文本到图像的基础上进行了调整,这样,用户就可以非常智能、快速地替换图像的部分内容。

更新后的修复模型在 Stable Diffusion 2.0 文本到图像模型上进行了微调

过滤掉一些NSFW(不可描述)的内容

经过LAION的NSFW过滤器,「成人内容」都会被砍掉。

总结一下,Stable Diffusion 2 的更新如下——

  • 新的SD模型提供了768×768的分辨率。

  • U-Net的参数数量与1.5版相同,但它是从头开始训练的,并使用OpenCLIP-ViT/H作为其文本编码器。一个所谓的v预测模型是SD 2.0-v。

  • 上述模型是由SD 2.0-base调整而来,它也是可用的,并作为典型的噪声预测模型在512×512图像上进行训练。

  • 增加了一个具有x4比例的潜在文本引导的扩散模型。

  • 完善的SD 2.0基础的深度引导的稳定扩散模型。该模型可用于结构保留的img2img和形状条件合成,并以MiDaS推导的单眼深度估计为条件。

  • 在SD2.0的基础上建立了一个改进的文字引导的绘画模型。

  • 在博客最后,Stability AI团队激动地说——

    就像Stable Diffusion的第一次迭代一样,我们努力优化模型,让它在单个GPU 上运行,因为我们希望从一开始就让尽可能多的人可以使用它。

    我们已经看到,当数百万网友接触到这些模型时,他们共同创造了一些令人惊叹的作品。

  •  这就是开源的力量:挖掘数百万有才华的人的巨大潜力。他们可能没有资源来训练最先进的模型,但他们有能力用一个模型创造令人难以置信的成果。这个新版本及其强大的新功能,将成为无数应用程序的基础,并激发人们全新的创造潜力。

第一家AI绘画「独角兽」

作为机器学习模型的一种,「文本-图像模型」能够将自然语言描述作为输入并生成与该描述匹配的图像。

它们通常结合了语言模型生成图像模型:语言模型将输入文本转换为潜在表示,生成图像模型则将该表示作为条件生成图像。

最有效的「文本-图像模型」,通常是根据从网络上抓取的大量图像和文本数据进行训练的。

依托深度神经网络技术的飞速进步,「文本-图像模型」从2015年开始获得广泛重视。

OpenAI的DALL-E、Google Brain的Imagen等,都能输出质量与真实照片相接近的绘画作品。

Stability AI创建的绘画平台Stable Diffusion,则成为领域杀出的一匹「黑马」。

Stable Diffusion的母公司Stability AI,成立于2020年,总部位于伦敦。

公司背后的出资人是数学家、计算机科学家Emad Mostaque,来自孟加拉国,今年39岁。

Mostaque毕业于牛津大学数学和计算机科学学院,曾在一家对冲基金公司工作过13年。

Stability AI首席执行官Emad Mostaque

凭借Stability AI和他的私人财富,Mostaque希望能够培育一个开源AI研究社区。他的创业公司之前就支持创建「LAION 5B」数据集。

为了训练Stable Diffusion的模型,Stability AI为服务器提供了4,000个Nvidia A100 GPU。

与OpenAI旗下多款AI工具平台不同,开发者可以免费下载Stability AI的底层代码,来训练自己的模型。

Stability AI官网顶部的Slogan「AI by the people,for the people」,正是这种价值观的最好诠释。

 

「人类面临的一些重大挑战有望通过AI解决,」Emad Mostaque表示,「但只有当这项技术面向所有人时,我们才可能达成这一目标。」

「除了我们的75名员工之外,没有任何其他人拥有决策权——无论是亿万富翁、大型基金,还是政府,我们是完全独立的。」Mostaque说,「我们计划使用我们的计算来加速基础人工智能的开源。」

Stable Diffusion是Stability AI独立研发的「文本到图像模型」,于2022年8月发布,一经推出便迅速被一众网友玩疯了。

比如被变成黑寡妇的马院士——

作为目前可用性最高的开源模型,Stable Diffusion在短短2个月的时间里已经被全球超过20万名开发者下载和使用。

Stability AI面向消费者的产品名为DreamStudio,目前已经拥有超过100万名注册用户——他们共同创建了超过1.7亿张图像。

今年10月,Stable Diffusion母公司Stability AI获得了由全球风险投资公司Lightspeed Venture Partners和Coatue Management领投的1.01亿美元融资,估值突破了10亿美元,也是AI绘画领域的第一家「独角兽」。

11月24日,刚刚完成融资的Stability AI便发布了2.0版本,这也让我们对Stable Diffusion的未来产生了更多期待。

网友:体验下降,差评!

不过在国外社交媒体上,不少网友却对Stable Diffusion的本次更新给出了「差评」,理由自然是「模型生成NSFW内容和图片的能力被削弱了」。

是的,这次模型的关键组件功能被改进,使得Stable Diffusion更难生成某些引起争议和批评的图像了,比如广受欢迎的裸体和色情内容、名人的逼真照片以及模仿特定艺术家作品的图像。

 

「他们削弱了模型,」一位用户在Stable Diffusion的reddit上评论道,还获得了208次点赞,完全能代表广大网友的心声。

 

另一位用户则表示:「他们切除并『阉割』了模特。没有艺术,没有人体的自然美,没有画家和摄影师最好的作品中描绘的生死戏剧,这比丑陋本身还要糟糕。」

 

NSFW的全称是「Not Suitable For Work」,简单讲就是一些不适合上班时间浏览的东东。

与OpenAI的DALL-E等「竞争对手」不同,Stable Diffusion是一款完全开源的软件。这允许社区的小伙伴一同开发、改进这款产品,并让开发人员免费将其集成到他们的产品中。

Stable Diffusion「背后的男人」Emad Mostaque曾将它比作「披萨基地」,任何人都可以添加他们选择的成分(训练数据)。

「一个好的模型应该可以供所有人使用,如果你想添加东西,那就加。」他在Discord上表示。

这意味着Stable Diffusion在使用方式上的限制比较少,但也因此,它招致了大量批评。

Stable Diffusion和其他图像生成模型在未经艺术家同意的情况下,在他们的作品上进行训练,并重现他们作品的风格,许多艺术家大为光火。

Stable Diffusion生成特定艺术家风格图像的能力十分强大

这种AI式复制是否合法?目前,这在法律上还是一个悬而未决的问题。

专家表示,在受版权保护的数据上训练人工智能模型可能是合法的,但某些用例可能会在法庭上受到质疑。

可以猜测,Stability AI对模型所做的更改是为了减轻这些潜在的法律挑战。

这次2.0版本的更新,对软件编码和检索数据的方式进行更改,因此,模型复制艺术家作品的能力大大降低。

正统艺术家满意了,创造力爆棚的「成人艺术家」们却很愤怒。

此前,Stable Diffusion就因「涩图生成神器」之名蜚声海内外。

老司机们用它生成一些极具真实感和动漫风格的NSFW内容,甚至包括一些特定个人的NSFW图像(也称非自愿色情)和虐待儿童的图像。

前两天,一款专门生成高质量色情内容而量身定制的AI系统「Unstable Diffusion」应运而生。

此后,大量Reddit和4chan的网民火速用Unstable Diffusion生成了逼真的裸体图像,被「老司机」们玩出了花。

 

在软件官方Discord中谈到2.0版本的变化时,Mostaque也承认这正是Stable Diffusion从训练数据中删除裸体和色情图片的初心。

「在开放模式中不能有儿童和NSFW,」Mostaque说,「因为这两种图像可以结合起来制作儿童性虐待素材。」

「在儿童和NSFW中,我们只能选择一个。」

不过在Stable Diffusion的reddit上,一位用户认为「违背了开源社区的精神哲学」,因为删除NSFW内容设立了「审查制度」。

「选择是否制作NSFW内容的权力,应该掌握在用户手中,而不是由审查模式来评判。」

但已经有聪明的网友很快就想通了,安慰了他——

Stable Diffusion是开源的,这意味着「这类」训练数据可以很容易地添回第三方版本,而且新软件不会影响早期版本。

参考资料:

https://stability.ai/blog/stable-diffusion-v2-release

https://twitter.com/StabilityAI/status/1595590319566819328?ref_src=twsrc%5Etfw

https://www.reddit.com/r/StableDiffusion/comments/z3ferx/comment/ixlmkkj/?utm_source=share&utm_medium=web2x&context=3

https://theverge.vip/2022/11/24/23476622/ai-image-generator-stable-diffusion-version-2-nsfw-artists-data-changes

 whaosoft aiot http://143ai.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/44324.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

面试必知的9个性能测试指标,你完全了解吗?

吞吐量 单位时间内,系统能够处理多少请求,吞吐量代表网络的流量,TPS越高,吞吐量越大,还包含了数据的吞吐量。一般单位为秒,每秒处理的请求量。 注意:我们看到的JMeter聚合报告一般如下图&…

Kotlin高仿微信-第7篇-主页-动态权限申请

Kotlin高仿微信-项目实践58篇详细讲解了各个功能点,包括:注册、登录、主页、单聊(文本、表情、语音、图片、小视频、视频通话、语音通话、红包、转账)、群聊、个人信息、朋友圈、支付服务、扫一扫、搜索好友、添加好友、开通VIP等众多功能。 Kotlin高仿…

指定牛导|肿瘤专业医生芝加哥大学博士后实现夙愿

Q医生有个愿望,希望拜师在牛导麾下,利用国家留学基金委2年博士后的机会,真正做出科研成果,发表高质量文章。为此列出了合作导师标准并指定了几位教授。经过团队努力,我们终于为其达成夙愿—获得指定牛导的博士后邀请函…

Redis实战之缓存:查询、添加缓存、更新缓存、缓存预热、缓存穿透、缓存雪崩、缓存击穿 解决方案及实例代码

缓存 什么是缓存? 缓存(Cache), 就是数据交换的缓冲区,俗称的缓存就是缓冲区内的数据,一般从数据库中获取,存储于本地代码。 为什么要使用缓存? 缓存数据存储于代码中,而代码运行在内存中,内存的读写性能远高于磁盘,缓存可以大大降低用户访问并发量带来的服务器…

SpringBoot利用Spring SPI机制实现自动按顺序加载注册JavaBean到容器中

前言: 1、SPI机制(Service Provider Interface),服务提供接口,主要是用来解耦,资源文件目录下的 \resources\META-INF\spring.factories 我们把它归纳为Spring为我们提供的SPI机制,通过这种机制,我们可以在…

docker 容器原理分析笔记(下)

目录 chroot rootfs Volume(数据卷) 打包一个go镜像 总结 chroot 当一个容器被创建的时候,我们希望容器中进程看到的文件是一个独立的隔离环境,我们可以在容器进程重启之前挂载整个根目录 /,由于 Mount Namespace 的存在,这…

发布 .NET MAUI / MAUI Blazor 应用 (1) - Windows

发布用于Windows的 .NET MAUI 应用 打开 PowerShell 终端 , 命令行进入工程目录,以我的例子工程为例, cd BlazorMaui BlazorMaui 替换为你自己工程名字 New-SelfSignedCertificate -Type Custom -Subject "CNBlazorMaui" -KeyUsage DigitalSignature -FriendlyName &…

python如何将日期字符串格式化年月日

今天用Python的DataFrame处理数据时,相对一波数据按日期分组处理,但是原始数据包含时间分秒,无法按日期分组,因此需要先将数据转成只包含年月日的数据格式。但是写代码处理过程中发现有点绕,不熟悉的同学容易绕晕。这种…

编程语言如何推动DeFi成为主流?

随着DeFi的快速增长,提供DeFi服务的平台和产品也如雨后春笋般纷纷冒头。作为衡量DeFi协议管理资金规模的标准之一,DeFi“总锁仓量”在过去两年一路从100亿美元增长到超400亿美元,期间更是一度冲上1800亿美元的巅峰。但直到今天,智…

Python爬虫request模块的get、post方法应用

目录 post方法使用 一、确定爬取网站的数据 二、分析数据类型和相应类型 三、使用requetst模块方法进行爬取 四、源代码分享 get的方法使用 一、分析抓取网站操作 二、参数的分析和组成 三、使用get模块方法进行爬取结果 四、源代码分享 思考和总结 参考网站 爬虫是…

MySQL---触发器详解

目录 一、触发器的介绍 二、触发器的语法 (1)insert触发器 (2)update触发器 (3)delete触发器 一、触发器的介绍 触发器是与表有关的数据库对象,指在insert/update/delete 之前或之后&…

4-UI自动化-selenium三大等待操作

4-UI自动化-selenium三大等待方式selenium三大等待方式强制等待timd.sleep隐式等待implicitly_wait显式等待WebDriverWait显式等待和隐式等待的区别上篇介绍了3-UI自动化-八大元素定位,xpath定位方式和相关的常问面试题 本篇来学习三大等待方式 ♡\color{red}{\hear…

如何用蓝牙实现无线定位(一)--系统原理

1. 简介 本项目将利用多个BLE4.0蓝牙模块,配合主控板、OLED显示屏等,构建一个无线定位系统。 本项目的系统构成为:3个信号塔,1个中控台,2个被定位的目标。 无线定位的用途有很多。比如,我们可以把固定的目…

zabbix拓扑图和聚合图形

目录 一、环境准备 1、搭建zabbix基础环境 2、创建被监控主机 二、拓扑图 1、拓扑图作用 2、拓扑图绘制步骤 三、聚合图形 1、聚合图形的作用 2、创建聚合图形 一、环境准备 1、搭建zabbix基础环境 zabbix基础环境部署参照:zabbix基础环境部署_桂安俊kyli…

方格取数 (两条路径,使得取得的数字和为最大)

设有 NN 的方格图,我们在其中的某些方格中填入正整数,而其它的方格中则放入数字0。如下图所示: 某人从图中的左上角 A 出发,可以向下行走,也可以向右行走,直到到达右下角的 B 点。 在走过的路上&#xff0…

Vue中的组件生命周期

一个组件从创建到销毁的过程 成为生命周期。 在我们使用Vue3 组合式API 是没有 beforeCreate 和 created 这两个生命周期的 组件生命周期如下: onBeforeMount() 在组件DOM实际渲染安装之前调用。在这一步中,根元素还不存在。onMounted() 在组件的第一次…

【手把手】教你玩转SpringCloud Alibaba之Sentinel整合GateWay

1、网关流控介绍 在微服务系统中,网关提供了微服务系统的统一入口,所以在做限流的时候,肯定是要在网关层面做一个流量的控制,Sentinel 支持对 Spring Cloud Gateway、Zuul 等主流的 API Gateway 进行限流。 Sentinel 1.6.0 引入…

R语言隐马尔可夫模型HMM识别不断变化的市场条件

了解不同的市场状况如何影响您的策略表现可能会对您的收益产生巨大的影响。最近我们被客户要求撰写关于隐马尔可夫模型的研究报告,包括一些图形和统计输出。 某些策略在波动剧烈的市场中表现良好,而其他策略则需要强劲而平稳的趋势,否则将面…

【PdgCntEditor】解决PDF的目录页码和PDF实际页码不一致的问题,书签页码偏移页面偏移功能,PDF页面标签的添加

一、问题背景 大部分的图书对应的PDF,目录中的页码并非PDF中直接索引的页码,两者之间存在一定的偏移值;导致我们看目录后面的页码,并不能直接借此数字索引到对应页面,非常麻烦。 二、改变页码标签 这是第一种方法&…

电脑技巧:Win10粘贴文件到C盘提示没有权限的解决方法

❤️作者主页:IT技术分享社区 ❤️作者简介:大家好,我是IT技术分享社区的博主,从事C#、Java开发九年,对数据库、C#、Java、前端、运维、电脑技巧等经验丰富。 ❤️个人荣誉: 数据库领域优质创作者🏆&#x…