千呼万唤始出来,期盼已久的SD3终于在6月12日开放了开源模型,本次开源的模型Stable Diffusion 3 Medium,是一个拥有 20 亿参数的SD3模型,其官网公布了它本次更新的特点:
还有更完整版本的大模型目前还未开放,不过依官方说法,未来不久依然会开源。
本次SD3的技术亮点
MMIDT架构SD3采用了MMDiT架构,这是一种专为处理多模态能力而设计的架构。它结合了文本和图像两种模态。
通过三种不同的文本嵌入模型——两个CLIP模型和一个T5,以及一个自编码模型来编码图像token。
这种架构使得图像和文本信息之间可以相互流动和交互,从而在生成的结果中提高对内容的整体理解和视觉表现。
本次Stability 官网特意说明在商业版权上,未经 Stability 单独商业许可,此模型不可用于商业用途
官方网址:https://stability.ai/news/stable-diffusion-3-medium
如果您无法访问,那么强哥这里有最新的3.0 三款模型,Clip包和工作流,以及ComfyUI的整合包已经准备好了,需要的小伙伴可以扫描获取哦。
在显卡需求上,经实测SD3模型运行中大概会占用7-8G的GPU空间,所以**8G显卡已经几乎不太能带得动它了,本次测试我用的是点金手AIPC定制机,4060 TI,16G显存显卡,**它对大显存的显卡还是非常友好的。
在出图时间上,四张1024*1024的图片,4060TI显卡16G显存,大概需要1到1.5分钟的时间,单张大约几十秒,速度非常的喜人。
在出图效果上,SD3模型在空间的理解上有了很大的进步,它能理解空间上下左右及远近之间的关系,
比如:在一个桌子上放着绿色的盒子,盒子旁边有一个红色的苹果,背景是室内,左边一盆绿植,右边是窗户。
在生成字符的理解上,在SD3模型之前,所有的AI绘画在字符的控制上都非常的弱,但SD3模型在生成的字符时,控制的已经非常优秀了。
比如:三只小狗坐在凳子上,穿着衣服,衣服上分别有"Dian"“Jin”“Shou”
在整体质量和照片真实感上,我们和Midjourney的V6做了一个对比:
提示词用的SD官网提供的:
a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. The background is dominated by deep blues and purples, creating a mysterious and dramatic atmosphere. The character’s face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres
Digital art, portrait of an anthropomorphic roaring Tiger warrior with full armor, close up in the middle of a battle, behind him there is a banner with the text “Open Source”.
从美学体系来看,SD3相较于之前已经非常的优越了,提示词写的好的情况下可与MJ较量一番。
还有更多官方提示词:
-
photo of a dog and a cat both standing on a red box, with a blue ball in the middle with a parrot standing on top of the ball. The box has the text “SD3”
-
selfie photo of a wizard with long beard and purple robes, he is apparently in the middle of Tokyo. Probably taken from a phone.
-
A vibrant street wall covered in colorful graffiti, the centerpiece spells “SD3 MEDIUM”, in a storm of colors
-
photo of a young woman with long, wavy brown hair tied in a bun and glasses. She has a fair complexion and is wearing subtle makeup, emphasizing her eyes and lips. She is dressed in a black top. The background appears to be an urban setting with a building facade, and the sunlight casts a warm glow on her face.
-
anime art of a steampunk inventor in their workshop, surrounded by gears, gadgets, and steam. He is holding a blue potion and a red potion, one in each hand
-
photo of picturesque scene of a road surrounded by lush green trees and shrubs. The road is wide and smooth, leading into the distance. On the right side of the road, there’s a blue sports car parked with the license plate spelling “SD32B”. The sky above is partly cloudy, suggesting a pleasant day. The trees have a mix of green and brown foliage. There are no people visible in the image. The overall composition is balanced, with the car serving as a focal point.
总之,SD3的开源还是非常的振奋人心的,生成效果有了大幅提升,围绕其配套展开的微调控制模型和其生态的构建还需要一定的耐心等待。
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。