deepfloyd/IF

news2026/2/10 21:29:49

Stable Diffusion团队放大招！新绘画模型直出AI海报，实现像素级图像生成AI画文字终于能画对了https://mp.weixin.qq.com/s/_pwBD4-wLA9zNHBpD6WdNgDeepFloyd IF — DeepFloydhttps://deepfloyd.ai/deepfloyd-ifhttps://colab.research.google.com/#scrollTo=e669eec4&fileId=https%3A//huggingface.co/DeepFloyd/IF-notebooks/blob/main/pipes-DeepFloyd-IF-v1.0.ipynbhttps://colab.research.google.com/#scrollTo=e669eec4&fileId=https%3A//huggingface.co/DeepFloyd/IF-notebooks/blob/main/pipes-DeepFloyd-IF-v1.0.ipynb是由研究机构DeepFloyd开发，stability ai提供了gpu计算和训练模型的基础设施，可以认为IF是Imagen的开源复现版本，目前只有英文版本，代码集成diffusers。

一、Deepfloyd IF解决了文生图的两大难题：

1.准确绘制文字（霓虹灯招牌上写着xxx）

2.准确理解空间关系（一只猫照镜子看见狮子的倒影）

使用DeepFloyd IF，可以把文字巧妙的放置到画面中任何位置，有利于商品渲染图，海报等。

二、模型

DeepFloyd IF基于扩散模型，但与之前的sd相比由两大不同：

1.负责理解文字的部分从openai的clip换成T5-XXL

2.负责图像生成的部分从潜扩散模型换成了像素级扩散模型

其实就是和IMagen基本保持了一直，包括后面生成图像之后接了两个diffusion版本的sr。

上图是模型架构图，其中在每个模块提供了不同参数版本的模型，其中IF-I-XL（4.3B）和IF-II-L（1.2B）需要16G显存，IF-I-XL和IF-II-L和stable X4需要24G显存。其中语言模型理解文本后通过扩散模型生成64x64的下图，再通过不同层次的扩散模型和超分模型生成大图。

在这种架构下，通过把指定图像缩小回64x64，再使用新的prompt重新执行扩散，也可以实现以图生图并调整风格、内容和细节。

三.效果

谷歌Parti和英伟达eDiff-1都可以准确绘制文字，AI不会写字主要是clip的问题，不过eDiff-1不开源，谷歌的所有生图模型都不开源。

四、prompt：

A fuzzy cute owlA spiky fierce porcupineA scaly mischievous dragon

is drinking very dark beer in the baris playing volleyball on the beachis driving the car

in a photorealistic stylein a street art stylein a Chinese watercolour style

A cuddly adorable koalaA slimy agile frogA playful furry fox

playing the drums in a rock bandparticipating in a hot dog eating contestworking as a pilot

in a photorealistic stylein a mosaic stylein a pop art style

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/579095.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！