Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成AI画文字终于能画对了https://mp.weixin.qq.com/s/_pwBD4-wLA9zNHBpD6WdNgDeepFloyd IF — DeepFloydhttps://deepfloyd.ai/deepfloyd-ifhttps://colab.research.google.com/#scrollTo=e669eec4&fileId=https%3A//huggingface.co/DeepFloyd/IF-notebooks/blob/main/pipes-DeepFloyd-IF-v1.0.ipynbhttps://colab.research.google.com/#scrollTo=e669eec4&fileId=https%3A//huggingface.co/DeepFloyd/IF-notebooks/blob/main/pipes-DeepFloyd-IF-v1.0.ipynb是由研究机构DeepFloyd开发,stability ai提供了gpu计算和训练模型的基础设施,可以认为IF是Imagen的开源复现版本,目前只有英文版本,代码集成diffusers。
一、Deepfloyd IF解决了文生图的两大难题:
1.准确绘制文字(霓虹灯招牌上写着xxx)
2.准确理解空间关系(一只猫照镜子看见狮子的倒影)
使用DeepFloyd IF,可以把文字巧妙的放置到画面中任何位置,有利于商品渲染图,海报等。
二、模型
DeepFloyd IF基于扩散模型,但与之前的sd相比由两大不同:
1.负责理解文字的部分从openai的clip换成T5-XXL
2.负责图像生成的部分从潜扩散模型换成了像素级扩散模型
其实就是和IMagen基本保持了一直,包括后面生成图像之后接了两个diffusion版本的sr。
上图是模型架构图,其中在每个模块提供了不同参数版本的模型,其中IF-I-XL(4.3B)和IF-II-L(1.2B)需要16G显存,IF-I-XL和IF-II-L和stable X4需要24G显存。其中语言模型理解文本后通过扩散模型生成64x64的下图,再通过不同层次的扩散模型和超分模型生成大图。
在这种架构下,通过把指定图像缩小回64x64,再使用新的prompt重新执行扩散,也可以实现以图生图并调整风格、内容和细节。
三.效果
谷歌Parti和英伟达eDiff-1都可以准确绘制文字,AI不会写字主要是clip的问题,不过eDiff-1不开源,谷歌的所有生图模型都不开源。
四、prompt:
A fuzzy cute owlA spiky fierce porcupineA scaly mischievous dragon
is drinking very dark beer in the baris playing volleyball on the beachis driving the car
in a photorealistic stylein a street art stylein a Chinese watercolour style
A cuddly adorable koalaA slimy agile frogA playful furry fox
playing the drums in a rock bandparticipating in a hot dog eating contestworking as a pilot
in a photorealistic stylein a mosaic stylein a pop art style