ImageBind与Stable diffusion使用记录

news2026/2/16 12:14:24

参考代码

ImageBind：GitHub - facebookresearch/ImageBind: ImageBind One Embedding Space to Bind Them All

ImageBind + stable-diffusion-2-1-unclip：GitHub - Zeqiang-Lai/Anything2Image: Generate image from anything with ImageBind and Stable Diffusion

最近很火的ImageBind，它通过利用多种类型（depth、text、heatmap、audio、IMU）的图像配对数据来学习单个共享表示空间。ImageBind不需要所有模态同时出现的数据集，它利用了图像的绑定属性，只要将每个模态的embedding与图像embedding对齐，就能实现所有模态的迅速对齐。

但从ImageBind开源的代码来看，作者只开源了encode部分（把不同模态的数据映射到对齐的embedding space中），无法直接实现text2img、audio2img等功能。为了实现上述功能，大佬们便把ImageBind提供的“unified latent space”和stable diffusion中的decoder结合起来，感兴趣的可以去Github上搜Anything2Image或者BindDiffusion。这里我参考了ImageBind和Anything2Image的代码，复现了audio+img to img、text to img等功能，代码运行的依赖库可参考ImageBind的（pip install -r requirements.txt），再加上diffusers即可（pip install diffusers）。

代码示例

import torch
from diffusers import StableUnCLIPImg2ImgPipeline
import sys
sys.path.append("..")
from models import data
from models import imagebind_model
from models.imagebind_model import ModalityType


model = imagebind_model.imagebind_huge(pretrained=True).to("cuda").eval()
pipe = StableUnCLIPImg2ImgPipeline.from_pretrained("stabilityai/stable-diffusion-2-1-unclip", torch_dtype=torch.float16).to("cuda")

with torch.no_grad():
    ## image
    image_path = ["/kaxier01/projects/GPT/ImageBind/assets/image/bird.png"]
    embeddings = model.forward({ModalityType.VISION: data.load_and_transform_vision_data(image_path, "cuda")}, normalize=False)
    img_embeddings = embeddings[ModalityType.VISION]
    ## audio
    audio_path = ["/kaxier01/projects/GPT/ImageBind/assets/wav/wave.wav"]
    embeddings = model.forward({ModalityType.AUDIO: data.load_and_transform_audio_data(audio_path, "cuda")}, normalize=True)
    audio_embeddings = embeddings[ModalityType.AUDIO]
    embeddings = (img_embeddings + audio_embeddings) / 2

    images = pipe(image_embeds=embeddings.half()).images
    images[0].save("/kaxier01/projects/GPT/ImageBind/results/bird_wave_audioimg2img.png")

遇到问题及解决方法

这块遇到的问题主要是模型下载超时的问题，解决方法如下：

方法一：

到官网（Hugging Face – The AI community building the future.）去搜索模型并下载（最好全部文件都下下来），如

下载好后，在代码中指定模型路径即可，如

# 模型路径: "/kaxier01/projects/GPT/ImageBind/checkpoints/stable-diffusion-2-1-unclip"
pipe = StableUnCLIPImg2ImgPipeline.from_pretrained("/kaxier01/projects/GPT/ImageBind/checkpoints/stable-diffusion-2-1-unclip", torch_dtype=torch.float16).to("cuda")

方法二：

下载git-lfs

apt-get update
apt-get install git-lfs
git lfs install

下载并安装好后，即可使用该指令来下载模型，如

git lfs clone https://huggingface.co/stabilityai/stable-diffusion-2-1-unclip

结果展示

thermal2img

input

output

audio+img2img

input

语音（wave.wav）+图片

output

text2img

input

'a photo of an astronaut riding a horse on mars'

output

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/572361.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

ImageBind与Stable diffusion使用记录

参考代码

代码示例

遇到问题及解决方法

结果展示

thermal2img

input

output

audio+img2img

input

output

text2img

input

output

相关文章

条码控件Aspose Barcode，满足您条码需求的终极解决方案

一文了解国内外电子后视镜(CMS)现行法规标准

如何卸载Visio秘钥

【SpringBoot教程】开发提效工具Lombok引入 Mybatis-plus-generator代码自动生成工具

STM32 Cubemx Freertos 工程, 用GDB进行debug时候, 跳进HardFault_Handler的问题

淘宝图片搜索接口API封装

hive 架构及 metastore 功能简单介绍

企业微信也能接入ChatGPT啦~你也能成功，步骤超详细~

【王道·操作系统】第二章进程管理【未完】

再谈sqlserver事务

如何在华为OD机试中获得满分？Java实现【查找重复代码】一文详解

电子劳动合同如何签订才能生效呢？四步就能教会你！

前端正确处理“文字溢出”的思路

小心！认证中的这几个坑别再踩了

网络安全入门学习路线，CSDN最全！建议收藏！

Revit被遮挡的基础及快速构件显隐

开发敏捷高效 | 云原生应用开发与运维新范式

三天吃透Java面试八股文（2023最新整理）

属实不赖！Alibaba开源GitHub星标114K微服务架构全彩进阶手册

Flink第七章:状态编程