ImageBind 多模态文本、图像、音频 Embedding同一个共享空间

ImageBind 多模态文本、图像、音频 Embedding同一个共享空间

news2025/2/23 18:09:27

参考：
https://github.com/facebookresearch/ImageBind

ImageBind learns a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data

ImageBind 多个模态共享同一个空间Embedding，这样可以通过一个模态检索相似其他模态，相比CLIP文本图像两个模态，向外扩展了很多
在这里插入图片描述

代码测试

1、这边windows上测试的，由于audio相关库没装好，所以只测试了文本与图形相关模态的相似度召回计算；使用尽量还是linux机器

import data
import torch
from models import imagebind_model
from models.imagebind_model import ModalityType

text_list=["A dog.", "A car", "A bird"]
image_paths=[".assets/dog_image.jpg", ".assets/car_image.jpg", ".assets/bird_image.jpg"]
audio_paths=[".assets/dog_audio.wav", ".assets/car_audio.wav", ".assets/bird_audio.wav"]

device = "cuda:0" if torch.cuda.is_available() else "cpu"



# Load data
inputs = {
    ModalityType.TEXT: data.load_and_transform_text(text_list, device),
    ModalityType.VISION: data.load_and_transform_vision_data(image_paths, device),
    # ModalityType.AUDIO: data.load_and_transform_audio_data(audio_paths, device),
}

with torch.no_grad():
    embeddings = model(inputs)

print(
    "Vision x Text: ",
    torch.softmax(embeddings[ModalityType.VISION] @ embeddings[ModalityType.TEXT].T, dim=-1),
)

2、ImageBind 模型编码的Embedding向量维度都是1024
在这里插入图片描述

3、预训练好的模型默认放到.checkpoints/imagebind_huge.pth下

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/509158.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【虾皮shopee来赞达lazada】各区域商品详情API接口返回值说明

【虾皮shopee来赞达lazada】各区域商品详情API接口返回值说明

虾皮shopee电商数据（来赞达lazada同理） 虾皮(shopee)是一个亚洲区域的电商平台，主要在东南亚地区提供电商服务。虾皮提供了丰富的电商数据，包括商品数据、订单数据、会员数据、评价数据等。以下是具体的介绍： 商品数据…

阅读更多...

SpringBoot ( 二 ) 配置Controller

SpringBoot ( 二 ) 配置Controller

2.Controller处理请求由于在建立 SpringBoot项目时选择的 Web > Spring Web , Maven会导入 SpringMVC 框架依赖, 做为 Web处理框架在 SpringMVC框架中 , 通过 Controller类中的方法来处理请求, 产生响应在方法中要解决以下问题标识方法转页接收请求时传递信息封装响…

阅读更多...

生物识别技术的安全挑战

生物识别技术的安全挑战

背景如今，生物识别技术已成为最流行的趋势之一，该趋势旨在通过更具弹性的身份验证机制来提高安全性并阻止网络攻击。目前，全球不仅面临着越来越多的跨设备和系统的网络威胁，冠状病毒大流行还改变了消费者和企业对数字和物理风险…

阅读更多...

ChatGPT会如何影响我们的工作生活和人力资源需求

ChatGPT会如何影响我们的工作生活和人力资源需求

ChatGPT，这几天体验了一下，确实是非常震撼。一方面是因为它的回答确实相当好，自带一点框架逻辑，有上下文理解能力，可以追问，有情商。虽然很多时候都是一些正确的废话它还有媲美一个普通大学生的信息整合…

阅读更多...

PCIe热插拔机制（详细）总结-PCIe专题知识（五）

PCIe热插拔机制（详细）总结-PCIe专题知识（五）

目录前言一、概述二、原理详解2.1 热插拔原理总结2.2 热插拔软硬件要求三、其他相关知识链接1、PCIe物理层总结-PCIE专题知识（一）2、PCIe数据链路层图文总结-PCIe专题知识（二）3、PCIe物理层链路训练和初始化总结-PCIe专题知识&a…

阅读更多...

macOS Ventura 13.4 RC（22F62）发布

macOS Ventura 13.4 RC（22F62）发布

系统介绍 5 月 10 日消息，苹果今日向 Mac 电脑用户推送了 macOS 13.4 RC 更新（内部版本号：22F62），本次更新距离上次发布隔了 49 天。 macOS Ventura 带来了台前调度、连续互通相机、FaceTime 通话接力等功能。其中&a…

阅读更多...

工程化:vite4和vue3里面的命令式loading的封装及使用

工程化:vite4和vue3里面的命令式loading的封装及使用

用习惯了vue的组件使用方式，转到vue3里面发现没有了vue的原型，不能全局挂载方法了，我们要使用命令式调用组件该怎么做，效果展示代码演练 1.组件结构 2.基础的组件模板loading.vue <template><sectionclass="full-loading":class

阅读更多...

Java 诊断神器：Arthas

Java 诊断神器：Arthas

Arthas 是一款线上监控诊断产品，通过全局视角实时查看应用 load、内存、gc、线程的状态信息，并能在不修改应用代码的情况下，对业务问题进行诊断，包括查看方法调用的出入参、异常，监测方法执行耗时，类加载信…

阅读更多...

SpringBoot【开发实用篇】---- 测试

SpringBoot【开发实用篇】---- 测试

SpringBoot【开发实用篇】---- 测试 1. 加载测试专用属性2. 加载测试专用配置3. Web环境模拟测试4. 数据层测试回滚5. 测试数据用例设定说完bean配置相关的内容，下面要对前面讲过的一个知识做加强了，测试。测试是保障程序正确性的唯一屏障，在…

阅读更多...

ubuntu重启ssh服务

ubuntu重启ssh服务

一、开启ssh服务首先需要安装打开ssh服务的库： sudo apt-get install openssh-server 二、检查当前的ssh开启情况： ps -e |grep ssh 三、如果有sshd，则ssh-server已经启动；若仅有agent，则尚未启动； 开启ssh…

阅读更多...

宝塔面板Nginx防火墙安装

宝塔面板Nginx防火墙安装

宝塔防火墙作用要让你的网站保持持久的安全和稳定，开启网站防火墙是必不可少的一步。别等到被攻击的时候再去补救，那个时候某种程度来讲，已经晚了。安装和开启防火墙，就是防患于未然。未雨绸缪。最大程度保护好你的云服务器和网站…

阅读更多...

JAVAWeb11-服务器渲染技术 -JSP-03-JSTL（会使用）

JAVAWeb11-服务器渲染技术 -JSP-03-JSTL（会使用）

1. JSTL 标签库介绍 JSTL 标签库是指 JSP Standard Tag Library ：JSP 标准标签库EL 表达式是为了替换 jsp 中的表达式脚本，JSTL 是为了替换代码脚本。这样 jsp 页面变得更佳简洁JSTL 由五个标签库组成使用 JSTL，需要导入相关的 jar 包 2…

阅读更多...

一文读懂：客户管理系统平台是什么？有什么作用？

一文读懂：客户管理系统平台是什么？有什么作用？

“客户管理系统平台是什么？” “客户管理系统平台有什么作用？在哪里可以应用？怎么用？” 经常可以听到企业内部关于客户管理系统平台的这些问题，本文将会为您一一解答： 一、客户管理系统平台是什么顾名…

阅读更多...

远程桌面连接Windows Server，提示“你的远程桌面服务会话已结束，可能是下列原因之一”错误

远程桌面连接Windows Server，提示“你的远程桌面服务会话已结束，可能是下列原因之一”错误

1、错误描述如下： 2、问题原因出现该问题可能有以下原因： Windows实例的系统盘无Users用户，您可以参考方案一：添加Users用户修复该问题。 Windows实例的系统盘Users用户无读取和执行、列出文件夹内容、读取权限，您…

阅读更多...

python建立字典的方法

python建立字典的方法

在学习 Python的过程中，我们需要用到一些字典类的模块，例如 gdb、 gdtool等，但是这些字典类的模块都是以文件的形式存在。虽然通过 pip等命令也可以进行安装，但是在安装过程中我们需要非常仔细的检查安装包是否正确，以…

阅读更多...

03FPGA—led灯的显示（入门）

03FPGA—led灯的显示（入门）

学习fpga也有段时间了，但后台有几个朋友问我能不能分享一点简单入门例子，于是我打算发经典的如何控制led的例子,本文主要分享设计流程以及简单的verilog语法。设计流程主要包括五个步骤模块设计、波形设计、编写rtl代码、仿真验证、上板验证&#xff0c…

阅读更多...

Windows编程资源，菜单资源，图标资源，光标资源，上下文菜单，字符串资源，加速键资源

Windows编程资源，菜单资源，图标资源，光标资源，上下文菜单，字符串资源，加速键资源

Windows资源是一种二进制数据，由链接器链接进程序成为程序的一部分，通过资源的方式可以很方便的对应用程序进行扩展。在Windows中资源可以是系统自定义的，也可以是用户自定义的。在本篇文章中为大家讲解菜单资源，上下文菜单&#…

阅读更多...

【LeetCode】617. 合并二叉树

【LeetCode】617. 合并二叉树

1.问题给你两棵二叉树： root1 和 root2 。想象一下，当你将其中一棵覆盖到另一棵之上时，两棵树上的一些节点将会重叠（而另一些不会）。你需要将这两棵树合并成一棵新二叉树。合并的规则是：如果两个节点重…

阅读更多...

Win11系统更新后网络速度变的很慢怎么办？

Win11系统更新后网络速度变的很慢怎么办？

Win11系统更新后网络速度变的很慢怎么办？有用户将自己的电脑系统升级到了Win11之后，出现了一些问题。电脑在使用中出现了网络速度变慢的情况。而且其它的设备在连接网络后速度是正常的，那么这个问题要怎么解决？来看看以下的方法分…

阅读更多...

SpringBoot+RXTXcomm实现Java串口通信读取串口数据以及发送数据

SpringBoot+RXTXcomm实现Java串口通信读取串口数据以及发送数据

记录一下使用SpringBootRXTXcomm实现Java串口通信，使用Java语言开发串口，对串口进行读写操作。 RXTXcomm.jar这个包支持的系统较多，但是更新太慢，在win系统下使用没有问题，但是在centos的工控机系统里使用读取和发送有…

阅读更多...

推荐文章

最新文章