ImageBind 横跨六种数据模式,用向量统一 AI 语言

news2024/11/24 14:52:55

出品人:Towhee 技术团队 作者:顾梦佳

人工智能(AI)最近毋庸置疑又迎来了一个高速发展的浪潮。

目前,人工智能的应用已经渗透到各个领域,包括自然语言处理、计算机视觉、语音识别、机器人技术等,为人们的生活和工作带来了极大的便利。而不同领域的人工智能通常难以兼容,跨模式的需求也大幅增加了落地的难度和成本。这是由于文本、图片、音频、视频等不同类型的数据具有不同的特征和结构,需要使用不同的算法和模型来处理。

为了解决这个问题,多模态的深度学习模型一直以来都是一个重点研究方向。以 CLIP 为代表,大多数的多模态模型只能零样本地同时表达两种数据模式,比如文本与图像、文本与音频。然而 ImageBind 在几天前横空出世,能够用同一语义空间表示六种数据模式,包括文本、图像/视频(计算机视觉)、音频、3D 深度、热量(红外辐射)和用于计算运动和位置的惯性测量单元 (IMU)。这意味着六种不同类型的数据之间的“次元壁”被打破了,只需一个 ImageBind 模型便可以实现六种数据之间的比较与转换。

alt

|ImageBind: Holistic AI learning across six modalities

ImageBind 是一种新型的AI模型,由人工智能“巨头” Meta AI 发布。它通过学习一个可用于表示多种感官输入的向量空间,能够同时绑定六种不同的数据模态,而无需明确的监督。这一向量空间能够识别不同模态之间的关系,从而让机器更好地理解和处理多源信息。这一突破能够升级现有的人工智能模型,推进多模态 AI 技术的发展。ImageBind 可以实现零样本和少样本识别,在各种模态的任务中都获得了最先进的成绩,甚至比专门针对这些模态进行训练的专家模型表现更好。这意味着 ImageBind 具有很强的适应性和灵活性,能够适用于各种领域的 AI 应用。

ImageBind 的论文被计算机视觉顶会 CVPR 2023 收录并突出展示,一经发布便引起了广泛关注。它在研究中发现,无需遍历所有配对可能,只要匹配图像就能绑定所有数据模式。ImageBind 将六种模态的表征映射到了一个共同的空间中,构建成一个可绑定了多种模态输入的空间。这个联合的向量空间主要帮助 ImageBind 实现了以下功能:

  • 跨模态检索:首次实现了图像与一些模态之间的对齐,比如音频、3D 深度、文本。

  • 语义组合:自然地组合不同模态的向量,实现通用的语义搜索,比如用鸟的图片和摩托车的声音找到一张同时带有鸟和摩托车的图片。

  • 音频-图像生成:根据音频生成图像,利用了音频向量和预训练的文本-图像生成模型 DALLE-2。

alt

|ImageBind Capacities

对齐不同模态最常见的方法是对比学习,通过构建一对相关的例子和不相关的例子(正样本和负样本)学习向量空间(特征空间)。以往为了解锁更多模态,模型训练都需要使用目标模态与文本配对的数据。比如,虽然 CLIP 率先实现了图像与文本的零样本分类,但是仍需要音频-文本对数据训练才能解锁新的模态。ImageBind 的华点在于更多的模态选择,它可以零样本解锁没有配对文本数据的模态。ImageBind 把其他模态的向量都跟图像向量进行了对齐,从而在一个向量空间中实现多种模态数据的表示。针对文本-图像对,模型训练使用大规模的网络数据集,涵盖了广泛的语义概念。而对于其他模态的训练数据,包括音频、深度、热量、惯性测量单元,ImageBind 使用了自然的自监督配对图像。用不同模态数据对齐视觉特征,以此为目标训练的模型能够学习到一个通用的向量空间,具有强大的零样本迁移能力。

ImageBind 使用了 (I, M) 模态对来学习通用的联合向量空间,其中I代表图像,M 则为另一种模态。给定图像及其在另一种模态中对应的观察结果,基于 Transformer 架构的深度网络会将它们编码为归一化的向量。针对不同模态的数据,ImageBind 选择了该模态专门的预训练模型作为编码器,在每个编码器的最后添加一个模态特定的线性映射层以获得固定长度的向量输出。训练过程中,归一化后的向量会被用于对比学习损失(InfoNCE loss),从而优化编码器。ImageBind 的模型训练使用了32GB V100 或 40GB A100 GPUs,官方已经开源代码,同时提供了一个输出为1024维的预训练权重。

ImageBind 的出现无疑是振奋人心的,很大程度上打破了跨数据模态带来的限制。它提供了一个简单而实用的方法,仅图像对齐就实现了多种模态通用的向量空间。该方法可以完成更丰富的多模态任务,实现多种模态之间的丰富的组合。其中,在跨模态的检索和生成中引入音频输入,这一创新令人印象深刻。然而其论文最后,作者也呼吁大家进行更多新的基准测试,以创新多模态的AI应用。

相关资料

  • 官方博客: imagebind-six-modalities-binding-ai
  • 官网展示: https://imagebind.metademolab.com/
  • 论文链接: ImageBind: One Embedding Space To Bind Them All
  • 代码地址: facebookresearch/ImageBind

  • 如果在使用 Milvus 或Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群

  • 欢迎关注微信公众号“Zilliz”,了解最新资讯。

alt

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/518754.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何自己搭建Scrapy爬虫框架

前言 当你学了一段时间爬虫后,就会知道各种功能太多而且麻烦。还不如自己整理个框架方便的多。因此,从开始写爬虫程序开始,就会慢慢的接触到一些有关爬虫的框架、效率提升而且扩展也很方便。接下来我将会以Scrapy爬虫框架将我的学习过程记录下…

查找符合条件,且不重复的数据 +++ EXCEL的数组公式(未完成)

查找符合条件,且不重复的数据 1 目标问题 查找第1列,月份为5月,并且第2列不重复的数据个数有2个条件 有的版本有唯一计数,有的没有 2 比较简单的方法 2.1 加辅助列,简单公式,其实逻辑是更清晰的 这里主要…

【数据结构】和栈一样简单的结构——队列

【数据结构】和栈一样简单的结构——队列 一、前言1、什么是队列?2、使用什么结构实现? 二、目标三、实现1、初始化工作2、入队2.1、图解思路2.2、代码实现 3、出队3.1、图解思路3.2、代码实现 4、打印队列(用于测试)5、返回队头元素6、返回队尾元素7、返…

Android工程师复盘小米、滴滴的面试全过程,网易offer已收入囊中

背景 时间过的真快,16年毕业到现在也有好几年了,最近面试试着投了几十家Android framework工程师的岗位,也面试了好几家,其中包括滴滴出行、小米、合众新能源、网易、最终收到了网易和滴滴offer,小米二面挂掉&#xf…

四、Eureka注册中心集群配置

目录 需要两个eureka server项目,之前已经有一个springcloud-eureka 1、在springcloud项目下新建一个聚合项目springcloud-eureka2 2、修改springcloud-eureka2的pom文件,引入eureka-server依赖 3、增加springcloud-eureka2的启动类,开启…

五、基于服务发现获取并访问远程接口

目录 1、在springcloud-order项目中新建controller供外部远程访问 2、在springcloud-member项目中新建controller去访问远程接口 3、运行springcloud-eureka、springcloud-member、springcloud-order项目的启动类 4、访问member服务的接口,通过member服务调用or…

WiFi(Wireless Fidelity)基础(十一)

目录 一、基本介绍(Introduction) 二、进化发展(Evolution) 三、PHY帧((PHY Frame ) 四、MAC帧(MAC Frame ) 五、协议(Protocol) 六、安全&#x…

python进阶--月考二

python进阶--月考二 (一)装饰器(二)创建名为express.py文件,编写以下推导式(25分)(三)创建名为process_test.py的文件,计算1-3000之间的水仙花数(…

xormplus是xorm的增强版,为xorm提供类似ibatis的配置文件及动态SQL支持

简介 xorm是一个简单而强大的Go语言ORM库,通过它可以使数据库操作非常简便。本库是基于原版xorm的定制增强版本,为xorm提供类似ibatis的配置文件及动态SQL支持,支持AcitveRecord操作。 github地址:https://github.com/armingli/xorm //安装…

荷兰国旗问题与快速排序

实现: 当arr[i]小于等于num时,arr[i]和小于等于num区域下一个数进行交换,小于等于区域右扩一个位置,指针 i 指向下一个 当arr[i]大于num时,指针 i 指向下一个 指针 i 越界时完成 升级版本:将小于、等于、…

存在comsumer group且存在消费行为,但AdminClient获取不到消费offset值

AdminClient 中的listConsumerGroupOffsets获取不到consumergroup; 网上查找资料说: listConsumerGroupOffsets() 请求返回的消费位移信息未及时更新,仍是稍早时刻的状态。 由于 listConsumerGroupOffsets() 请求需要从 Broker 获取最新的位移信息,如果响应结果的更…

ABAP SAT使用说明

SAT简介 SAT是SAP提供的用来替代SE30的程序性能优化分析工具( runtime analysis),功能比SE30更加强大。 创建SAT变式-设置SAT运行属性,默认为default,可以参照创建一个自己的变式。 SAT变式说明 Size Limits: 设置文件最大容量…

【LeetCode: 279. 完全平方数 | 暴力递归=>记忆化搜索=>动态规划 | 背包模型】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

Goby 漏洞更新 |商混ERP系统 DictionaryEdit.aspx 页面存在SQL注入

漏洞名称:商混ERP系统 DictionaryEdit.aspx 页面存在SQL注入 English Name:SQL injection exists on Lotus ERP DictionaryEdit.aspx pag CVSS core: 8.5 影响资产数:616 漏洞描述: 杭州荷花软件有限公司开发的商混ERP系统。…

开发板和虚拟机socket报错“connect error: No route to host”

学习socket编程时,将服务器程序运行在开发板上,将客户端应用程序运行在 虚拟机Ubuntu16.04 系统,服务器可以正常开启, 但客户端连接时, 报错“connect error: No route to host” 1、网上大多是以下情况: …

易智编译EaseEditing:计算机顶会不一定比SCI期刊更权威!

计算机SCI期刊和学术会议都是评估学术研究水平和影响力的重要指标,但在不同领域、不同学科、不同评价指标下可能会有不同的权威性。 在计算机科学领域,传统上认为顶级学术会议的影响力和权威性更高。 因为计算机科学发展较快,研究领域广泛&a…

【Linux】8. 环境变量

1. 环境变量的引入 先描述一个现象,我们在执行二进制可执行程序的时候,是需要找到其所在位置的(程序要运行必须先加载到内存,是因为冯诺依曼体系结构规定CPU只能从内存中读取数据),所以这也就是为什么我们在运行前带上./的原因&a…

洛谷P5717-三角形分类

洛谷P5717-三角形分类 题目 这道题更像是初中题,但是怎么能完整的按照题目的意思来解决呢,说实话这个题卡了我有一会儿,要做一次性做出这个题,我觉得需要搞清楚if-if 和if-else if-else if,试想这两个的区别是什么&am…

ChatGPT有意识吗?

​ 编辑切换为居中 添加图片注释,不超过 140 字(可选) ChatGPT是一个计算机程序,它没有意识。它只是根据预设的算法和规则来处理输入和输出。虽然它可以模拟人类的对话,但它没有自己的思想或感觉。它只是根据程序设…