多模态图像生成的突破:Image Anything一种无需训练的智能框架

news2024/12/23 17:39:48

多模态图像生成是内容创作领域的热点技术,尤其在媒体、艺术和元宇宙等领域。该技术旨在模拟人类的想象力,将视觉、文本和音频等多种模态属性相关联,以生成图像。早期的方法主要侧重于单一模态输入的图像生成,例如基于图像、文本或音频的生成。这些方法在处理现实世界中更复杂的模态输入时受到限制。

香港科技大学(广州)的研究团队提出了一种名为ImgAny的新型多模态图像生成框架。这一框架无需训练,能够从语言、音频到视觉等多种模态中生成高质量图像,包括图像、点云、热成像、深度和事件数据等。ImgAny通过模仿人类的认知过程,实现了模态间的整合与协调,生成视觉上吸引人的图像。

ImgAny框架能够处理的不同类型的输入模态,并生成相应的图像

ImgAny

ImgAny是一个端到端的多模态生成模型,它能够接受多达七种不同模态的输入,包括语言、音频和五种视觉模态(图像、点云、热成像、深度和事件数据)。这一框架的设计灵感来源于人类的认知过程,通过在实体和属性两个层面上整合多种输入模态,实现了无需特定调整的生成过程。

ImgAny的整体框架结构

ImgAny的整体框架由三个主要部分组成,整体来看ImgAny的框架设计允许它灵活地处理多种模态输入,并通过实体和属性的融合,生成在视觉上具有吸引力且与输入条件一致的图像。

  1. Multi-modal Encoder(多模态编码器)

    这是ImgAny框架的第一部分,负责从各种模态输入中提取特征。对于给定的n种模态,ImgAny包括n个编码器,用于提取多模态数据的特征。例如,如果输入包括文本、图像、音频等,每个模态都会有一个专门的编码器来处理并提取相应的特征。
  2. Entity Fusion Branch(实体融合分支)

    实体融合分支是框架的第二大组成部分,它的目的是确保输入和输出之间的一致性。这一分支通过使用外部的实体知识图谱来集成多模态表示中的实体特征。它首先基于WordNet构建一个实体知识图谱,然后使用文本编码器提取实体名词的特征。通过计算这些特征与多模态特征之间的余弦相似度,确定与多模态特征最相关的实体词,并将这些实体信息融合以形成生成图像的条件之一。
  3. Attribute Fusion Branch(属性融合分支)

    属性融合分支是框架的第三部分,它专注于合并来自所有输入模态的不同属性特征。与实体融合分支类似,属性融合分支也构建了一个属性知识图谱,但这里使用的是属性形容词。通过计算多模态特征的平均值与属性形容词特征之间的相似度,选择最相关的属性词,并提取相应的属性特征。这些属性信息随后被融合,形成生成图像的另一个条件。

实体融合分支是ImgAny中的一个关键创新点。这一分支的目的是保持输入和输出之间的一致性。通过构建一个基于WordNet的实体知识图谱,ImgAny能够提取与多模态特征最相关的实体词汇,并以此为基础生成实体特征。这些特征随后被用于计算实体基础的融合权重,并将多模态特征融合成实体基础的多模态特征。

(a) 实体特征提取器 : 展示了如何通过实体知识图谱提取与输入模态相关的实体特征
(b) 属性特征提取器: 展示了如何通过属性知识图谱提取和处理属性特征

与实体融合分支类似,属性融合分支旨在整合来自所有输入模态的不同属性特征。这一分支首先构建一个属性知识图谱,然后利用预训练的语言模型(如RoBERTa)来提取属性形容词的特征。通过计算多模态特征的平均值与属性形容词特征之间的余弦相似度,ImgAny能够检索出最相关的属性词汇,并据此提取属性特征和属性基础的融合权重,最终融合成属性基础的多模态特征。

ImgAny使用PointBind的多模态编码器作为其特征提取的基础。这些编码器能够处理包括图像、音频、文本等在内的不同模态的输入数据,并从中提取相应的特征表示。这些特征随后被用于实体融合分支和属性融合分支,这两个分支是ImgAny的关键创新点,它们分别负责处理实体和属性信息的融合。

实体融合分支利用了一个基于WordNet构建的实体知识图谱,通过计算多模态特征与知识图谱中实体的相似度,来确定与输入数据最相关的实体。属性融合分支则采用了一个属性知识图谱,它基于WordNet中的属性形容词,并通过预训练的语言模型(如RoBERTa)来辅助筛选和提取特征。

在特征融合之后,ImgAny使用了一个预训练的稳定扩散模型(Stable Diffusion V2.0)作为生成解码器。这个模型能够根据融合后的特征条件,迭代地从高斯噪声图像中去除噪声,逐步生成目标图像。值得注意的是,这个过程中Stable Diffusion的参数是被冻结的,这意味着ImgAny在生成图像时不需要进行额外的训练。

ImgAny的实现还考虑了效率和实用性。通过使用预训练的组件和冻结参数,ImgAny能够以较低的计算成本实现高质量的图像生成,这使得它在实际应用中更为可行。

实验

实验的比较方法包括CoDi和其他基线模型,如PointBind和Stable Diffusion。实验配置包括从文本、音频和图像的任意组合生成图像,以及从文本、音频、图像、点云、热成像、事件和深度的任意组合生成图像。使用的公共数据集包括Flickr-30K、ESC-50和FLIR V1等。

定量比较了ImgAny与其他方法在文本到图像(T→I)、音频到图像(A→I)和热成像到图像(Th→I)任务上的性能

通过与CoDi和基线模型的比较,ImgAny在识别和解释输入模态的多样化语义内容方面表现出色。ImgAny能够保留关键对象和属性,准确复制输入多模态条件中的实体特征(例如狗的形状)和属性特征(例如毛色)。

ImgAny在文本、音频和图像输入模态下生成图像的定性比较结果
表 2为图 4 中所示案例的CLIP得分

ImgAny展示了从热成像、点云和事件等与图像模态差异较大的输入生成图像的有效性。当处理具有五、六或七种模态的输入时,ImgAny在提取和保留多模态输入中的实体和属性特征方面表现出显著的能力。

ImgAny从七种模态输入生成图像的定性比较结果
表 3为图 5中所示案例的CLIP得分

消融研究首先关注于实体融合分支(EFB)对ImgAny性能的影响。通过对比有无EFB的ImgAny在音频到图像和文本到图像生成任务上的表现,研究者发现EFB在保持生成图像中实体信息的一致性方面起着至关重要的作用。定量结果表明,缺少EFB的ImgAny在CLIP得分上平均下降了3.28%,在FID得分上平均下降了13.72%。此外,定性结果也显示了在多种输入模态下,EFB在提取实体特征方面的能力。

有无实体融合分支(EFB)对生成图像的影响
有无实体融合分支(EFB)对ImgAny性能的影响

通过展示有无AFB的ImgAny生成的图像,可以观察到AFB在提取和保留属性特征方面的效果,例如狗的外貌、汽车的标志(奔驰)、消防车的状态和汽车的颜色(黄色)。定量的CLIP得分也显示了AFB在图像生成性能上的显著提升。

有无属性融合分支(AFB)对ImgAny生成图像的影响

人类评估部分涉及了27名参与者,其中大多数是年轻人,年龄在18-34岁之间,性别分布相对均衡,且超过半数的参与者有AIGC模型的相关经验。评估任务要求参与者使用7点Likert量表对生成图像的推理一致性和生成质量进行评分。图像以随机顺序展示给参与者,以减少偏见。

人类评估的结果显示,所有参与者一致认为ImgAny生成的图像在推理一致性方面表现优异,平均得分超过5分,远高于CoDi和基线方法。ImgAny在不同样本间的得分波动较小,这表明其在模仿人类推理和创造力方面具有较高的稳定性和一致性。

人类评估的结果,使用7点Likert量表来评估生成图像的推理一致性

实验证明ImgAny作为一种无需训练的图像生成方法,展现了对任意组合模态的适应性,以及在人类水平推理和创造力方面的能力。通过实体融合分支和属性融合分支的整合,ImgAny在视觉创作方面表现出色。

论文链接:https://arxiv.org/abs/2401.17664

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1890109.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++部分复习笔记下

7. C11 范围for 使用格式 vector<int> v { 1,2,3,4,5 }; for (auto e : v) {cout << e << " "; } cout << endl;底层原理&#xff0c;使用迭代器 vector<int> v { 1,2,3,4,5 }; auto it v.begin(); while (it ! v.end()) {cout…

项目2:API Hunter 细节回顾 -1

一. 接口调用 对于开发者来说&#xff0c;接口的调用应当是方便快捷的&#xff0c;而且出于安全考虑&#xff0c;通常会选择在后端调用第三方 API&#xff0c;避免在前端暴露诸如密码的敏感信息。 若采用 HTTP 调用方式&#xff1a; HttpClientRestTemplate第三方库&#xf…

kaggle量化赛金牌方案(第七名解决方案)(下)

— 无特征工程的神经网络模型&#xff08;得分 5.34X&#xff09; 比赛进入最后阶段&#xff0c;现在是时候深入了解一些关于神经网络模型的见解了。由于 Kaggle 讨论区的需求&#xff0c;我在这里分享两个神经网络模型。第一个是 LSTM 模型&#xff0c;第二个是卷积网络&…

PyPDF2指定范围拆分PDF文件为单个页面

本文目录 前言一、指定范围拆分PDF1、过程讲解2、拆分效果图3、完整代码二、其他问题1、更改页码索引值前言 上一篇文章讲解了怎么讲一个PDF文档分割为多个单页面PDF,本文来讲解一下进阶,就是指定范围拆分PDF页面,有的时候,我们只想把PDF文档中的某几页拆分出来,而不是全…

【论文解读】iSDF: Real-Time Neural Signed Distance Fields for Robot Perception

《iSDF: Real-Time Neural Signed Distance Fields for Robot Perception》提出了一种用于实时签名距离场&#xff08;SDF&#xff09;重建的持续学习系统。 论文&#xff1a;https://arxiv.org/abs/2204.02296https://arxiv.org/abs/2204.02296 项目&#xff1a;iSDFhttps:/…

QT创建地理信息shp文件编辑器shp_editor

空闲之余创建一个简单的矢量shp文件编辑器&#xff0c;加深对shp文件的理解。 一、启动程序 二、打开shp文件 三、显示shp文件的几何图形 四、双击右边表格中的feature&#xff0c;主窗体显示选中feature的各个节点。 五、鼠标在主窗体中选中feature的节点&#xff0c;按鼠标左…

【坚果识别】果实识别+图像识别系统+Python+计算机课设+人工智能课设+卷积算法

一、介绍 坚果识别系统&#xff0c;使用Python语言进行开发&#xff0c;通过TensorFlow搭建卷积神经网络算法模型&#xff0c;对10种坚果果实&#xff08;‘杏仁’, ‘巴西坚果’, ‘腰果’, ‘椰子’, ‘榛子’, ‘夏威夷果’, ‘山核桃’, ‘松子’, ‘开心果’, ‘核桃’&a…

Python爬虫实战案例——王者荣耀皮肤抓取

大家好&#xff0c;我是你们的老朋友——南枫&#xff0c;今天我们一起来学习一下该如何抓取大家经常玩的游戏——王者荣耀里面的所有英雄的皮肤。 老规矩&#xff0c;直接上代码&#xff1a; 导入我们需要使用到的&#xff0c;也是唯一用到的库&#xff1a; 我们要抓取皮肤其…

使用ref定义响应式数据变量

Ref 使用 Ref 可以方便地创建和管理Vue组件中的响应式数据。例如&#xff0c;如果你有一个计数器组件&#xff0c;你可以使用 Ref 来创建一个响应式的计数器变量&#xff0c;然后在组件内部或外部修改这个变量的值&#xff0c;而不需要手动触发视图更新。 先声明一个变量&…

数据结构初阶 堆的问题详解(三)

题目一 4.一棵完全二叉树的节点数位为531个&#xff0c;那么这棵树的高度为&#xff08; &#xff09; A 11 B 10 C 8 D 12 我们有最大的节点如下 假设最大高度为10 那么它的最多节点应该是有1023 假设最大高度为9 那么它的最多节点应该是 511 所以说这一题选B 题目二 …

昇思25天学习打卡营第11天|基于MindSpore通过GPT实现情感分类

学AI还能赢奖品&#xff1f;每天30分钟&#xff0c;25天打通AI任督二脉 (qq.com) 基于MindSpore通过GPT实现情感分类 %%capture captured_output # 实验环境已经预装了mindspore2.2.14&#xff0c;如需更换mindspore版本&#xff0c;可更改下面mindspore的版本号 !pip uninsta…

【深海王国】小学生都能玩的语音模块?ASRPRO打造你的第一个智能语音助手(4)

Hi~ (o^^o)♪, 各位深海王国的同志们&#xff0c;早上下午晚上凌晨好呀~ 辛勤工作的你今天也辛苦啦(/≧ω) 今天大都督继续为大家带来系列——小学生都能玩的语音模块&#xff0c;帮你一周内快速学会语音模块的使用方式&#xff0c;打造一个可用于智能家居、物联网领域的语音助…

01 Docker 概述

目录 1.Docker简介 2.传统虚拟机 vs 容器 3.Docker运行速度快的原因 4.Docker基本组成三要素 5.Docker 平台架构 入门版 架构版 1.Docker简介 Docker是基于Go语言实现的云开源项目。 Docker的主要目标是&#xff1a;Build, Ship and Run Any App, Anywhere&#xff0c…

抖音常用的视频剪辑软件有哪些,变速视频如何制作?

抖音是一款当下流行的短视频软件。很多人都想在上面发表自己的作品&#xff0c;但是也还有人因为不会剪辑&#xff0c;找不到合适的视频制作软件&#xff0c;一直没能行动。今天就为大家解答抖音常用的制作视频软件有哪些&#xff0c;如何调整抖音制作视频的速度。 希望大家看完…

AzureDataFactory 实体间的关联如何处理(Lookup)

使用ADF从外部数据源(例如Sql Server)往D365推数时&#xff0c;实体间的Lookup一定是要做的&#xff0c;本篇以我项目中的设备为例&#xff0c;设备表中有产品的lookup字段 设备表结构如下 msdyn_customerasset 表名ID 设备表guidSerialNumber设备序列号ProductCode设备对应的…

Hadoop3:NameNode和DataNode多目录配置(扩充磁盘的技术支持)

一、NameNode多目录 1、说明 NameNode多目录&#xff0c;需要在刚搭建Hadoop集群的时候&#xff0c;就配置好 因为&#xff0c;配置这个&#xff0c;需要格式化NameNode 所以&#xff0c;如果一开始没配置NameNode多目录&#xff0c;后面&#xff0c;就不要配置了。 2、配置…

Linux环境下的字节对齐现象

在Linux环境下&#xff0c;字节对齐是指数据在内存中的存储方式。字节对齐是为了提高内存访问的效率和性能。 在Linux中&#xff0c;默认情况下&#xff0c;结构体和数组的成员会进行字节对齐。具体的对齐方式可以通过编译器选项来控制。 在使用C语言编写程序时&#xff0c;可…

技术市集 | 如何通过WSL 2在Windows上挂载Linux磁盘?

你是否常常苦恼&#xff0c;为了传输或者共享不同系统的文件需要频繁地在 Windows 和 Linux 系统之间切换&#xff0c;既耽误工作效率&#xff0c;也容易出错。 那么有没有一种办法&#xff0c;能够让你在Windows系统中像访问本地硬盘一样来操作Linux系统中的文件呢&#xff1…

jni原理和实现

一、jni原理 主要就是通过数据类型签名和反射来实现java与c/c方法进行交互的 数据类型签名对应表 javac/cbooleanZbyteBcharCshortSintIlongLfloatFdoubleDvoidVobjectL开头&#xff0c;然后以/分割包的完整类型&#xff0c;后面再加; 比如String的签名就是Ljava/long/Strin…

基于jeecgboot-vue3的Flowable流程-集成仿钉钉流程(一)一些样式的调整使用

因为这个项目license问题无法开源&#xff0c;更多技术支持与服务请加入我的知识星球。 1、比如下面的发起人双击后出现的界面不正常&#xff0c; 看它的样式主要是这个里面的margin-left应该太小了&#xff0c; [data-v-45b533d5] .el-tabs__content { margin-top: 50px;mar…