发表时间:arXiv 2024年5月15日
论文链接:https://arxiv.org/pdf/2309.11499
作者单位:Xi’an Jiaotong University
Motivation:本文介绍了 DREAMLLM,这是一个学习框架,首先实现了多功能多模态大型语言模型 (MLLM),其授权在多模态理解和创建之间经常被忽视的协同作用。
现有研究并没有完全意识到多模态创建和理解之间的潜在学习协同作用,在创造力方面仅显示出边际改进,并且在多模态理解方面仍然存在不足。现有研究存在的共性问题:创造和理解不能兼得。
解决方法:DREAMLLM 对两个基本原则进行操作。第一个侧重于通过在原始多模态空间中直接采样来生成语言和图像后验建模。这种方法避免了CLIP等外部特征提取器固有的局限性和信息丢失,获得了更全面的多模态理解。其次,DREAMLLM 促进了原始、交错的文档的生成,对文本和图像内容进行建模,以及非结构化布局。这允许 DREAMLLM 有效地学习所有条件、边际和联合多模态分布。因此,DREAMLLM 是第一个能够生成自由形式的交错内容的 MLLM。
实现方式:DREAMLLM 不仅将所有模态原始数据作为输入,而且还以真正端到端的方式作为输出(即输出与输入相同,见图 1)。
交错文档作为输入,解码以产生输出。文本和图像都被编码为 MLLM discrete token embeddings for the MLLM input.。一个特殊的** token预测在哪里生成图像**(其他论文也是这么用的,常见的做法,就是要预测在生成文本的过程中什么时候插入图像)。随后,将一系列dream query输入 MLLM,捕获整体历史语义。图像由以查询语义为条件的 SD 图像解码器合成。然后将合成图像反馈回 MLLM 以进行后续理解(为什么还要反馈回 MLLM ? 形成自回归的闭环? 是的)。
**实验:**DREAMLLM 是一种多功能的多模态通才,擅长零样本或上下文视觉语言理解和合成任务。
任务包括:multimodal comprehension,text-conditional image synthesis,multimodal joint creation & comprehension
多模态理解,文本条件图像合成,多模态联合创作与理解。
结论:DREAMLLM:可实现多模态交互创作通俗解释就是,你让DREAMLLM帮你写一个故事,它不仅可以帮助完善故事,还可以同时生成与故事内容情节紧密相关的插图,一步到位。DREAMLLM能清晰的理解了文本和图像之间的关系,并能够协同地处理和生成它们。
Clip和Blip存在的缺点:这些模型缺乏完整的自回归,因为它们只输出语言。