理解生成协同促进？华为诺亚提出ILLUME，15M数据实现多模态理解生成一体化

news2025/7/14 8:27:53

多模态理解与生成一体化模型，致力于将视觉理解与生成能力融入同一框架，不仅推动了任务协同与泛化能力的突破，更重要的是，它代表着对类人智能（AGI）的一种深层探索。通过在单一模型中统一理解与生成，模型能够从语义层面真正 “洞察” 视觉、文本与世界本质之间的深层联系，从而在复杂场景中实现更加智能、灵活的交互与任务执行。

近期，华为诺亚方舟实验室提出了统一多模态大模型 ——ILLUME。这一模型以 LLM 为核心，采用 “连续图像输入 + 离散图像输出” 的架构，巧妙融合了多模态理解与生成的双重能力，并深度挖掘了统一框架下理解与生成能力协同增强的潜力，展示了对多模态任务的全新诠释。

论文标题：ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance
论文地址：https://arxiv.org/pdf/2412.06673

总体来说，本文贡献如下：

1、ILLUME 在保持整体架构可扩展与可泛化的前提下，通过合理的视觉词表、训练策略与数据配比策略，成功以仅约 15M 的图文对数据用于图文对齐，实现了在视觉理解（包括自然图像和文档图表）、生成、编辑等多元任务上的出色表现，总体效果优于现有统一模型例如 Chameleon, Show-O 和 Janus，与专用单任务模型相媲美。

2、ILLUME 提出一种自提升式多模态对齐策略，通过让模型对自身生成的负样本进行内省式评估，统一模型在理解和生成两方面的能力可实现协同进化。

ILLUME：理解生成一体的多模态大模型

挑战一：如何高效训练一个统一多模态模型？

现有的统一多模态模型构建方案多集中于在 LLM 基础上拓展视觉词表，以支持视觉生成任务。这些模型通常需要大量的图文对数据来实现图文对齐训练。这种对海量数据的依赖，在一定程度上放缓了这一领域进一步探索与实践的进程。

与此不同的是，我们在 ILLUME 中仅使用约 15M 的图文对数据完成预训练，并在视觉理解（涵盖自然图像与文档图表）、生成与编辑等多类视觉文本任务上达到与专有模型相媲美的水平。这一成果并非仅体现于数据规模的减少，更重要的是在架构、训练策略、数据配比以及视觉词表表征方式上的关键设计，使模型能够更高效地进行图文对齐学习。这种方法为在更广泛和更深层的多模态语义理解与生成融合中奠定了基础。

关键设计 1：视觉词表的表征选择

传统基于 VQGAN 的视觉词表往往通过重建原始像素作为目标，但这种基于底层纹理的表征不利于与文本模态进行高层语义对齐。与此相反，我们采用语义特征重建的方式构造视觉词表，直接在高层语义空间中完成图文对齐的特征学习。实验表明，这一设计可显著加速 MLLM 的预训练过程。