简介
Janus-Pro 是由 DeepSeek 开发的一款多模态理解与生成模型,是 Janus 模型的升级版。它能够同时处理文本和图像,既能理解图像内容,又能根据文本描述生成高质量图像。Janus-Pro 的核心目标是通过解耦视觉编码路径,解决多模态理解与生成任务之间的冲突,从而提升模型的灵活性和性能。
Janus-Pro 提供了 1B 和 7B 两种参数规模的版本,支持开源和免费商用,适用于多种应用场景,如广告设计、游戏开发、教育等。
核心特点
Janus-Pro 的核心特点包括:
-
解耦视觉编码:通过独立的路径分别处理多模态理解和生成任务,避免任务间的冲突。理解任务使用 SigLIP 编码器提取高维语义特征,生成任务使用 VQ Tokenizer 将图像转换为离散 ID。
-
统一 Transformer 架构:采用单一的自回归 Transformer 架构处理多模态任务,简化模型设计并提高扩展性。
-
优化的训练策略:包括延长训练时间、调整数据比例、增加高质量合成数据等,显著提升了模型的生成能力和稳定性。
-
加粗样式**多任务支持:能够同时处理图像生成、图像理解、跨模态推理等多种任务,推理能力强大。
模型架构
Janus-Pro 的架构设计基于以下关键组件:
- 视觉编码器:
多模态理解任务使用 SigLIP 编码器提取高维语义特征,并将其映射到语言模型的输入空间。
图像生成任务使用 VQ Tokenizer 将图像转换为离散 ID,并通过生成适配器映射到输入空间。
- 自回归 Transformer:将文本和图像特征序列整合为统一的多模态特征序列,输入到 DeepSeek-LLM 中进行处理。
训练阶段:
-
第一阶段:训练适配器和图像头部,建立语言与视觉元素的联系。
-
第二阶段:统一预训练,使用多模态语料库学习理解和生成任务。
-
第三阶段:监督微调,优化模型在多模态理解和生成任务中的表现。
性能对比
Janus-Pro 在多个基准测试中表现优异:
-
多模态理解:在 MMBench 测试中,Janus-Pro-7B 得分为 79.2,超越了 TokenFlow-XL(68.9)和 MetaMorph(75.2)等模型。
-
-
图像生成:在 GenEval 测试中,Janus-Pro-7B 得分为 0.80,优于 DALL-E 3(0.67)和 Stable Diffusion 3 Medium(0.74)。
-
综合能力:Janus-Pro 在复杂场景的文本-图像对齐度和细节还原方面表现突出,生成的图像具有较高的真实性和细节。
应用场景与未来展望
Janus-Pro 在广告设计、游戏开发、教育等领域具有广泛的应用潜力。未来,DeepSeek 计划通过提高输入分辨率、改进训练数据等方式进一步提升模型性能。
相关文献参考
论文地址
modelscope模型地址
github地址
demo在线