【LLM】deepseek多模态之Janus-Pro和JanusFlow框架

news2025/1/30 9:53:37

note

文章目录

note
一、Janus-Pro：解耦视觉编码，实现多模态高效统一
- 技术亮点
- 模型细节
二、JanusFlow：融合生成流与语言模型，重新定义多模态
- 技术亮点
- 模型细节
Reference

一、Janus-Pro：解耦视觉编码，实现多模态高效统一

anus-Pro是一个新颖的自回归框架，统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径，同时仍采用单一的Transformer架构进行处理，解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突，还提升了框架的灵活性。

技术亮点

视觉编码解耦：采用独立的路径分别处理多模态理解与生成任务，有效解决视觉编码器在两种任务中的功能冲突。
统一 Transformer 架构：使用单一的 Transformer 架构处理多模态任务，既简化了模型设计，又提升了扩展能力。
高性能表现
- 多模态理解：模型性能匹配甚至超越任务专用模型。
- 图像生成：高质量图像生成能力，适配 384x384 分辨率，满足多场景需求。

在这里插入图片描述

模型细节

视觉编码器：采用 SigLIP-L[1]，支持 384x384 分辨率输入，捕捉图像细节。
生成模块：使用 LlamaGen Tokenizer[2]，下采样率为 16，生成更精细的图像。
基础架构：基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 打造。

二、JanusFlow：融合生成流与语言模型，重新定义多模态

技术亮点

架构简约且创新：无需复杂改造，直接将生成流融入大语言模型框架，简化了多模态建模流程。
图像生成能力优越：结合 Rectified Flow 与 SDXL-VAE[3]，实现高质量 384x384 图像生成，广泛适配不同应用场景。
高灵活性与可扩展性：支持多任务扩展，成为统一多模态框架的优秀选择。

模型细节

视觉编码器：同样采用 SigLIP-L[4]，确保图像细节捕捉能力。
生成模块：基于 Rectified Flow 与 SDXL-VAE，生成精细度更高的图像。
基础架构：构建于 DeepSeek-LLM-1.3b-base，结合预训练与监督微调后的 EMA 检查点，性能表现卓越。

Reference

[1] SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384
[2] LlamaGen Tokenizer: https://github.com/FoundationVision/LlamaGen
[3] SDXL-VAE: https://huggingface.co/stabilityai/sdxl-vae
[4] SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384
[5] Janus-Pro Github 仓库: https://github.com/deepseek-ai/Janus
[6] JanusFlow Github 仓库: https://github.com/deepseek-ai/Janus
[7] MIT License: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE
[8] DeepSeek 模型协议: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL
[9] https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
[10] 实测 | 比较Qwen2.5-VL与Janus-Pro-7B在视觉理解上效果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2286371.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！