note
文章目录
- note
- 一、Janus-Pro:解耦视觉编码,实现多模态高效统一
- 技术亮点
- 模型细节
- 二、JanusFlow:融合生成流与语言模型,重新定义多模态
- 技术亮点
- 模型细节
- Reference
一、Janus-Pro:解耦视觉编码,实现多模态高效统一
anus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。
技术亮点
- 视觉编码解耦:采用独立的路径分别处理多模态理解与生成任务,有效解决视觉编码器在两种任务中的功能冲突。
- 统一 Transformer 架构:使用单一的 Transformer 架构处理多模态任务,既简化了模型设计,又提升了扩展能力。
- 高性能表现
- 多模态理解:模型性能匹配甚至超越任务专用模型。
- 图像生成:高质量图像生成能力,适配 384x384 分辨率,满足多场景需求。
模型细节
- 视觉编码器:采用 SigLIP-L[1],支持 384x384 分辨率输入,捕捉图像细节。
- 生成模块:使用 LlamaGen Tokenizer[2],下采样率为 16,生成更精细的图像。
- 基础架构:基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 打造。
二、JanusFlow:融合生成流与语言模型,重新定义多模态
技术亮点
- 架构简约且创新:无需复杂改造,直接将生成流融入大语言模型框架,简化了多模态建模流程。
- 图像生成能力优越:结合 Rectified Flow 与 SDXL-VAE[3],实现高质量 384x384 图像生成,广泛适配不同应用场景。
- 高灵活性与可扩展性:支持多任务扩展,成为统一多模态框架的优秀选择。
模型细节
- 视觉编码器:同样采用 SigLIP-L[4],确保图像细节捕捉能力。
- 生成模块:基于 Rectified Flow 与 SDXL-VAE,生成精细度更高的图像。
- 基础架构:构建于 DeepSeek-LLM-1.3b-base,结合预训练与监督微调后的 EMA 检查点,性能表现卓越。
Reference
[1] SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384
[2] LlamaGen Tokenizer: https://github.com/FoundationVision/LlamaGen
[3] SDXL-VAE: https://huggingface.co/stabilityai/sdxl-vae
[4] SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384
[5] Janus-Pro Github 仓库: https://github.com/deepseek-ai/Janus
[6] JanusFlow Github 仓库: https://github.com/deepseek-ai/Janus
[7] MIT License: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE
[8] DeepSeek 模型协议: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL
[9] https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
[10] 实测 | 比较Qwen2.5-VL与Janus-Pro-7B在视觉理解上效果