深度学习论文: Image Segmentation Using Text and Image Prompts
Image Segmentation Using Text and Image Prompts
PDF: https://arxiv.org/abs/2503.10622v1
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
1 概述
本文以CLIP模型为骨干网络,扩展了基于Transformer的解码器以实现密集预测。在扩展版PhraseCut数据集训练后,系统可根据自由文本提示或表达查询的附加图像生成图像二值分割图。本文详细分析了基于图像提示的不同变体,这种新型混合输入方式不仅支持上述三类分割任务,还适用于任何可通过文本或图像查询定义的二值分割任务。实验表明,该系统能有效适应涉及功能属性或物理特性的广义查询。
核心创新点:
- <