零样本异常分割SAA+

news2026/2/14 22:56:05

文章目录

一、测试效果展示
二、相关链接
三、优点总结
四、SAA vs SAA+
- 4.1 SAA
- 4.2 SAA+
五、SAA+结构
- 5.1 专家领域知识（Domain Expert Knowledge）
- 5.2 目标图片上下文信息（Target Image Context）
六、How to use

最近在做缺陷检测，发现CVPR 2023的冠军方案，SAA+，该方案实现了 zero-shot零样本异常分割，也就是我不用训练，开箱即用，这也太爽了吧！

一、测试效果展示

图一墙壁裂缝缺陷

图二胶囊凹陷缺陷

哇哦！还不赖

二、相关链接

论文名称：《2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty
Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection》
模型相关介绍
github
paper

三、优点总结

零样本异常检测zero-shot anomaly segmentation，不用二次训练
融合自然语言和图像本身的特点
利用多模态先验知识进行异常定位
基于专家领域知识和目标图像上下文，实现基础模型对异常分割的非参数自适应

四、SAA vs SAA+

介绍SAA+模型前，先了解SAA+的前身SAA模型

4.1 SAA

图二 SAA

输入
- 图片：四个蜡烛（GT：左下角的蜡烛灯芯过长）
- Naive prompt：朴素提示，“Anomaly“
处理流程
- Anomaly Region Generator：异常区域生成器，即Grounding DINO模型，找到图片中与prompt相关的目标，实现目标检测功能，输出坐标、score
- Anomaly Region Refiner：异常区域细化器，即SAM大模型，输入Generator生成的坐标框作为prompt，实现像素级别的图像分割功能
输出
- 输出为“Wick”，检测结果为四个灯芯异常，结果错误

4.2 SAA+

图三 SAA+

输入
- 图片：四个蜡烛（GT：左下角的蜡烛灯芯过长）
- Multi Modal Prompting：多模态提示，使用了专家领域知识和目标图片上下文信息
处理流程
- Anomaly Region Generator：异常区域生成器，即Grounding DINO模型，找到图片中与prompt相关的目标，实现目标检测功能
- Anomaly Region Refiner：异常区域细化器，即SAM大模型，输入Generator生成的坐标框作为prompt，进行分割，实现像素级别的图像分割功能
输出
- 输出为“Overlong Wick”，检测结果为左下角的蜡烛灯芯过长，结果正确

五、SAA+结构

图四 SAA+结构

图四上半部分是SAA+总识别流程。输入图片和语言提示p^L，经过生成器和细化器，得到一系列的mask图像和分数，由属性提示P^P，提取属性提示中面积阈值、IOU阈值等，对多个mask图过滤，得到符合阈值条件的mask和score。图片输入另一条分支提取图片显著图，使用预训练CNN网络提取图像特征，计算特征点与周围的差异性，得到显著图Sailency Map。融合两条分支的分数，masks&scores和Sailency Map得到校准分数Refined scores，该分数同时考虑了由prompt指导分割获取的分数和图片本身特征的分数。最后分数排序，取前K个候选，得到Anomaly Map。
整个异常分割的流程涉及到2个先验知识，分别是专家领域知识（Domain Expert Knowledge）和目标图片上下文信息（Target Image Context），分别对应图四黄色区域和蓝色区域。
下文详细介绍整个过程中涉及的prompt。

5.1 专家领域知识（Domain Expert Knowledge）

专家领域知识（Domain Expert Knowledge）包含两部分，异常语言提示和异常属性提示。

Language Prompt p^L :语言提示，它可以用异常词汇来描述，如“anomaly”、“defect”，也可以具体描述缺陷类别、颜色，如“black hole”、“white bubble”
Property Prompt P^P ：属性提示，描述异常的面积、IOU等，例如“The anomaly would not exceed 0.3 object area.”。
notice：模型只取0.3这个数值进行过滤，其他的prompt非数字信息（The anomaly would not exceed、 object area）不提取，也就是说在写Property Prompt的时候，对应数字的字符位置不能改变，例如修改成“The anomaly has 0.3 object area.”，0.3变成了第四字符位置，程序会报错。

p^L和P^P案例展示：

#作者的蜡烛案例
textual_prompts = ['color defect. hole. black defect. wick hole. spot. ', ‘candle’]
property_text_prompts = 'the image of candle have 4 similar candle, with a maximum of 1 anomaly. The anomaly would not exceed 0.3 object area. ’

#图一墙壁裂缝案例
textual_prompts = ['color defect. crack. black defect. curve. ', ‘wall’]
property_text_prompts = 'the image of wall have 1 similar wall, with a maximum of 1 anomaly. The anomaly would not exceed 0.3 object area. ’

#图二胶囊案例
textual_prompts = ['color defect. crack. black defect. curve. ', ‘wall’]
property_text_prompts = 'the image of wall have 1 similar wall, with a maximum of 1 anomaly. The anomaly would not exceed 0.3 object area. ’