零样本异常分割SAA+

news2025/1/10 23:28:50

文章目录

  • 一、测试效果展示
  • 二、相关链接
  • 三、优点总结
  • 四、SAA vs SAA+
    • 4.1 SAA
    • 4.2 SAA+
  • 五、SAA+结构
    • 5.1 专家领域知识(Domain Expert Knowledge)
    • 5.2 目标图片上下文信息(Target Image Context)
  • 六、How to use

  最近在做缺陷检测,发现CVPR 2023的冠军方案,SAA+,该方案实现了 zero-shot零样本异常分割,也就是我不用训练,开箱即用,这也太爽了吧!

一、测试效果展示

图一 墙壁裂缝缺陷
图二 胶囊凹陷缺陷

哇哦!还不赖

二、相关链接

论文名称:《2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty
Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection》
模型相关介绍
github
paper

三、优点总结

  • 零样本异常检测zero-shot anomaly segmentation,不用二次训练
  • 融合自然语言和图像本身的特点
  • 利用多模态先验知识进行异常定位
  • 基于专家领域知识和目标图像上下文,实现基础模型对异常分割的非参数自适应

四、SAA vs SAA+

  介绍SAA+模型前,先了解SAA+的前身SAA模型

4.1 SAA

图二 SAA
  • 输入
    • 图片:四个蜡烛(GT:左下角的蜡烛灯芯过长
    • Naive prompt:朴素提示,“Anomaly“
  • 处理流程
    • Anomaly Region Generator:异常区域生成器,即Grounding DINO模型,找到图片中与prompt相关的目标,实现目标检测功能,输出坐标、score
    • Anomaly Region Refiner:异常区域细化器,即SAM大模型,输入Generator生成的坐标框作为prompt,实现像素级别的图像分割功能
  • 输出
    • 输出为“Wick”,检测结果为四个灯芯异常,结果错误

4.2 SAA+

图三 SAA+
  • 输入
    • 图片:四个蜡烛(GT:左下角的蜡烛灯芯过长
    • Multi Modal Prompting:多模态提示,使用了专家领域知识目标图片上下文信息
  • 处理流程
    • Anomaly Region Generator:异常区域生成器,即Grounding DINO模型,找到图片中与prompt相关的目标,实现目标检测功能
    • Anomaly Region Refiner:异常区域细化器,即SAM大模型,输入Generator生成的坐标框作为prompt,进行分割,实现像素级别的图像分割功能
  • 输出
    • 输出为“Overlong Wick”,检测结果为左下角的蜡烛灯芯过长,结果正确

五、SAA+结构

图四 SAA+结构

  图四上半部分是SAA+总识别流程。输入图片和语言提示pL,经过生成器和细化器,得到一系列的mask图像和分数,由属性提示PP,提取属性提示中面积阈值、IOU阈值等,对多个mask图过滤,得到符合阈值条件的mask和score。图片输入另一条分支提取图片显著图,使用预训练CNN网络提取图像特征,计算特征点与周围的差异性,得到显著图Sailency Map。融合两条分支的分数,masks&scores和Sailency Map得到校准分数Refined scores,该分数同时考虑了由prompt指导分割获取的分数和图片本身特征的分数。最后分数排序,取前K个候选,得到Anomaly Map。
  整个异常分割的流程涉及到2个先验知识,分别是专家领域知识(Domain Expert Knowledge)和目标图片上下文信息(Target Image Context),分别对应图四黄色区域和蓝色区域。
  下文详细介绍整个过程中涉及的prompt。

5.1 专家领域知识(Domain Expert Knowledge)

  专家领域知识(Domain Expert Knowledge)包含两部分,异常语言提示和异常属性提示。

  • Language Prompt pL :语言提示,它可以用异常词汇来描述,如“anomaly”、“defect”,也可以具体描述缺陷类别、颜色,如“black hole”、“white bubble”
  • Property Prompt PP :属性提示,描述异常的面积、IOU等,例如“The anomaly would not exceed 0.3 object area.”。
    notice:模型只取0.3这个数值进行过滤,其他的prompt非数字信息(The anomaly would not exceed、 object area)不提取 ,也就是说在写Property Prompt的时候,对应数字的字符位置不能改变,例如修改成“The anomaly has 0.3 object area.”,0.3变成了第四字符位置,程序会报错。

pL和PP案例展示:

#作者的蜡烛案例
textual_prompts = ['color defect. hole. black defect. wick hole. spot. ', ‘candle’]
property_text_prompts = 'the image of candle have 4 similar candle, with a maximum of 1 anomaly. The anomaly would not exceed 0.3 object area. ’

#图一墙壁裂缝案例
textual_prompts = ['color defect. crack. black defect. curve. ', ‘wall’]
property_text_prompts = 'the image of wall have 1 similar wall, with a maximum of 1 anomaly. The anomaly would not exceed 0.3 object area. ’

#图二胶囊案例
textual_prompts = ['color defect. crack. black defect. curve. ', ‘wall’]
property_text_prompts = 'the image of wall have 1 similar wall, with a maximum of 1 anomaly. The anomaly would not exceed 0.3 object area. ’

5.2 目标图片上下文信息(Target Image Context)

  目标图片上下文信息,包含显著性提示(Sailency Prompt,即ps)和置信度提示(Confidence Prompt,即pc),这两个prompt不需要人为输入,而是直接从图片中提取到

  • Sailency Prompt:显著提示,它是从图片中学习,模仿人类直觉,能识别出异常区域和周围区域的差异。使用预训练卷积神经网络提取特征,计算每个特征点与相邻N个特征点的余弦相似度距离,获取显著图,显著图的计算公式如图五。
    在这里插入图片描述
图五 显著图计算方法
  • Anomaly Confidence as Prompt:由置信度排序取K个候选,计算Anomaly Map

六、How to use

安装方法可参考github,这里不具体写了,有问题可以评论区讨论
码文不易,记得点赞、收藏✌️

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1081066.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt打开ui文件经常报错

报错如下: 解决方法: 最后设置成默认值 即可

国标28181 开源WVP-PRO项目部署

感谢大牛的开源框架 https://doc.wvp-pro.cn/#/ 一.直接使用源码部署(在linux) -- 安装环境 yum install -y java-1.8.0-openjdk.x86_64 git maven nodejs npm -- 下载源码-wvp项目 git clone https://gitee.com/pan648540858/wvp-GB28181-pro.git ---…

Linux系统编程:UDP协议和TCP协议

目录 一. 对于端口号的理解 1.1 网络通信五元组 1.2 端口号的划分策略 二. 网络通信中常用的指令 2.1 netstat指令 2.2 pidof指令 三. udp协议 3.1 udp的概念及特点 3.2 udp协议端格式 3.3 对于面向数据报及应用层发送与读取数据的理解 四. tcp协议的概念及特点 五.…

怎么把视频转换成mp4格式?

怎么把视频转换成mp4格式?如果你经常在网上下载视频的话,那么应该知道视频文件的格式种类非常的多,不同网站下载到的视频格式各不相同,除了最常见的mp4格式外,其它视频格式基本上都存在着兼容问题,如果格式…

Qt creator下载安装

版本问题: Qt4的开发环境包括3个基本部分:Qt Framework(Qt库)、QtCreator(IDE)和MinGW(编译调试),都要分别下载安装并配置,比较麻烦。 Qt5之后,…

Vuex->vuex获取值以及改变值,vuex异步请求

vuex获取值以及改变值vuex异步请求 1.vuex获取值以及改变值 Vuex分成五个部分: 1.State:单一状态树 2.Getters:状态获取 3.Mutations:触发同步事件 4.Actions:提交mutation,可以包含异步操作 5.Module&…

2023云栖大会即将开幕,速来免费预约!

2023云栖大会 500热点话题 1000行业实干家 现场实操 即学即用 40000平米科技展 3000前沿展品 72小时沉浸式科技体验 与数字人李白共吟盛唐诗歌 视频云边缘云云通信 深入3大Tech领域,覆盖20话题演讲 虚拟演播室、智能全景声 AIGC与数字人的一站式制作 “AI更…

重温mybatis之一篇带你入门Mybatis

一.前言 我是一个五年得java开发工程师,在印象里,从第一年我就会使用mybatis了,从最开始得xml配置,到spring整合,再到springboot。无非就是写个mapper抽象类,写个mapper.xml方法。就这么一直用着。期间也想…

ASP.Core3.1 WebAPI 发布到IIS

本篇文章简述如何在IIS中发布你的.Core 程序 1.打包 首先你要打包好你程序,如果你是Visual Studio开发的程序,那你右击你的项目点击发布 如果你是Visual Code 开发的,那你在你的终端切换到你的目录然后执行命令 dotnet publish --config…

mysql面试题43:MySQL自增主键用完了怎么办?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:MySQL自增主键用完了怎么办? 当MySQL中的自增主键用完了(…

Python数组删除元素pop与remove对比

pop()和remove()函数都可以用来删除列表中的函数,pop()是按索引来删除的,remove()是按元素来删除的。 1、pop()默认删除列表中最后一个元素,而且会返回删除的元素。此时的时间复杂度为O(1) 下面的例子中,…

pdf怎么合并在一起?

pdf怎么合并在一起?对于pdf合并这个问题,有的小伙伴想很简单,只需要将文件直接复制再其中的一个后面不就完事了吗。其实不然,因为我们如果要是需要将很多文件进行合并的话,就会产生很多问题的。总之,在现在…

搭建一个自己的学术语音助手(1)

背景: 大模型出来后语音助手借着LLM的语义理解、知识组织能力的提升,升级了一波buffer。然后在使用这些语音助手的时候总觉得缺了点什么,但也讲不出来具体缺了什么。这几天的思考突然有了灵感,其实缺的就是自己的知识内容如何变成…

NFT合约分析:ERC721A

概述 读者可前往我的博客获得更好的阅读体验。 本文主要介绍标准NFT实现的一个变体,即ERC721A合约实现的相关细节。ERC721A是由著名NFT系列Azuki提出,该系列NFT是著名的蓝筹NFT。本文主要聚焦于Azuki提出的ERC721A合约的代码细节分析。 与传统的ERC72…

APP订单管理软件生活中不可或缺|小程序系统定制开发|网站搭建

APP订单管理软件生活中不可或缺|小程序系统定制开发|网站搭建 它不仅可以帮助人们更好地管理自己的生活,还可以提高工作效率,让生活更加便捷。那么,APP订单管理软件在实际应用中的优势有哪些呢?qq:258715719 v&#…

Nginx下载安装与配置(linux)

一、Nginx下载 官网下载地址:nginx: download 推荐下载稳定版: 二、Nginx依赖环境 执行安装命令,安装完成后可查看版本进行验证。 1.GCC C 用于编译和构建C语言程序的开源编译器。 #安装GCC C软件包 yum install -y gcc-c #查看GCC C版…

TCP/IP(四)TCP的连接管理(一)三次握手

一 tcp连接回顾 部分内容来自小林coding TCP篇 记录的目的: 亲身参与进来,加深记忆 ① 引入 前面我们知道: TCP 是面向连接 [点对点的单播]的、可靠的、基于字节流的传输层通信协议面向连接意味着:在使用TCP之前,通信双方必须先建立一…

手动抄表和自动抄表优缺点对比

随着科技的发展,自动抄表技术已经越来越成熟,被广泛应用于各个领域。然而,手动抄表在一些特定场景下仍然具有一定的优势。本文将从手动抄表和自动抄表的优缺点入手,对比分析它们的应用场景和使用价值。 1.成本低:手动抄…

判断一个类是否为另一类的子类issubclass()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 判断一个类是否为另一类的子类 issubclass() 选择题 下列代码执行输出的结果是? class A: pass class B(A): pass class C: pass print("【执行】print(issubclass(A,A))") print(i…

spring boot+ vue+ mysql开发的一套厘米级高精度定位系统源码

UWB室内高精度定位系统源码,自主版权演示 UWB技术最核心的能力就是精准的定位与测距,当然它还具备通信功能。不过,目前主流通信技术已经相当成熟,无需UWB兼顾去做通信传输。而且,如果使用UWB通信功能,反而会…