CVPR2024|vivo提出使用对抗微调获得泛化性更强的SAM,分割性能直接登顶 SOTA!

news2024/10/6 2:30:09

在计算机视觉不断发展的领域中,基础模型已成为一种关键工具,显示出对多种任务的出色适应性。其中,由 Meta AI 开发的 Segment Anything Model(SAM)在图像分割任务中表现杰出。然而,和其他类似模型一样,SAM 在某些特定的细分应用中也遇到了限制。

针对此问题,VIVO提出了ASAM,这是一种通过对抗性调整来增强SAM性能的新方法。广泛的评估结果证实,ASAM 在分割任务中建立了新的基准,从而有助于计算机视觉基础模型的进步。

ASAM只是提高了SAM的性能,而不需要对架构进行修改。ASAM也是资源友好型的,因为它只需要8个A6000 gpu而不需要额外的数据(1% SA-1B数据)。

相关链接

论文地址:https://arxiv.org/pdf/2405.00256

项目页面:https://asam2024.github.io/

论文阅读

ASAM:增强分段任何模型与对抗性调整

摘要

在不断发展的计算机视觉领域,基础模型已成为关键工具,对各种任务表现出卓越的适应性。其中,Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现突出。然而,SAM 与其他同类模型一样,在特定的细分应用中也遇到了限制,这促使人们寻求不损害其固有功能的增强策略。

本文介绍了 ASAM,这是一种通过对抗性调整来增强 SAM 性能的新方法。我们利用自然对抗性示例的潜力,灵感来自它们在自然语言处理中的成功实施。通过利用稳定的扩散模型,我们增强了 SA-1B 数据集的一个子集 (1%),生成了更能代表自然变化而不是传统不可察觉的扰动的对抗性实例。我们的方法保持了对抗性示例的照片级真实感,并确保与原始掩模注释对齐,从而保持了分割任务的完整性。经过微调的 ASAM 在各种分割任务中都表现出显著的改进,而无需额外的数据或架构修改。我们广泛的评估结果证实,ASAM 在分割任务中建立了新的基准,从而有助于计算机视觉基础模型的进步。

方法

ASAM主要包含三个步骤,第一步是对抗性潜在优化,第二步是可控对抗样本生成,第三步是用对抗样本对SAM进行微调。

效果展示

更强大的 SAM

更强大的 SAM。与PGD-Tuning SAM、DAT-Tuning SAM、DatasetDM-Tuning SAM相比。ASAM 在所有14个测试数据集上都明显优于其他调优方法,并且与原始SAM相比实现了性能提升。

对提出的ASAM与其他方法进行定性比较。黄色框代表框提示。

从普通场景、医疗场景等不同场景的定性比较来看,提出的ASAM可以提高SAM的性能。

更强大的 EfficientSAM

更强大的 EfficientSAM。与 EfficientSAM( EfficientSAM:利用蒙版图像预训练实现高效分割,ESAM,CVPR2024)相比,AESAM 在 16 个不同数据集上实现了性能提升。ESAM 是 Meta 提出的最新成果,在 CVPR2024 上获得满分。

更强大的 HQSAM

更强大的 HQSAM。与 HQSAM(高质量分割任何内容,HQSAM,NeurIPS2023)相比,HQ-ASAM 可以在 4 个不同的数据集上实现性能提升。HQSAM 是由苏黎世联邦理工学院和香港科技大学提出的工作,在 Github 上获得了约 3.4k 个星。

更强大的 SAM 适配器

更强大的 SAM-Adapter。与 SAM-adapter(ICCV2023 研讨会)相比,ASAM-Adapter 在 2 个不同的数据集上实现了性能提升。

结论

本研究中引入的 ASAM 代表了 SAM 通过创新使用对抗性调整而取得的重大进步。我们采用稳定的扩散模型来增强 SA-1B 数据集的一部分,生成了自然、逼真的对抗性图像,从而显著提高了 SAM 在各种任务中的分割能力。这种方法受到 NLP 中对抗性训练技术的启发,在增强 SAM 性能的同时,保留了 SAM 的原始架构和零样本优势。

我们的研究结果表明,ASAM 不仅在分割任务中设定了新的基准,而且还有助于对抗性示例在计算机视觉领域的更广泛应用和理解,为提升大型视觉基础模型的能力提供了一种新颖而有效的方法。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1866646.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python自动化操作:简单、有趣、高效!解放你的工作流程!

今天跟大家分享一套自动化操作流程解决方案,基于Python语言,涉及pyautogui、pyperclip、pythoncom、win32com依赖包。安装命令为: pip install pyautoguipip install pyperclippip install pythoncompip install win32compyautogui 是一个自…

解决“Duplicate keys detected: ‘ ‘.This may cause an update error.”问题

问题原因 出现“Duplicate keys detected”的错误,通常表示在v-for指令中使的:key绑定值有重复。 如果前端是静态数据,一般能自我避免:key绑定值有重复。如果前端是绑定的动态数据,那么需要另外提供一个唯一的键。 在这个例子中&#xff0c…

Xcode安装Simulator失败问题解决方法

Xcode安装Simulator_Runtime失败,安装包离线安装保姆级教程 Xcode更新之后有时候会提示要安装模拟器运行时环境,但是用Xcode更新会因为网络原因,我觉得基本上就是因为苹果服务器的连接不稳定导致的,更可气的是不支持断点续…

链式队列算法库构建

学习贺利坚老师课程,构建链式队列算法库 数据结构之自建算法库——链队(链式队列)_数据结构函数链队列的算法框架有哪些-CSDN博客文章浏览阅读6.2k次,点赞3次,收藏9次。本文针对数据结构基础系列网络课程(3):栈和队列…

【unity实战】制作unity数据保存和加载系统——小型游戏存储的最优解(包含数据安全处理方案的加密解密)

前言 如何在 Unity 中正确制作一个保存和加载系统,该系统使用JSON 文件来处理保存配置文件,可以保存和加载任何类型对象!标题为什么叫小型游戏存储功能呢?因为该存储功能可能只适合存储数据比较单一的情况,它非常的方…

Leetcode 102.目标和

给定一个正整数数组 nums 和一个整数 target 。 向数组中的每个整数前添加 ‘’ 或 ‘-’ ,然后串联起所有整数,可以构造一个 表达式 : 例如,nums [2, 1] ,可以在 2 之前添加 ‘’ ,在 1 之前添加 ‘-’ &…

AIGC笔记--U-ViT的简单代码实现

1--前言 原论文:All are Worth Words: A ViT Backbone for Diffusion Models 完整可debug的代码:Simple_U-ViT 2--结构 3--简单代码 以视频作为输入,实现上图红色框的计算: import torch import torch.nn as nn from einops im…

6.2 通过构建情感分类器训练词向量

在上一节中,我们简要地了解了词向量,但并没有去实现它。在本节中,我们将下载一个名为IMDB的数据集(其中包含了评论),然后构建一个用于计算评论的情感是正面、负面还是未知的情感分类器。在构建过程中,还将为 IMDB 数据…

分享一个 MySQL 简单快速进行自动备份和还原的脚本和方法

前言 数据备份和还原在信息技术领域中具有非常重要的作用,不论是人为误操作、硬件故障、病毒感染、自然灾害还是其他原因,数据丢失的风险都是存在的。如果没有备份,一旦数据丢失,可能对个人、企业甚至整个组织造成巨大的损失。 …

2-17 基于matlab的改进的遗传算法(IGA)对城市交通信号优化分析

基于matlab的改进的遗传算法(IGA)对城市交通信号优化分析。根据交通流量以及饱和流量,对城市道路交叉口交通信号灯实施合理优化控制,考虑到交通状况的动态变化,及每个交叉口的唯一性。通过实时监测交通流量&#xff0c…

部署企业级AI知识库最重要的是什么?✍

随着人工智能技术的迅猛发展,企业级AI知识库成为提升企业管理效率和信息获取能力的重要工具。那么,在部署企业级AI知识库时,最重要的是什么呢?本文将从数据质量、系统可扩展性、用户体验以及智能化这四个关键方面进行详细分析。 …

单片机是否有损坏,怎沫判断

目录 1、操作步骤: 2、单片机损坏常见原因: 3、 单片机不工作的原因: 参考:细讲寄存器读写与Bit位操作原理--单片机C语言编程Bit位的与或非屏蔽运算--洋桃电子大百科P019_哔哩哔哩_bilibili 1、操作步骤: 首先需要…

Objects and Classes (对象和类)

Objects and Classes [对象和类] 1. Procedural and Object-Oriented Programming (过程性编程和面向对象编程)2. Abstraction and Classes (抽象和类)2.1. Classes in C (C 中的类)2.2. Implementing Class Member Functions (实现类成员函数)2.3. Using Classes References O…

第 28 篇 : SSH秘钥登录

1 生成秘钥 ssh-keygen -t rsa ls -a ./.ssh/一直回车就行了 2. 修改配置 vi /etc/ssh/sshd_config放开注释 公钥的位置修改 关闭密码登录 PubkeyAuthentication yes AuthorizedKeysFile .ssh/id_rsa.pub PasswordAuthentication no3. 下载id_rsa私钥, 自行解决 注意…

Vue中数组的【响应式】操作

在 Vue.js 中,当你修改数组时,Vue 不能检测到以下变动的数组: 当你利用索引直接设置一个项时,例如:vm.items[indexOfItem] newValue当你修改数组的长度时,例如:vm.items.length newLength 为…

常见图像分割模型介绍:FCN、U-Net、SegNet、Mask R-CNN

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

AI助力校园安全:EasyCVR视频智能技术在校园欺凌中的应用

一、背景分析 近年来,各地深入开展中小学生欺凌行为治理工作,但有的地方学生欺凌事件仍时有发生,严重损害学生身心健康,引发社会广泛关注。为此,教育部制定了《防范中小学生欺凌专项治理行动工作方案》进一步防范和遏…

软件构造 | 期末查缺补漏

软件构造 | 期末查缺补漏 总体观 软件构造的三维度八度图是由软件工程师Steve McConnell提出的概念,用于描述软件构建过程中的三个关键维度和八个要素。这些维度和要素可以帮助软件开发团队全面考虑软件构建的方方面面,从而提高软件质量和开发效率。 下…

文件批量重命名001到100 最简单的数字序号递增的改名技巧

文件批量重命名001到100 最简单的数字序号递增的改名方法。最近看到很多人都在找怎么批量修改文件名称,还要按固定的ID需要递增,这个办法用F2或者右键改名是不能做到的。 这时候我们可以通过一个专业的文件批量重命名软件来批量处理这些文档。 芝麻文件…