【arxiv】关于 SAM 的论文扫读(一)

news2025/1/20 3:50:13

文章目录

  • 一、阴影检测
  • 二、弱监督下的隐蔽物体分割:基于SAM的伪标签和多尺度特征分组
  • 三、Instruct2Act:利用大型语言模型将多模态指令映射到机器人动作
  • 四、OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields
  • 五、PromptUNet: Toward Interactive Medical Image Segmentation
  • 六、Explain Any Concept: Segment Anything Meets Concept-Based Explanation

一、阴影检测

论文地址:

https://arxiv.org/pdf/2305.11513.pdf

在这里插入图片描述

Segment Anything Model (SAM)作为一种可提示的通用目标分割模型,近期引起了极大的关注,并展示了强大的性能。然而,在面对某些任务时,例如医学图像分割、伪装对象检测等,SAM仍然面临困难。在本报告中,我们将SAM应用于一个未被探索的热门任务:阴影检测。具体而言,我们选择了四个基准数据集,并使用广泛使用的评估指标进行评估。实验结果表明,SAM在阴影检测方面的性能不令人满意,特别是与复杂模型相比较时。

在这里插入图片描述

二、弱监督下的隐蔽物体分割:基于SAM的伪标签和多尺度特征分组

在这里插入图片描述
论文地址:

https://arxiv.org/pdf/2305.11003.pdf

该论文提出了一种新的弱监督隐蔽目标分割(WSCOS)方法,旨在使用稀疏注释数据对与周围环境混合在一起的目标进行分割。

这是一项具有挑战性的任务,因为由于内在的相似性,很难区分隐蔽目标和背景,并且稀疏注释的训练数据只提供了弱监督来进行模型学习。

为了应对内在相似性的挑战,研究人员设计了一个多尺度特征组合模块,首先在不同粒度上对特征进行分组,然后聚合这些分组结果。

通过将相似的特征组合在一起,它鼓励分割的连贯性,有助于获取单个和多个目标图像的完整分割结果。

为了解决弱监督挑战,研究人员利用最近提出的视觉基础模型“Segment Anything Model (SAM)”,使用提供的稀疏注释作为提示生成分割掩码,用于训练模型。

为了减轻低质量分割掩码的影响,研究人员进一步提出了一系列策略,包括多增强结果集合、基于熵的像素级加权和基于熵的图像级选择。这些策略有助于为分割模型提供更可靠的监督。实验证实了该方法在各种WSCOS任务上的有效性,并且实验表明该方法在这些任务上达到了最先进的性能水平。

三、Instruct2Act:利用大型语言模型将多模态指令映射到机器人动作

这篇论文介绍了Instruct2Act,这是一个利用大型语言模型将多模态指令映射到机器人操纵任务的顺序动作的框架。具体而言,Instruct2Act利用语言模型生成Python程序,构建了包含感知、规划和执行环节的全面机器人任务循环。在感知部分,预定义的API用于访问多个基础模型,其中Segment Anything Model (SAM) 准确地定位候选对象,而CLIP对它们进行分类。这样,该框架利用基础模型的专业知识和机器人能力,将复杂的高级指令转化为精确的策略代码。我们的方法可调整和灵活,适应各种指令模态和输入类型,并满足特定任务需求。我们通过在桌面操纵领域的不同场景中进行机器人任务评估,验证了我们方法的实用性和效率。此外,我们的零样本方法在多个任务中优于许多最先进的基于学习的策略。

四、OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields

本文介绍了一种名为OR-NeRF的新型对象去除流程,旨在通过在单个视图上使用点或文本提示,从3D场景中移除对象,并在更短的时间内实现更好的性能。当前方法在去除对象时面临着一些挑战,例如耗时的对象标注、有限的去除特定目标能力以及去除后渲染质量的损失。本文提出的方法通过使用点投影策略将用户注释快速传播到所有视图,显著减轻了处理负担。该算法允许我们利用最近的2D分割模型Segment-Anything (SAM)以提高精度和效率预测掩模。此外,我们通过2D修复方法获取颜色和深度先验。最后,我们的算法通过深度监督和感知损失进行场景重建,以保持去除对象后的几何和外观一致性。实验结果表明,与之前的方法相比,我们的方法在质量和数量上都实现了更好的编辑质量,并且用时更短。

五、PromptUNet: Toward Interactive Medical Image Segmentation

最近,基于提示的分割方法,也被称为交互式分割,在图像分割领域中越来越受欢迎。一个名为Segment Anything Model (SAM)的设计良好的提示模型展示了其在广泛的自然图像分割中的能力,引起了社区的广泛讨论。然而,最近的研究表明,SAM在医学图像上的表现不佳。这促使我们设计一种专门用于医学图像分割的新型基于提示的分割模型。在本文中,我们将基于提示的分割范式与UNet相结合,UNet是一种被广泛认可的成功的医学图像分割架构。我们将得到的模型命名为PromptUNet。为了适应实际的临床应用,我们扩展了SAM中现有的提示类型,包括新的支持性提示和En-face提示。我们使用各种图像模态,包括CT、MRI、超声、眼底和皮肤镜图像,在19个医学图像分割任务上评估了PromptUNet的能力。我们的结果显示,PromptUNet优于一系列最先进的医学图像分割方法,包括nnUNet、TransUNet、UNetr、MedSegDiff和MSA。

六、Explain Any Concept: Segment Anything Meets Concept-Based Explanation

解释性人工智能(Explainable AI,XAI)是改善人类对深度神经网络(DNN)的理解的重要主题,因为DNN内部是黑盒子。对于计算机视觉任务,主流的基于像素的XAI方法通过识别重要像素来解释DNN的决策,而新兴的基于概念的XAI方法则探索使用概念(例如图像中的头部)来形成解释。然而,像素通常难以解释,并对XAI方法的不精确性敏感,而先前的工作中的"概念"需要人工注释或仅限于预定义的概念集。另一方面,受大规模预训练的推动,Segment Anything Model (SAM)已被证明是一种强大且可推广的框架,可进行精确而全面的实例分割,从而能够从给定图像中自动准备概念集。本文首次探讨了使用SAM增强基于概念的XAI。我们提供了一种有效且灵活的基于概念的解释方法,即Explain Any Concept (EAC),它可以用任何概念来解释DNN的决策。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/556135.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Lucene(5):索引维护

1 需求 管理人员通过电商系统更改图书信息,这时更新的是关系数据库,如果使用lucene搜索图书信息,需要在数据库表book信息变化时及时更新lucene索引库。 2 添加索引 调用 indexWriter.addDocument(doc)添加索引。 参…

[Data structure]环形链表

⭐作者介绍:大二本科网络工程专业在读,持续学习Java,努力输出优质文章 ⭐作者主页:逐梦苍穹 ⭐所属专栏:数据结构。数据结构专栏主要是在讲解原理的基础上拿Java实现 ⭐如果觉得文章写的不错,欢迎点个关注一…

文心一言 VS chatgpt (21)-- h264编码一帧数据的流程是怎样的?

h264编码一帧数据的流程是怎样的? 文心一言: H.264编码将一帧数据分成多个块,其中每个块可以单独进行编码。编码的过程包括预测、变换和量化等步骤。 具体流程如下: 1.帧内预测:对一帧视频进行编码,首先…

什么是网络编程

目录 一、什么是网络编程? 二、协议 1.用户数据报协议(User Datagram Protocol) 2.TCP协议 TCP三次握手过程 三、实例 1.UDP通信程序 实现步骤 TCP接收数据 四、TCP协议和UDP协议的区别和联系 一、什么是网络编程? 1.在网络通信协议下&#xf…

Qt编程基础 | 常用控件 | 组合框

一、组合框 1.1、定义 QComboBox提供了一种向用户呈现选项列表的方式,以占用最少的屏幕空间。 组合框是一个显示当前项目的选择小部件,可以弹出可选择项目的列表。 组合框可以是可编辑的,允许用户修改列表中的每个项目。 QComboBox 除了显示…

四、IOC容器(3)

一、IOC操作Bean管理&#xff08;外部属性文件&#xff09; 1.直接配置数据库信息 配置德鲁伊连接池引入德鲁伊连接池依赖jar包 <!--配置连接池--> <bean id"dataSource" class"com.alibaba.druid.pool.DruidDataSource"><property name&…

深度学习神经网络学习笔记-多模态方向-10-Neural Voice Cloning with a Few Samples

摘要 语音克隆是个性化语音接口非常需要的功能。我们介绍了一个神经语音克隆系统&#xff0c;该系统仅从少数音频样本中学习合成一个人的声音。我们研究了两种方法:说话人适应和说话人编码。说话人自适应是基于多说话人生成模型的微调。说话人编码是基于训练一个单独的模型来直…

GitLab CI/CD

CI/CD 简介 CI/CD 简单来说就是可以自动化编译、测试、打包我们的代码。 GitLab CICD的使用 首先需要安装gitlab-runner。 在GitLab 中&#xff0c;runners 是运行 CI/CD 作业的代理。我们的对代码的作业都是在runner上去执行的。我们可以在本地、服务器、等任意一个联网设…

chatgpt赋能Python-python_chat

Python Chat: 使用Python编程语言打造聊天应用 在当今数字化的时代&#xff0c;人们需要有一种跨越地域和时间的即时通讯方式&#xff0c;这就是聊天应用的用武之地。Python编程语言因其易读易写的特性&#xff0c;和广泛的社区支持成为了许多开发者的首选。Python Chat是一款…

2023年CentOS镜像下载地址,包括CentOS官网、国内镜像下载,超详细教学,小白也能学会。

目录 1.CentOS官网镜像下载 1.1进入CentOs官网镜像下载地址 1.2找到需要下载的版本 1.3选择isos镜像文件夹 1.4选择架构 1.5下载种子文件 2.阿里云开源镜像站下载 2.1进入阿里云开源镜像站下载地址 2.2找到需要下载的版本 2.3选择isos镜像文件夹 2.4选择架构​ 2.5…

vue3学习手册

vue3 1.认识vue31.1了解相关信息1.2 性能提升:1.3 新增特性1.4 使用 vue-cli 创建vue项目1.5 使用 vite 创建 2.全局api2.1 createApp()2.2 app.mount()2.3 app.unmount()2.4 app.provide()2.5 app.component()2.6 app.use()2.7 app.version2.8 app.config2.9 app.config.error…

阿拉德手游服务端Centos搭建教程

阿拉德手游服务端Centos搭建教程 大家好我是艾西&#xff0c;又有几天没有更新文章了。这几天看了看还是有不少人对手游感兴趣&#xff0c;今天给大家分享一款早些年大火的pc游戏&#xff0c;现在也有手游了“阿拉德”。 你是否还记得DNF&#xff0c;一天你不小心救了赛丽亚&a…

如何基于LiveNVR实现无人机等RTMP推流转成GB28181协议级联到GB28181视频平台

1、需求介绍 目前很多移动终端设备&#xff08;如无人机等&#xff09;只支持RTMP推流输出&#xff0c;不支持GB28181协议。但是又有需要通过GB28181协议接入到视频平台的需求。比如有些大疆无人机产品不能直接注册国标平台&#xff0c;只能rtmp推流。那么&#xff0c;项目中如…

什么是5G北斗RTK差分定位系统?它有哪些优势和应用领域?

5G技术的普及和应用&#xff0c;使得物联网和智能设备的使用越来越广泛。然而&#xff0c;在实际应用过程中&#xff0c;精准的定位数据是必不可少的。北斗差分定位系统作为一项定位技术&#xff0c;受到了市场的关注。本文将对5G北斗差分定位系统进行分析&#xff0c;并比较其…

作为一名软件测试从业人员,你有弄明白你的发展方向吗?

对于软件测试从业人员来说&#xff0c;职业发展方向的清晰并不仅仅是个人规划的问题&#xff0c;更是行业发展趋势所决定的。随着信息技术的快速发展和社会的变革&#xff0c;软件行业也在不断地演化中。因此&#xff0c;了解这个行业的发展趋势&#xff0c;并且根据自身的实际…

tcp丢包的排查

丢包的排查&#xff1a; 参考资料&#xff1a;1、https://blog.csdn.net/maimang1001/article/details/121786580 2、https://blog.csdn.net/m0_67645544/article/details/124574099 1、 网卡丢包 a) ifconfig b) 查看网卡丢包统计(虚拟机看不到网卡信息)&#xff1a;eth…

【论文阅读】CatSQL: Towards Real World Natural Language to SQL Applications

【论文阅读】CatSQL: Towards Real World Natural Language to SQL Applications 文章目录 【论文阅读】CatSQL: Towards Real World Natural Language to SQL Applications1. 来源2. 介绍3. 方法介绍3.1 CatSQL模板3.2 CatSQL 查询生成3.2.1 GraPPa嵌入网络3.2.2 使用CAT解码器…

Keil Debug 逻辑分析仪使用

Keil Debug 逻辑分析仪使用 基础配置 更改对应的bebug窗口参数 两边的 Dialog DLL 更改为&#xff1a;DARMSTM.DLL两边的 Parameter &#xff08;这里的根据单片机型号更改&#xff09;更改为&#xff1a;-pSTM32F103VE 选择左边的 Use Simulator 选项。 打开Debug和其中的逻…

安卓基础巩固(二):四大组件:Activity、Service、Broadcast、Content Provider

文章目录 Activity生命周期onCreate和onStart的区别onPause和onStop的区别生命周期的变化 Activity的启动IntentBundle Activity携带参数返回Activity启动模式任务&#xff08;task&#xff09;&#xff0c;返回栈&#xff08;back stack&#xff09;Activity的四种启动模式sta…

CHB-麻省理工学院头皮脑电图数据库

数据库介绍 该数据库在波士顿儿童医院收集&#xff0c;包括患有顽固性癫痫发作的儿科受试者的脑电图记录。受试者在停用抗癫痫药物后被监测长达几天&#xff0c;以表征他们的癫痫发作并评估他们手术干预的候选资格。 数据库链接&#xff1a;https://physionet.org/content/chb…