【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(7 月 21 日论文合集)

news2024/10/6 14:37:23

文章目录

  • 一、分割|语义相关(14篇)
    • 1.1 CNOS: A Strong Baseline for CAD-based Novel Object Segmentation
    • 1.2 Spinal nerve segmentation method and dataset construction in endoscopic surgical scenarios
    • 1.3 WeakPolyp: You Only Look Bounding Box for Polyp Segmentation
    • 1.4 Divide & Bind Your Attention for Improved Generative Semantic Nursing
    • 1.5 Label Calibration for Semantic Segmentation Under Domain Shift
    • 1.6 Gradient-Semantic Compensation for Incremental Semantic Segmentation
    • 1.7 See More and Know More: Zero-shot Point Cloud Segmentation via Multi-modal Visual Data
    • 1.8 EdgeAL: An Edge Estimation Based Active Learning Approach for OCT Segmentation
    • 1.9 TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation in Self-Driving Cars
    • 1.10 Interactive Segmentation for Diverse Gesture Types Without Context
    • 1.11 CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud Semantic Segmentation
    • 1.12 On the Real-Time Semantic Segmentation of Aphid Clusters in the Wild
    • 1.13 Confidence intervals for performance estimates in 3D medical image segmentation
    • 1.14 Towards Automated Semantic Segmentation in Mammography Images

一、分割|语义相关(14篇)

1.1 CNOS: A Strong Baseline for CAD-based Novel Object Segmentation

CNOS:基于CAD的新型目标分割的强基线

https://arxiv.org/abs/2307.11067

在这里插入图片描述
我们提出了一个简单的三阶段的方法来分割看不见的物体在RGB图像中使用其CAD模型。利用最近强大的基础模型DINOv2和Segment Anything,我们创建描述符并生成建议,包括给定输入RGB图像的二进制掩码。通过匹配的建议与参考描述符创建的CAD模型,我们实现了精确的对象ID分配以及模态掩码。我们的实验表明,我们的方法实现了最先进的结果,在CAD为基础的新的对象分割,超过现有的方法在七个核心数据集的BOP挑战19.8% AP使用相同的BOP评估协议。我们的源代码可在https://github.com/nv-nguyen/cnos获得。

1.2 Spinal nerve segmentation method and dataset construction in endoscopic surgical scenarios

内窥镜手术场景中的脊神经分割方法及数据集构建

https://arxiv.org/abs/2307.10955

在这里插入图片描述
内窥镜手术目前是脊柱外科领域中的重要治疗方法,并且通过视频引导避免对脊神经的损伤是一个关键挑战。本文提出了第一个实时分割的方法,在内窥镜手术的脊神经,这为外科医生提供了至关重要的导航信息。在手术过程中记录的约10,000个连续帧的精细注释的分割数据集首次为该领域构建,解决了语义分割的问题。基于此数据集,我们提出了FUnet(Frame-Unet),它通过利用帧间信息和自注意机制实现了最先进的性能。我们还进行了扩展的实验,类似的息肉内窥镜视频数据集,并表明该模型具有良好的泛化能力与优势的性能。这项工作的数据集和代码如下:https://github.com/zzzzzzpc/FUnet。

1.3 WeakPolyp: You Only Look Bounding Box for Polyp Segmentation

WeakPolyp:您只需查看用于息肉分割的边界框

https://arxiv.org/abs/2307.10912

在这里插入图片描述
受限于昂贵的像素级标签,息肉分割模型受到数据短缺的困扰并且遭受受损的泛化。相比之下,息肉边界框注释要便宜得多,也更容易访问。因此,为了降低标记成本,我们提出学习弱监督息肉分割模型(即,WeakPolyp)完全基于边界框注释。然而,粗略的边界框包含太多的噪声。为了避免干扰,我们引入掩模到盒(M2B)变换。通过监督预测的外部框掩码而不是预测本身,M2B极大地减轻了粗略标签与精确预测之间的失配。但是,M2B仅提供稀疏监督,导致非唯一预测。因此,我们进一步提出了密集监督的规模一致性(SC)损失。通过在不同尺度下跨同一图像明确地对齐预测,SC损失大大减少了预测的变化。请注意,我们的WeakPolyp是一个即插即用的模型,它可以很容易地移植到其他有吸引力的主干上。此外,所提出的模块仅在训练期间使用,不会给推理带来计算开销。大量的实验证明了我们提出的WeakPolyp的有效性,它令人惊讶地实现了与完全监督模型相当的性能,根本不需要掩码注释。

1.4 Divide & Bind Your Attention for Improved Generative Semantic Nursing

将注意力分散和捆绑在一起,以改善生成性语义护理

https://arxiv.org/abs/2307.10864

在这里插入图片描述
新兴的大规模文本到图像生成模型,例如,稳定扩散(SD)已经以高保真度展示了压倒性的结果。尽管取得了巨大的进步,但当前最先进的模型仍然难以生成完全符合输入提示的图像。先前的工作Attend & Excite引入了生成语义护理(GSN)的概念,旨在优化推理时间期间的交叉注意力,以更好地结合语义。它在生成简单提示方面展示了有希望的结果,例如,“一只猫和一只狗”。然而,当处理更复杂的提示时,它的功效下降,并且它没有明确地解决不正确的属性绑定的问题。为了解决复杂提示或涉及多个实体的场景所带来的挑战,并实现改进的属性绑定,我们提出了分割和绑定。我们为GSN引入两个新的损耗目标:新的出勤损失和绑定损失。我们的方法脱颖而出,在其能力,忠实地合成所需的对象,从复杂的提示改进属性对齐,并在多个评估基准表现出卓越的性能。更多视频和更新可以在项目页面\url{https://sites.google.com/view/divide-and-bind}找到。

1.5 Label Calibration for Semantic Segmentation Under Domain Shift

领域漂移下的语义分割中的标签校正

https://arxiv.org/abs/2307.10842

在这里插入图片描述
预训练的语义分割模型的性能可能会在来自新领域的数据上大幅降低。我们表明,通过在域偏移下计算软标签原型,并根据最接近具有预测类概率的向量的原型进行预测,预训练模型可以适应未标记的目标域数据。建议的适应过程是快速的,几乎是免费的计算资源,并导致相当大的性能改善。我们展示了这种标签校准的好处,高度实用的合成到真正的语义分割问题。

1.6 Gradient-Semantic Compensation for Incremental Semantic Segmentation

基于梯度语义补偿的增量式语义分割

https://arxiv.org/abs/2307.10822

在这里插入图片描述
增量语义分割的目的是不断学习新的类别的分割,而不访问先前学习的类别的训练数据。然而,大多数现有的方法未能解决灾难性遗忘和背景偏移,因为它们1)平等地对待所有先前的类,而不考虑由不平衡梯度反向传播引起的不同遗忘步距; 2)类之间缺乏强有力的语义指导。为了解决上述挑战,在本文中,我们提出了梯度语义补偿(GSC)模型,它超越了增量语义分割从梯度和语义的角度。具体来说,为了解决灾难性遗忘从梯度方面,我们开发了一个步骤感知梯度补偿,可以平衡遗忘的步伐以前看到的类通过重新加权梯度反向传播。同时,我们提出了一种软尖锐语义关系蒸馏,通过软标签提取一致的类间语义关系,以减轻灾难性遗忘的语义方面。此外,我们开发了一个原型的伪重标签,提供强大的语义指导,以减轻背景转移。它通过测量像素和类原型之间的距离,为背景中的旧类生成高质量的伪标签。在三个公共数据集上进行了广泛的实验,即Pascal VOC 2012、ADE 20 K和Cityscapes证明了我们提出的GSC模型的有效性。

1.7 See More and Know More: Zero-shot Point Cloud Segmentation via Multi-modal Visual Data

看得更多、知道得更多:基于多模式视觉数据的零炮点云分割

https://arxiv.org/abs/2307.10782

在这里插入图片描述
Zero-shot点云分割旨在使深度模型能够识别在训练阶段不可见的点云中的新对象。最近的趋势有利于将知识从看到的类与标签转移到看不见的类没有标签的管道。它们通常将视觉特征与从单词嵌入中获得的语义特征对齐,通过监督所看到的类的注释。然而,点云包含的信息有限,无法与语义特征完全匹配。事实上,图像丰富的外观信息是对无纹理点云的天然补充,这在以往文献中没有得到很好的探索。基于此,我们提出了一种新的多模态zero-shot学习方法,以更好地利用点云和图像的互补信息,更准确地进行视觉语义对齐。在两个流行的基准测试中进行了大量的实验,即,SemanticKITTI和nuScenes,和我们的方法优于当前的SOTA方法,平均改善了52%和49%的未见类mIoU。

1.8 EdgeAL: An Edge Estimation Based Active Learning Approach for OCT Segmentation

EdgeAL:一种基于边缘估计的OCT分割主动学习方法

https://arxiv.org/abs/2307.10745

在这里插入图片描述
主动学习算法对于具有有限数据的训练模型已经变得越来越流行。然而,选择用于注释的数据仍然是一个具有挑战性的问题,因为在未见数据上可用的信息有限。为了解决这个问题,我们提出了EdgeAL,它利用未见图像的边缘信息作为测量不确定性的{\it a previous}信息。通过分析模型预测中的散度和熵来量化不确定性。然后使用该度量来选择用于注释的超像素。我们证明了EdgeAL在多类光学相干断层扫描(OCT)分割任务的有效性,其中我们实现了99%的骰子得分,同时将注释标签成本降低到12%,2.3%和3%,分别在三个公开可用的数据集(杜克,AROI和UMN)。源代码可在\url{https://github.com/Mak-Ta-Reque/EdgeAL}获得

1.9 TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation in Self-Driving Cars

TwinLiteNet:一种高效轻量级的自动驾驶汽车可行驶区域和车道分割模型

https://arxiv.org/abs/2307.10705

在这里插入图片描述
语义分割是自动驾驶中理解周围环境的常见任务。可行驶区域分割和车道检测对于道路上的安全和高效导航尤为重要。然而,原始的语义分割模型在计算上是昂贵的,并且需要高端硬件,这对于自动驾驶车辆中的嵌入式系统是不可行的。本文提出了一个轻量级的模型,可行驶区域和车道线分割。TwinLiteNet的设计成本低廉,但可以实现准确高效的分割结果。我们在BDD 100 K数据集上评估了TwinLiteNet,并将其与现代模型进行了比较。实验结果表明,我们的TwinLiteNet执行类似于现有的方法,需要显着更少的计算资源。具体来说,TwinLiteNet在可行驶区域任务中实现了91.3%的mIoU得分,在车道检测任务中实现了31.08%的IoU得分,仅使用了40万个参数,并在GPU RTX A5000上实现了415 FPS。此外,TwinLiteNet可以在计算能力有限的嵌入式设备上实时运行,特别是因为它在Jetson Xavier NX上实现了60 FPS,使其成为自动驾驶汽车的理想解决方案。代码可用:url{https://github.com/chequanghuy/TwinLiteNet}.

1.10 Interactive Segmentation for Diverse Gesture Types Without Context

针对不同手势类型的无上下文交互分割

https://arxiv.org/abs/2307.10518

在这里插入图片描述
交互式分割需要人类标记图像以指导模型如何创建或编辑分割。我们的工作解决了现有方法的局限性:它们或者仅支持用于标记图像的一种手势类型(例如,点击或涂写),或者需要知道所采用的手势类型,并且需要指定在最终分割中是否应该包括标记区域还是排除标记区域。相反,我们提出了一个简化的交互式分割任务,其中用户只必须标记图像,其中输入可以是任何手势类型,而不指定手势类型。我们通过引入具有多种手势类型的第一交互式分割数据集以及能够全面评估交互式分割算法的新评估指标来支持这一新任务。然后,我们分析了许多交互式分割算法,包括适应我们的新任务。虽然我们观察到整体表现有希望,但我们也强调了未来需要改进的领域。为了促进这项工作的进一步扩展,我们在https://github.com/joshmyersdean/dig公开分享了我们的新数据集。

1.11 CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud Semantic Segmentation

CPCM:弱监督点云语义分割的上下文点云建模

https://arxiv.org/abs/2307.10316

在这里插入图片描述
我们研究了具有稀疏注释的弱监督点云语义分割的任务(例如,少于0.1%的点被标记),旨在降低密集注释的昂贵成本。不幸的是,非常稀疏的注释点,这是非常困难的提取上下文和对象信息的场景理解,如语义分割。受掩蔽建模的启发(例如,MAE)在图像和视频表示学习中,我们试图赋予掩码建模的能力,以从稀疏注释的点中学习上下文信息。然而,直接将MAE应用于具有稀疏注释的3D点云可能无法工作。首先,有效地从3D点云中屏蔽出信息丰富的视觉上下文是不平凡的。其次,如何充分利用稀疏的注释上下文建模仍然是一个悬而未决的问题。在本文中,我们提出了一种简单而有效的上下文点云建模(CPCM)方法,该方法由两部分组成:区域式掩蔽(RegionMask)策略和上下文掩蔽训练(CMT)方法。具体地,RegionMask在几何空间中连续地掩蔽点云,以构造用于后续上下文学习的有意义的掩蔽预测任务。CMT将监督分割和无监督掩蔽上下文预测的学习分开,分别用于有效地学习非常有限的标记点和大量未标记点。在广泛测试的ScanNet V2和S3DIS基准上进行的大量实验证明了CPCM优于最先进的技术。

1.12 On the Real-Time Semantic Segmentation of Aphid Clusters in the Wild

野外蚜虫群的实时语义切分研究

https://arxiv.org/abs/2307.10267

在这里插入图片描述
蚜虫侵扰可对小麦和高粱田造成广泛损害并传播植物病毒,导致农业产量显著损失。为了解决这个问题,农民通常依赖于化学农药,这些农药在大面积的田地上施用效率低下。结果,相当数量的杀虫剂被浪费在没有害虫的地区,而施用到害虫严重的地区的量不足。本文重点关注对智能自主系统的迫切需求,该系统可以在复杂的作物冠层内定位和喷洒虫害,减少农药使用和环境影响。我们已经收集并标记了一个大的蚜虫图像数据集在该领域,并提出了使用实时语义分割模型来分割蚜虫集群。生成多尺度数据集以允许学习不同尺度的聚类。我们比较了四种最先进的实时语义分割模型在蚜虫集群数据集上的分割速度和准确性,并将其与非实时模型进行了比较。研究结果表明了实时解决方案的有效性,可以减少低效的农药使用并提高作物产量,为自主害虫检测系统铺平了道路。

1.13 Confidence intervals for performance estimates in 3D medical image segmentation

三维医学图像分割中性能估计的置信度

https://arxiv.org/abs/2307.10926

在这里插入图片描述
医学分割模型的经验评估。由于这样的评估是基于有限的一组示例图像,因此不可避免地有噪声。因此,除了平均性能指标之外,报告置信区间也至关重要。然而,在医学图像分割中很少这样做。置信区间的宽度取决于测试集的大小和性能度量的分布(其在测试集上的标准差)。对于分类,需要许多测试图像以避免宽置信区间。然而,分割还没有被研究,它的不同之处在于给定的测试图像所带来的信息量。本文研究了医学图像分割中的典型置信区间。我们使用标准的nnU-net框架,来自医学十项全能挑战的两个数据集和两个性能指标进行3D图像分割实验:Dice精度和Hausdorff距离。我们表明,参数的置信区间是合理的近似的bootstrap估计不同的测试集大小和传播的性能指标。重要的是,我们表明,需要达到一个给定的精度的测试大小往往比分类任务低得多。通常情况下,1%宽的置信区间需要约100-200个测试样本时,蔓延是低的(标准偏差约3%)。更困难的分割任务可能会导致更高的传播,并需要超过1000个样本。

1.14 Towards Automated Semantic Segmentation in Mammography Images

乳房摄影图像的自动语义分割研究

https://arxiv.org/abs/2307.10296

在这里插入图片描述
乳腺X线摄影图像被广泛用于检测不可触及的乳腺病变或结节,预防癌症并在必要时提供计划干预的机会。一些感兴趣的结构的识别是必不可少的诊断和评估图像的充分性。因此,计算机辅助检测系统可以通过自动分割这些标志结构来帮助医学解释。在本文中,我们提出了一个基于深度学习的框架,用于分割标准视图乳腺X射线摄影图像上的乳头、胸肌、纤维腺体组织和脂肪组织。我们引入了一个大型的私有分割数据集,并考虑了不同的深度学习模型架构进行了广泛的实验。我们的实验表明,准确的分割性能的变量和具有挑战性的情况下,表明该框架可以集成到临床实践中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/783104.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【unity】模型裁剪shader(建筑生长动画)

【unity】模型裁剪shader(建筑生长动画) 思路 使用的核心方法是clip,当传入正值时渲染,传入负值时不渲染。定义一个裁剪向量,使用裁剪向量和模型点点乘,如果模型点和裁剪向量是同一个方向,点乘为正&#…

代码随想录算法训练营第58天|739 496

739 用stack来写 stack里面发index 不要放数值 重点在于 1.填写result数组不需要按顺序填写 根据index就可以 2.遍历的值比top小的话就放入stack 这样stack里面是一个递减数组 遍历的值只需和top比 如果比他大就pop 一直到把stack里面比新加入的值小的都pop完为止 这样stack里…

vue项目的vue.config.js在打包过程中,并不会处理api请求。

主要处理打包选项和静态资源文件 请求是axios处理的

nonebot2聊天机器人插件12:stable_diffusion_webui_api

nonebot2聊天机器人插件12:stable_diffusion_webui_api 1. 插件用途2. 代码实现3. 实际效果 该插件涉及知识点:定时器,调用bot的api发送消息 插件合集:nonebot2聊天机器人插件 该系列为用于QQ群聊天机器人的nonebot2相关插件&…

IPO向上,大模型向下:中国企服寻找新「出口」

2023年,资本市场给企服行业带来的动荡,无疑是一次洗牌机会。只有当SaaS企业深耕产业侧,才能找到实现标准化的解法,才能在一波又一波的浪潮下抓住机遇。 作者|思杭 编辑|皮爷 出品|产业家 2023上半年,企服行业在…

MySQL存储过程——系统变量

1.存储过程中的变量 1.1 查看系统变量 查看所有的系统变量 show variables;查看会话级别的系统变量 show session variables;查看会话和auto相关的变量 show session variables like auto%;查看全局的和auto相关变量 show global variables like auto%;查看某一…

js的几种排序

冒泡排序&#xff1a; function bubbleSort(arr) {var len arr.length;for (var i 0; i < len; i) {for (var j 0; j < len - 1 - i; j) {if (arr[j] > arr[j1]) { //相邻元素两两对比var temp arr[j1]; //元素交换arr[j1] arr[j];arr[j] temp;}}…

进程(process)与线程(thread)以及线程的三种实现方法

一、线程和进程区别 说起进程&#xff0c;就不得不说下程序。程序是指令和数据的集合&#xff0c;其本身没有任何运行的含义&#xff0c;是一个静态的概念。 而进程则是执行程序的一次执行过程&#xff0c;它是一个动态的概念。是系统资源分配的单位。 通常在一个进程中可以…

BGP对SR-MPLS的支持

目录 BGP的SID类型 BGP Prefix-SID BGP Anycast-SID BGP Peer-SID BGP SID的通告 通过Prefix-SID属性 通告Prefix-SID 通过BGP EPE 通告Peer-SID 为什么要使用BGP作为SR-MPLS的控制平面 IGP for SR-MPSL只可以在自治系统AS内分配SID&#xff0c;规划出AS域内的最优路径 …

第12章 STM32+BH1750光照传感器+OLED模块显示环境光照强度

今天给大家介绍一块嵌入式毕设中也经常用到的一款传感器——BH1750光照传感器&#xff0c;如下图。&#xff08;该传感器的购买链接和代码我已放在资料里&#xff0c;想要资料的同学&#xff0c;评论区留下邮箱即可&#xff09;相比光敏传感器&#xff0c;它可以直接输出环境光…

【Unity2D】设置一物体默认在其他物体之上不被遮挡

比如我想让机器人显示在箱子的前面。 点击箱子&#xff0c;将其层级设置在机器人的后面。 即修改箱子的Order in Layer 在机器人之后 物体默认的Order in Layer 都是0 &#xff0c;将箱子的Order in Layer修改为-1即可 这样将确保先绘制机器人&#xff0c;然后绘制箱子。这样…

ConstraintLayout(约束布局)替代LinearLayout权重,解决多View一行省略问题

1.看上面的设计图中圈红的地方&#xff1a;左边设计图是一张直播间消息流&#xff0c;其中标红的消息流意思是&#xff1a; 用户的等级标签&#xff08;一张图片&#xff09; 用户名字写死的文案send,要求这三个View写一行&#xff0c;但是当用户名字过长时会让用户名出现.....…

数据结构双向循环链表,增删改查基本操作

一、双向循环链表的描述 和单链表的循环类似&#xff0c;双向链表也可以有循环表&#xff0c;循环表的引进是为了弥补双向链表不能向前遍历的弊端。 在双向循环链表中&#xff0c;头结点的直接前驱为尾结点&#xff0c;而尾结点的直接后继为头结点。 二、双向循环链表的存储结…

黑马B站视频JAVA部分的知识与学习-【思维导图知识范围】

JAVA本系列黑马的JAVA学习路线–详解JAVA部分的学习语言视频选择收录专辑链接C张雪峰推荐选择了计算机专业之后-在大学期间卷起来-【大学生活篇】JAVA黑马B站视频JAVA部分的知识范围、学习步骤详解JAVAWEB黑马B站视频JAVAWEB部分的知识范围、学习步骤详解SpringBootSpringBoot知…

如何在 Outlook 中将导航栏从左侧移动到底部?

对于最新版本的 Outlook 的用户&#xff0c;这是 Microsoft 365 MSO&#xff08;版本 2211 内部版本 16.0.15831.20098&#xff09;&#xff0c;您可以更快地完成工作。 Office 刚刚在最新版本的 Outlook 365 中添加了一个选项。由于这次更新&#xff0c;您只需单击几下即可将导…

RT-Thread快速入门-定时器管理

1时钟节拍 任何操作系统都需要提供一个时钟节拍&#xff0c;以供系统处理所有和时间有关的事件&#xff0c;如延时、线程的时间片轮转调度以及定时器超时等。时钟节拍&#xff08;OS Tick&#xff09;是操作系统中最小的时间单位。 时钟节拍是特定的周期性中断&#xff0c;这…

求100以内的素数和!!!

1.我在写这段代码是就遇到了这么一个问题&#xff0c;我认为&#xff1a; if (i % j 0) { break; } 只要满足这段代码就认为是素数&#xff0c;其实不是&#xff0c;素数的定义是只有1和它本身可以整除&#xff0c;而这段代码&#xff0c;是只要能够整除就认为是素数 &#…

58. 最后一个单词的长度

题目链接&#xff1a;力扣 解题思路&#xff1a;简单题&#xff0c;没什么好说的 方法一&#xff1a;直接调用String类的split分割函数&#xff0c;以单个空格字符进行分割&#xff0c;则分割后生成数组的最后一个元素的长度即所求 AC代码 class Solution {public int lengt…

ARM--LED灯点亮

LED1,LED2,LED3亮灯 .text .global _start_start: /**********LED1点灯--->PE10**************//*初始化RCC章节*/通过RCC_MP_AHB4ENSETR寄存器,使能GPIOs组控制器 0x500000A28[4] 1RCC_INIT: E组和F组一起使能ldr r0,0x50000A28 ldr r1,[r0]orr r1,r1,#(0x3 << 4)s…

IDEA汉化插件

一、使用IDEA插件功能 重启IDEA 二、下载中文包 手动注入 进官网找自己IDEA对应版本的&#xff0c;下载压缩包&#xff1a;点我进官网 看自己的IDEA版本 把压缩包拖进去&#xff0c;IDEA里打开着文件也没关系 重启IDEA