【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(7 月 19 日论文合集)

news2025/1/12 21:05:35

文章目录

  • 一、分割|语义相关(12篇)
    • 1.1 Disentangle then Parse:Night-time Semantic Segmentation with Illumination Disentanglement
    • 1.2 OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation
    • 1.3 MarS3D: A Plug-and-Play Motion-Aware Model for Semantic Segmentation on Multi-Scan 3D Point Clouds
    • 1.4 Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding
    • 1.5 CG-fusion CAM: Online segmentation of laser-induced damage on large-aperture optics
    • 1.6 Mining of Single-Class by Active Learning for Semantic Segmentation
    • 1.7 Connections between Operator-splitting Methods and Deep Neural Networks with Applications in Image Segmentation
    • 1.8 Online Self-Supervised Thermal Water Segmentation for Aerial Vehicles
    • 1.9 EVIL: Evidential Inference Learning for Trustworthy Semi-supervised Medical Image Segmentation
    • 1.10 Semantic Counting from Self-Collages
    • 1.11 Evaluate Fine-tuning Strategies for Fetal Head Ultrasound Image Segmentation with U-Net
    • 1.12 Frequency-mixed Single-source Domain Generalization for Medical Image Segmentation

一、分割|语义相关(12篇)

1.1 Disentangle then Parse:Night-time Semantic Segmentation with Illumination Disentanglement

先解开再解析:光照解缠的夜间语义分割

https://arxiv.org/abs/2307.09362

在这里插入图片描述
大多数现有的语义分割方法都是针对白天场景开发的,但由于照明条件不足且复杂,在夜间场景中通常表现不佳。 在这项工作中,我们通过提出一种新颖的夜间语义分割范例来应对这一挑战,即解开然后解析(DTP)。 DTP 明确地将夜间图像分解为光不变的反射率和特定于光的照明分量,然后基于它们的自适应融合来识别语义。 具体来说,所提出的 DTP 包括两个关键组成部分:1)我们的面向语义的解缠结(SOD)框架不是像以前的工作那样处理光照纠缠特征,而是能够不受光照阻碍地提取反射分量,从而使网络能够在变化和复杂的光照条件下一致地识别语义。 2)基于照明组件可以作为一些语义混淆区域的线索的观察,我们进一步引入照明感知解析器(IAParser)来明确学习语义和照明之间的相关性,并聚合照明特征以产生更精确的预测。 对各种设置的夜间分割任务进行的大量实验表明,DTP 显着优于最先进的方法。 此外,由于附加参数可以忽略不计,DTP 可以直接用于使现有的白天夜间分割方法受益。

1.2 OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation

OnlineRefer:一种参考视频对象分割的简单在线基线

https://arxiv.org/abs/2307.09356

在这里插入图片描述
参考视频对象分割(RVOS)旨在按照人类指令分割视频中的对象。 当前最先进的方法属于离线模式,其中每个剪辑独立地与文本嵌入交互以实现跨模式理解。 他们通常表示离线模式对于 RVOS 是必要的,但对每个剪辑内的有限时间关联进行建模。 在这项工作中,我们打破了以前的离线信念,并提出了一种使用显式查询传播的简单而有效的在线模型,名为 OnlineRefer。 具体来说,我们的方法利用目标线索来收集语义信息和位置,以提高当前帧的引用预测的准确性和易用性。 此外,我们将在线模型概括为半在线框架,以与基于视频的主干网兼容。 为了展示我们方法的有效性,我们在四个基准上对其进行评估,即 Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences 和 JHMDB-Sentences。 没有花里胡哨的东西,我们的具有 Swin-L 主干的 OnlineRefer 在 Refer-Youtube-VOS 和 Refer-DAVIS17 上达到了 63.5 J&F 和 64.8 J&F,优于所有其他离线方法。

1.3 MarS3D: A Plug-and-Play Motion-Aware Model for Semantic Segmentation on Multi-Scan 3D Point Clouds

MarS3D:一种即插即用的多扫描三维点云语义分割模型

https://arxiv.org/abs/2307.09316

在这里插入图片描述
多扫描大规模点云上的 3D 语义分割在自治系统中发挥着重要作用。 与基于单扫描的语义分割任务不同,该任务除了需要区分点的语义类别之外,还需要区分点的运动状态。 然而,由于缺乏有效的方法来整合时间信息,为基于单扫描的分割任务设计的方法在多扫描任务上表现不佳。 我们提出了 MarS3D,这是一种即插即用的运动感知模块,用于多扫描 3D 点云上的语义分割。 该模块可以与单扫描模型灵活结合,使其具备多扫描感知能力。 该模型包含两个关键设计:用于丰富表示学习的跨帧特征嵌入模块和用于增强运动感知的运动感知特征学习模块。 大量实验表明,MarS3D 可以大幅提高基线模型的性能。 该代码可从此 https URL 获取。

1.4 Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding

弱监督3D视觉奠基中粗精语义匹配知识的提取

https://arxiv.org/abs/2307.09267

在这里插入图片描述
3D 视觉基础涉及在 3D 场景中查找与给定句子查询相对应的目标对象。 尽管已经提出了许多方法并取得了令人印象深刻的性能,但它们都需要在 3D 点云中进行密集的对象-句子对注释,这既耗时又昂贵。 为了解决细粒度标注数据难以获得的问题,我们建议利用弱监督标注来学习3D视觉基础模型,即仅使用粗略的场景-句子对应来学习宾语-句子链接。 为了实现这一目标,我们设计了一种新颖的语义匹配模型,以从粗到细的方式分析对象提案和句子之间的语义相似性。 具体来说,我们首先提取对象建议,并根据特征和类相似度矩阵粗略地选择前 K 个候选者。 接下来,我们使用每个候选者一一重建句子的屏蔽关键词,重建的准确性很好地反映了每个候选者与查询的语义相似度。 此外,我们将粗到精的语义匹配知识提炼成典型的两阶段 3D 视觉基础模型,通过充分利用现有架构的充分研究的结构来降低推理成本并提高性能。 我们对 ScanRefer、Nr3D 和 Sr3D 进行了广泛的实验,证明了我们提出的方法的有效性。

1.5 CG-fusion CAM: Online segmentation of laser-induced damage on large-aperture optics

CG-Fusion CAM:大口径光学元件激光损伤的在线分割

https://arxiv.org/abs/2307.09161

在这里插入图片描述
高功率激光设施中大口径光学器件激光损伤的在线分割面临着复杂的损伤形态、光照不均匀和杂散光干扰的挑战。 完全监督的语义分割算法已经实现了最先进的性能,但依赖于大量的像素级标签,这些标签的生成既费时又费力。 LayerCAM 是一种先进的弱监督语义分割算法,可以仅使用图像级标签生成像素精确的结果,但其分散且部分未激活的类激活区域会降低分割性能。 在本文中,我们提出了一种使用连续梯度 CAM 及其非线性多尺度融合(CG-fusion CAM)的弱监督语义分割方法。 该方法重新设计了反向传播梯度的方式,非线性激活多尺度融合热图,针对不同大小的损伤部位生成具有适当激活程度的更细粒度的类激活图。 在我们的数据集上的实验表明,所提出的方法可以实现与完全监督算法相当的分割性能。

1.6 Mining of Single-Class by Active Learning for Semantic Segmentation

基于主动学习的语义切分单类挖掘

https://arxiv.org/abs/2307.09109

在这里插入图片描述
一些主动学习 (AL) 策略需要多次重新训练目标模型,以便识别信息最丰富的样本,并且很少提供专注于从代表性不足的类别中获取样本的选项。 这里引入了主动学习挖掘单类(MiSiCAL)范式,其中通过深度强化学习构建 AL 策略,并利用数量精度相关性来构建数据集,在该数据集上可以针对特定类训练高性能模型。 MiSiCAL 在批量大小非常大的情况下特别有用,因为它不需要像其他 AL 方法中常见的重复模型训练课程。 这要归功于它利用候选数据点的固定表示的能力。 我们发现 MiSiCAL 在 171 个 COCO10k 类别中的 150 个类别上能够优于随机策略,而最强基线仅在 101 个类别上优于随机策略。

1.7 Connections between Operator-splitting Methods and Deep Neural Networks with Applications in Image Segmentation

算子分裂方法与深度神经网络的关系及其在图像分割中的应用

https://arxiv.org/abs/2307.09052

在这里插入图片描述
深度神经网络是完成许多任务的强大工具。 理解它为何如此成功并提供数学解释是一个重要的问题,也是过去几年的一个热门研究方向。 在深度神经网络的数学分析文献中,很多工作致力于建立表示理论。 如何在深度神经网络和数学算法之间建立联系仍在开发中。 在本文中,我们给出了深度神经网络的算法解释,特别是它们与算子分裂和多重网格方法的联系。 我们证明,通过某些分裂策略,算子分裂方法具有与网络相同的结构。 利用这种连接和 Potts 模型进行图像分割,提出了两个受算子分割方法启发的网络。 这两个网络本质上是求解 Potts 模型的两个算子分割算法。 数值实验证明了所提出的网络的有效性。

1.8 Online Self-Supervised Thermal Water Segmentation for Aerial Vehicles

飞行器在线自监督热水分割

https://arxiv.org/abs/2307.09027

在这里插入图片描述
我们提出了一种新方法,通过利用纹理和运动线索作为监督信号,使用在线自我监督将 RGB 训练的水分割网络适应目标域航空热图像。 这种新的热功能使当前在近岸环境中运行的自主飞行机器人能够在夜间执行视觉导航、测深和流量跟踪等任务。 我们的方法克服了近岸热数据稀缺且难以获取的问题,阻碍了传统监督和无监督方法的应用。 在这项工作中,我们策划了第一个近岸航空热数据集,表明我们的方法优于在有限目标域热数据上训练的完全监督分割模型,并演示了 Nvidia Jetson 嵌入式计算平台上的实时功能。

1.9 EVIL: Evidential Inference Learning for Trustworthy Semi-supervised Medical Image Segmentation

基于证据推理学习的可信半监督医学图像分割

https://arxiv.org/abs/2307.08988

在这里插入图片描述
最近,不确定性感知方法在半监督医学图像分割中引起了越来越多的关注。 然而,当前的方法通常存在难以在统一框架中平衡计算成本、估计精度和理论支持的缺点。 为了缓解这个问题,我们将 Dempster-Shafer 证据理论 (DST) 引入半监督医学图像分割,称为证据推理学习 (EVIL)。 EVIL 提供了理论上有保证的解决方案,可以在单次前向传递中推断出准确的不确定性量化。 不确定性估计后会生成未标记数据上的可信伪标签。 我们的框架采用了最近提出的基于一致性正则化的训练范式,它强制扰动预测的一致性,以增强少量标记数据的泛化能力。 实验结果表明,与公共数据集上的几种最先进的方法相比,EVIL 取得了有竞争力的性能。

1.10 Semantic Counting from Self-Collages

基于自我拼贴的语义统计

https://arxiv.org/abs/2307.08727

在这里插入图片描述

虽然最近基于参考的对象计数的监督方法继续提高基准数据集的性能,但由于手动注释图像中的数十个对象所需的成本,它们必须依赖于小型数据集。 我们提出了无监督计数器(UnCo),这是一种可以学习此任务而无需任何手动注释的模型。 为此,我们构建了“SelfCollages”,即以各种粘贴对象作为训练样本的图像,提供了涵盖任意对象类型和计数的丰富学习信号。 我们的方法建立在现有的无监督表示和分割技术的基础上,成功地展示了在没有人工监督的情况下对对象进行计数的能力。 我们的实验表明,我们的方法不仅优于简单基线和 FasterRCNN 等通用模型,而且在某些领域与监督计数模型的性能相匹配。

1.11 Evaluate Fine-tuning Strategies for Fetal Head Ultrasound Image Segmentation with U-Net

U网精调策略在胎头超声图像分割中的评价

https://arxiv.org/abs/2307.09067

在这里插入图片描述
胎头分割是妊娠期间测量胎儿头围 (HC) 的关键步骤,是产科监测胎儿生长的重要生物特征。 然而,手动生成生物特征非常耗时,并且会导致准确性不一致。 为了解决这个问题,卷积神经网络(CNN)模型被用来提高医学生物测量的效率。 但是从头开始训练 CNN 网络是一项具有挑战性的任务,我们提出了迁移学习(TL)方法。 我们的方法涉及使用轻量级 MobileNet 作为编码器对 U-Net 网络进行微调 (FT),从而以有限的努力对一组胎儿头部超声 (US) 图像执行分割。 该方法解决了与从头开始训练 CNN 网络相关的挑战。 这表明我们提出的 FT 策略产生的分割性能与使用减少 85.8% 的参数数量进行训练时相当。 我们提出的 FT 策略优于其他可训练参数大小低于 440 万的策略。 因此,我们认为它可以作为一种可靠的 FT 方法来减小医学图像分析中模型的大小。 我们的主要发现强调了通过 TL 方法开发人工智能 (AI) 应用程序时模型性能和规模之间的平衡的重要性。

1.12 Frequency-mixed Single-source Domain Generalization for Medical Image Segmentation

用于医学图像分割的混频单源域泛化算法

https://arxiv.org/abs/2307.09005

在这里插入图片描述
医学图像分割的注释稀缺给深度学习模型收集足够的训练数据带来了挑战。 具体来说,在有限数据上训练的模型可能无法很好地推广到其他看不见的数据域,从而导致域转移问题。 因此,域泛化(DG)被开发来提高分割模型在未知域上的性能。 然而,DG 设置需要多个源域,这阻碍了分割算法在临床场景中的有效部署。 为了应对这一挑战并提高分割模型的泛化性,我们提出了一种称为频率混合单源域泛化方法(FreeSDG)的新方法。 通过分析频率对域差异的影响,FreeSDG 利用混合频谱来增强单源域。 此外,在域增强中构建自我监督,以学习分割任务的鲁棒上下文感知表示。 三种模式的五个数据集的实验结果证明了所提出算法的有效性。 FreeSDG 的性能优于最先进的方法,并显着提高了分割模型的通用性。 因此,FreeSDG 为增强医学图像分割模型的泛化性提供了一种有前途的解决方案,特别是在注释数据稀缺的情况下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/780944.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode74.Search-A-2d-Matrix<搜索二维矩阵>

题目: 思路: 矩阵,搜索数是否在矩阵内。那就查找他是否在每一行中。如果符合这一行的范围,那就一直找这一列是否存在,如果存在返回true;否则false; 代码是: //codeclass Solution …

Istio 安全管理 加密证书中心

1 tls认证 2 设置ACL 允许哪些客户端可以访问 哪些客户端不能访问 3 istio里面的认证 加密是可以分为三种类型 对称加密(加密和解密用的是同一个密钥)非对称加密哈希函数 对称加密 A要发送数据传送给B,那么A要使用一个密钥,里面…

MySQL-数据库读写分离(下)

♥️作者:小刘在C站 ♥️个人主页: 小刘主页 ♥️努力不一定有回报,但一定会有收获加油!一起努力,共赴美好人生! ♥️学习两年总结出的运维经验,以及思科模拟器全套网络实验教程。专栏&#xf…

Verilog 学习之路二——基础学习总结(摘取自菜鸟教程)

目录 1 Verilog 设计方法2. 基础语法2.1 格式2.2 数值表示数值种类表示方法 2.3 数据类型2.4 表达式 3. 编译指令4. 连续赋值5. 过程结构6 过程赋值7 时序控制8 语句块9 循环10 函数例子-数码管译码 1 Verilog 设计方法 Verilog 的设计多采用自上而下的设计方法(to…

TypeScript + React 环境搭建

React 安装 vscode 或者 webstrom 代码编辑器TypeScript 开发环境搭建1.1、下载 node.js1.2、安装 node.js1.3、npm 安装 typeScript1.4、创建和编写 ts 文件1.5、编译1.6、运行 js文件 React 环境搭建2.1、homebrow2.2、安装 cnpm:2.3、安装yarn:2.4、安…

[oeasy]python0074[专业选修]字节序_byte_order_struct_pack_大端序_小端序

进制转化 回忆上次内容 上次 总结了 计算字符串值的函数 eval 四种进制的转化函数 binoctinthex 函数名前缀目标字符串所用进制bin0b二进制oct0o八进制hex0x十六进制eval无前缀十进制 数字41 和 字符串"41" 的不同 字符串"41" 两个字符字符存储依据是…

部署ELK+Kafka+Filebeat日志收集分析系统

部署ELKKafkaFilebeat日志收集分析系统 文章目录 部署ELKKafkaFilebeat日志收集分析系统一、ELK 简介1、ELK日志分析系统组成2、Elasticsearch(es)3、Logstash4、Kibana5、日志处理步骤 二、Elasticsearch介绍1、Elasticsearch核心概念2、开启分片副本的…

AcWing 244. 谜一样的牛—树状数组、二分

题目链接 AcWing 244. 谜一样的牛 题目描述 分析 这道题挺巧妙的,感觉树状数组方面的题就是比较难想,先分析一下样例,样例中每头牛前面比自己低的牛的数量分别为 0 1 2 1 0牛的高度是1~n的排列,如何分析出每头牛的高度呢&…

Linux学习之if判断的使用

if的基本用法 if后边可以直接跟着命令。 echo "good" > ifecho.txt把good输出到当前目录下ifecho.txt文件里边,cat ifecho.txt首先可以看一下这个文件里边的内容。 然后依次输入: if cat ifecho.txt thenecho "right" fi可以看…

Windows系统实现唤醒+合成+命令词智能语音交互

1、之前写过离线能力调用,今天来个终极版,实现智能交互或者结合大模型的智能交互示例,下面进入正题。上B站效果离线唤醒离线合成离线命令词实现智能交互_哔哩哔哩_bilibili 2、到讯飞开放平台下载唤醒合成命令词的离线组合包,找到…

关于正则表达式的简单介绍以及使用

一、介绍 正则表达式通常被用来检索匹配某种模式(规律)的文本 日常文本检索,如果单纯检索某个数字,字母,或者单词匹配出来的结果较多,而面对目标文件内容较大的时,我们也不可能肉眼对检索出来的…

Kotlin 新版本 1.9.0重要更新预览

释放 Kotlin 新版本 1.9.0 的强大功能 1. Kotlin K2编译器用于多平台 对K2编译器进行了进一步的改进,使其更加稳定。K2编译器针对JVM目标现已进入Beta版本,并且也可以在多平台项目中使用。 您可以通过将K2配置添加到项目的gradle.properties中&#x…

pytest-allure 生成测试报告

目录 前言: pytest 中 yield 和 return 的区别和相同点 共同点 区别 usefixtures 与传 fixture 区别 Pytest 常用的插件 一键安装多个模块 前言: 在软件测试中,生成清晰、易读的测试报告是非常重要的。pytest-allure是一个流行的测试…

centos逻辑分区磁盘扩展

最近碰到服务器磁盘空间不足,需要扩展逻辑分区的需求,特地做下小笔记,方便后续自己回忆。下图是磁盘的相关概念示意图: 1、查看磁盘空间 [rootlocalhost ~]# df -h #查看磁盘空间,根分区的大小是18G,已经用…

微服务——Eureka和Nacos

目录 提供者和消费者 ​编辑 Eureka注册中心——远程调用的问题 Eureka注册中心——原理分析 Eureka注册中心——搭建eureka服务 步骤: Eureka注册中心——服务注册 Eureka注册中心——服务发现 总结 Ribbon负载均衡——原理 流程: Ribbon负载均衡——策略 Ribbon负载均衡—…

ChatGPT:人工智能语言模型的革命性进步

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1f33…

idea中回退远程push过的提交(详细图文操作)

目录 git基本知识回顾git中本地文件保存的3个地方工作区暂存区本地仓库代码提交到远程仓库的流转 reset命令的3个参数softmixedhard 具体操作模拟两次提交远程分支回退到第一次提交第一次reset hard第二次reset soft/mixed git基本知识回顾 git中本地文件保存的3个地方 工作区…

CSS :nth-child

CSS :nth-child :nth-child 伪类根据元素在同级元素中的位置来匹配元素. CSS :nth-child 语法 值是关键词 odd/evenAnB最新的 [of S] 语法权重 浏览器兼容性 很简单的例子, 来直觉上理解这个伪类的意思 <ul><li class"me">Apple</li><li>B…

陪诊小程序搭建|陪诊接单平台开发|医疗陪诊小程序

陪诊小程序是一种提供陪同就诊服务的在线平台&#xff0c;具有广阔的发展前景。下面是对陪诊小程序发展前景的介绍&#xff1a;   随着社会的发展和人们生活水平的提高&#xff0c;人们对医疗服务的需求也越来越高。然而&#xff0c;由于工作繁忙、时间紧张等原因&#xff0c…

【C++】通过栈和队列学会使用适配器和优先队列学会仿函数的使用

&#x1f307;个人主页&#xff1a;平凡的小苏 &#x1f4da;学习格言&#xff1a;命运给你一个低的起点&#xff0c;是想看你精彩的翻盘&#xff0c;而不是让你自甘堕落&#xff0c;脚下的路虽然难走&#xff0c;但我还能走&#xff0c;比起向阳而生&#xff0c;我更想尝试逆风…