【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(7 月 20 日论文合集)

news2025/1/16 8:01:16

文章目录

  • 一、分割|语义相关(11篇)
    • 1.1 Two Approaches to Supervised Image Segmentation
    • 1.2 Boundary-Refined Prototype Generation: A General End-to-End Paradigm for Semi-Supervised Semantic Segmentation
    • 1.3 Source-Free Domain Adaptive Fundus Image Segmentation with Class-Balanced Mean Teacher
    • 1.4 U-CE: Uncertainty-aware Cross-Entropy for Semantic Segmentation
    • 1.5 Hierarchical Semantic Perceptual Listener Head Video Generation: A High-performance Pipeline
    • 1.6 Source-Free Domain Adaptation for Medical Image Segmentation via Prototype-Anchored Feature Alignment and Contrastive Learning
    • 1.7 Longitudinal Data and a Semantic Similarity Reward for Chest X-Ray Report Generation
    • 1.8 Space Engage: Collaborative Space Supervision for Contrastive-based Semi-Supervised Semantic Segmentation
    • 1.9 ClickSeg: 3D Instance Segmentation with Click-Level Weak Annotations
    • 1.10 DenseMP: Unsupervised Dense Pre-training for Few-shot Medical Image Segmentation
    • 1.11 SAM-Path: A Segment Anything Model for Semantic Segmentation in Digital Pathology

一、分割|语义相关(11篇)

1.1 Two Approaches to Supervised Image Segmentation

有监督图像分割的两种方法

https://arxiv.org/abs/2307.10123

在这里插入图片描述
尽管人类几乎毫不费力地执行,但是根据其感兴趣的组成区域(例如~)来分割2D灰度或彩色图像。背景、对象或对象的部分)构成了科学和技术中最大的挑战之一,这是由于所涉及的降维(3D到2D)、噪声、反射、阴影和遮挡以及许多其它可能的影响。虽然在过去的几十年中,已经分别提出了大量有趣的方法,但主要是随着深度学习的最近发展,获得了更有效和通用的解决方案,目前构成了这类操作的基本比较参考。最近还开发了一种基于多重集的方法,已经描述了能够鼓励性能,结合了空间精度,稳定性和鲁棒性,同时需要最少的计算资源(硬件和/或训练和识别时间)。后一种方法的有趣功能主要是从增强的选择性和灵敏度,以及良好的鲁棒性数据扰动和离群值,允许的重合相似性指数上的多集方法监督图像分割的基础上。在描述了深度学习和多集方法之后,本工作开发了它们之间的两个比较实验,主要目的是说明当应用于所采用的特定类型的数据和参数配置时,它们各自的主要有趣特征。虽然深度学习方法证实了其执行图像分割的潜力,但替代的多集方法允许鼓励准确性,同时需要很少的计算资源。

1.2 Boundary-Refined Prototype Generation: A General End-to-End Paradigm for Semi-Supervised Semantic Segmentation

边界细化原型生成:一种半监督语义分割的通用端到端范型

https://arxiv.org/abs/2307.10097

在这里插入图片描述
基于原型的分类方法是机器学习中的经典方法,近年来在半监督语义分割中取得了显著的成功。然而,当前的方法将原型初始化过程与主训练框架隔离,这似乎是不必要的。此外,虽然直接使用K-Means算法生成原型已经考虑了丰富的类内方差,但它可能不是分类任务的最佳解决方案。为了解决这些问题,我们提出了一种新的边界细化原型生成(BRPG)方法,这是纳入到整个训练框架。具体来说,我们的方法样本和集群的高和低置信度的功能分别基于一个置信度阈值,旨在生成更接近类边界的原型。此外,一个自适应的原型优化策略,使原型扩充的类别与分散的特征分布。在PASCAL VOC 2012和Cityscapes数据集上的大量实验证明了该方法的优越性和可扩展性,优于目前最先进的方法。代码可在xxxxxxxxxxxx获得。

1.3 Source-Free Domain Adaptive Fundus Image Segmentation with Class-Balanced Mean Teacher

基于班级均衡的无源域自适应眼底图像分割

https://arxiv.org/abs/2307.09973

在这里插入图片描述
本文研究了无源域自适应眼底图像分割,其目的是使预先训练的眼底分割模型适应目标域使用未标记图像。这是一项具有挑战性的任务,因为仅使用未标记数据调整模型是非常危险的。大多数现有的方法主要通过设计技术来从模型的预测小心地生成伪标签并使用伪标签来训练模型来解决这个任务。虽然经常获得积极的适应效果,这些方法遭受两个主要问题。首先,它们往往是相当不稳定的-不正确的伪标签突然出现可能会对模型造成灾难性的影响。其次,它们没有考虑眼底图像的严重类别不平衡,其中前景(例如,杯子)的面积通常很小。本文旨在解决这两个问题,提出班级平衡平均教师(CBMT)模型。CBMT通过提出弱-强增强均值教师学习方案来解决不稳定的问题,其中只有教师模型从弱增强图像生成伪标签来训练学生模型,以强增强图像作为输入。教师被更新为即时训练的学生的移动平均值,这可能是嘈杂的。这防止教师模型突然受到不正确的伪标签的影响。针对类不平衡问题,CBMT提出了一种新的损失校正方法,根据全局统计来突出前景类。实验表明,CBMT很好地解决了这两个问题,并优于现有的方法在多个基准测试。

1.4 U-CE: Uncertainty-aware Cross-Entropy for Semantic Segmentation

U-CE:语义切分的不确定性感知交叉熵

https://arxiv.org/abs/2307.09947

在这里插入图片描述
深度神经网络在各种任务中表现出出色的性能,但它们缺乏稳健性、可靠性和过度自信的倾向,给它们在自动驾驶等安全关键应用中的部署带来了挑战。在这方面,量化模型的预测固有的不确定性是解决这些缺点的一个有希望的努力。在这项工作中,我们提出了一种新的不确定性感知交叉熵损失(U-CE),将动态预测的不确定性纳入训练过程中的众所周知的交叉熵损失(CE)的像素加权。通过大量的实验,我们证明了U-CE优于常规CE训练的两个基准数据集,Cityscapes和ACDC,使用两个常见的骨干架构,ResNet-18和ResNet-101。使用U-CE,我们设法训练模型,不仅提高其分割性能,而且在训练后提供有意义的不确定性。因此,我们致力于开发更强大、更可靠的分段模型,最终推动安全关键应用及其他领域的最新技术。

1.5 Hierarchical Semantic Perceptual Listener Head Video Generation: A High-performance Pipeline

层次化语义知觉听者头部视频生成:一种高性能的流水线

https://arxiv.org/abs/2307.09821

在这里插入图片描述
在双向的说者-听者互动中,听者的头部反应与说者的头部动作共同构成了重要的非言语语义表达。听者头部生成任务旨在基于说话者的音频和听者的参考图像来合成响应性听者的头部视频。相对于说话人,从说话人的声音和视觉信息中捕捉相关线索更具挑战性。根据ViCo基线方案,我们提出了一种高性能的解决方案,通过增强音频编码器模块的分层语义提取能力,并改进解码器部分,渲染器和后处理模块。我们的解决方案在官方排行榜上获得了第一名的听头生成轨道。本文是ACM Multimedia 2023会议ViCo@2023 Conversational Head Generation Challenge的技术报告。

1.6 Source-Free Domain Adaptation for Medical Image Segmentation via Prototype-Anchored Feature Alignment and Contrastive Learning

基于原型锚定特征对齐和对比学习的无源域自适应医学图像分割

https://arxiv.org/abs/2307.09769

在这里插入图片描述
无监督域自适应(UDA)技术能够将从标记源域学习到的知识转移到未标记目标域,因此受到越来越多的关注。然而,典型的UDA方法需要同时访问源和目标域数据,这在很大程度上限制了其在医疗场景中的应用,其中源数据由于隐私问题而通常不可用。为了解决源数据缺失的问题,我们提出了一个新的两阶段无源域自适应(SFDA)的医学图像分割框架,其中只有一个训练有素的源分割模型和未标记的目标数据是可用的领域自适应。具体来说,在原型锚定特征对齐阶段,我们首先利用预先训练的像素分类器的权重作为源原型,其保留了源特征的信息。然后,我们引入了双向传输,通过最小化其预期成本,将目标功能与类原型对齐。最重要的是,还设计了对比学习阶段,以利用具有不可靠预测的那些像素来获得更紧凑的目标特征分布。在跨模态医学分割任务上的大量实验表明,与最先进的SFDA方法甚至一些UDA方法相比,我们的方法在大域差异设置中具有优越性。代码可在https://github.com/CSCYQJ/MICCAI23-ProtoContra-SFDA上获得。

1.7 Longitudinal Data and a Semantic Similarity Reward for Chest X-Ray Report Generation

纵向数据与胸片报告生成的语义相似性奖励

https://arxiv.org/abs/2307.09758

在这里插入图片描述
胸部X射线(CXR)报告生成是提高CXR解释效率的有前途的方法。然而,在实现这一目标之前,需要显著提高诊断准确性。基于此,我们提出了一个框架,更内联放射科医生的工作流程,考虑纵向数据。这里,解码器另外经由提示以来自对象的先前成像研究的报告为条件。我们还提出了一个新的奖励强化学习的基础上CXR-BERT,它计算报告之间的相似性。我们在MIMIC-CXR数据集上进行实验。结果表明,纵向数据改进了CXR报告的生成。CXR-BERT也被证明是基于RadGraph的当前最先进的奖励的有前途的替代品。这项调查表明,纵向CXR报告生成可以提供诊断准确性的大幅提高。我们的拥抱脸模型可在以下网站获得:https://huggingface.co/aehrc/cxrmate和代码可在:https://github.com/aehrc/cxrmate。

1.8 Space Engage: Collaborative Space Supervision for Contrastive-based Semi-Supervised Semantic Segmentation

Space Engage:基于对比的半监督语义切分的协同空间监督

https://arxiv.org/abs/2307.09755

在这里插入图片描述
半监督语义分割(S4)旨在训练具有有限的标记图像和大量未标记图像的分割模型。为了提高表示的鲁棒性,强大的方法在潜在空间中引入逐像素对比学习方法(即,表示空间),其以完全监督的方式将表示聚合到它们的原型。然而,以前的基于对比的S4方法仅仅依赖于监督从模型的输出(logits)在logit空间在未标记的训练。相比之下,我们利用logit空间和表示空间的输出,以获得合作的方式监督。来自两个空间的监督起着两个作用:1)借助于表示降低了过度拟合逻辑中不正确语义信息的风险; 2)加强两个空间之间的知识交流。此外,与以前的方法不同,我们使用表征和原型之间的相似性作为一个新的指标倾斜训练那些表现不佳的表征和实现一个更有效的对比学习过程。两个公共基准的结果表明,我们的方法相比,国家的最先进的方法的竞争性能。

1.9 ClickSeg: 3D Instance Segmentation with Click-Level Weak Annotations

ClickSeg:带点击级弱标注的3D实例分割

https://arxiv.org/abs/2307.09732

在这里插入图片描述
3D实例分割方法通常需要完全注释的密集标签用于训练,这是昂贵的获得。在本文中,我们提出了ClickSeg,一种新的点击级弱监督3D实例分割方法,只需要一个点,每个实例注释。由于标签极其有限,这一问题非常具有挑战性,以前很少解决。我们首先开发了一种基线弱监督训练方法,该方法通过模型本身为未标记的数据生成伪标签。为了利用点击级注释设置的属性,我们进一步提出了一个新的训练框架。代替直接使用模型推理的方式,即均值移位聚类,为了生成伪标签,我们建议使用具有固定初始种子的k均值:注释的要点。新的相似性度量进一步设计用于聚类。在ScanNetV 2和S3 DIS数据集上的实验表明,所提出的ClickSeg算法比先前的最佳弱监督实例分割结果有很大的差距(例如,ScanNetV 2上的+9.4% mAP)。仅使用0.02%的监督信号,ClickSeg实现了完全监督对应物的$\sim$90%的准确性。同时,它还实现了最先进的语义分割结果之间的弱监督方法,使用相同的注释设置。

1.10 DenseMP: Unsupervised Dense Pre-training for Few-shot Medical Image Segmentation

DenseMP:用于Few-Shot医学图像分割的无监督密集预训练

https://arxiv.org/abs/2307.09604

在这里插入图片描述
Few-Shot医学图像的语义分割是医学图像分析领域中的一个重要问题。然而,现有的方法在训练阶段难以应对数据稀缺的挑战,导致过度拟合。为了缓解这个问题,我们引入了一种新的无监督密集Few-Shot医学图像分割模型训练管道(DenseMP),它利用了无监督密集预训练。DenseMP由两个不同的阶段组成:(1)分割感知的密集对比预训练,以及(2)Few-Shot感知的超像素引导的密集预训练。这些阶段协同产生专门为Few-Shot医学图像分割设计的预训练的初始模型,其随后可以在目标数据集上进行微调。我们提出的流水线显着提高了广泛认可的Few-Shot分割模型PA-Net的性能,在Abd-CT和Abd-MRI数据集上实现了最先进的结果。代码将在验收后发布。

1.11 SAM-Path: A Segment Anything Model for Semantic Segmentation in Digital Pathology

SAM-PATH:一种用于数字病理语义分割的任意分段模型

https://arxiv.org/abs/2307.09570

在这里插入图片描述
病理实体的语义分割在计算病理学工作流程中具有重要的临床价值。基础模型,诸如分段任意模型(SAM),最近已经提出用于分段任务中的普遍使用。SAM在自然图像的实例分割方面表现出显著的前景。然而,SAM对计算病理学任务的适用性由于以下因素而受到限制:(1)缺乏SAM训练中使用的全面病理学数据集,和(2)SAM的设计不是针对语义分割任务固有地优化的。在这项工作中,我们适应SAM的语义分割引入可训练类提示,然后通过纳入病理编码器,特别是病理学基础模型进一步增强。我们的框架,SAM-Path增强SAM的能力,进行语义分割的数字病理学没有人类输入提示。通过两个公共病理数据集,BCSS和CRAC数据集的实验,我们证明,微调与可训练类提示和后处理香草SAM与手动提示27.52%的Dice得分和71.63%的IOU。在这两个数据集上,所提出的额外病理学基础模型进一步实现了Dice评分的相对改善5.07%至5.12%,IOU的相对改善4.50%至8.48%。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/780402.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STL:vector的使用(初识迭代器迭代器失效)

vector也是动态类型的顺序表&#xff0c;可以存储任意类型的元素 string是动态类型顺序表&#xff0c;只能存储char vector< char >字符数组 string 字符串字符串结尾有\0&#xff0c;而vector是一个泛型类型&#xff0c;不能因为字符串需要\0&#xff0c;而对每个类型最…

分布式光伏并网防孤岛保护装置AM5SE-IS

分布式光伏并网防孤岛保护装置AM5SE-IS 应用场景 防孤岛原理&#xff1a;防孤岛保护装置检测到并网点有逆功率、频率突变、 等异常数据时&#xff0c;即发生孤岛现象时&#xff0c;装置可配合断路器快速切除并网点&#xff0c;使本站与电网侧快速脱离&#xff0c;保证整个电站…

jmeter随记3:常用jmeter功能(附带场景)

常用jmeter功能&#xff08;附带场景&#xff09; 一、jmeter其他特性1、请求的接口有多个 且 域名相同2、 jmeter支持统一管理参数的设置a、创建HTTP Header Managerb、用户定义参数c、csv数据文件设置 3、接口a的返回值作为 接口b的入参a、 json提取器b、 正则表达式 4、if c…

【密码学】二、古典密码

古典密码 1.置换密码1.1列置换密码1.2周期置换密码 2.代换密码2.1单表代换密码2.1.1凯撒密码2.1.2仿射密码 2.2多表代换密码2.2.1维吉尼亚密码2.2.2普莱费尔密码 3.轮转密码3.1恩尼格玛密码机Enigma3.1.1Enigma加密3.1.1Enigma解密 4.古典密码的分类5.古典密码的统计分析5.1单表…

【事业单位-语言理解1】中心理解02

【事业单位-语言理解1】中心理解02 1.中心理解1.1 并列关系1.2 主题词1.3程度词&#xff0c;表示强调 二、标题填入题&#xff08;优先考虑主题词&#xff09;三、词句理解题 1.中心理解 解题思路 1.1 并列关系 涉及时间顺序 注意选项不要逻辑不当 并列关系的时候&…

07统计模型练习

使用SPSS进行分析求解 第一题 下表1.1是中国1994-2016年国内旅游总花费Y、国内生产总值X1、铁路里程X2和公路里程X3的数据,请据此分析如下问题: (1)就建立简单线性回归模型,分别分析中国国内旅游总花费与国内生产总值、铁路里程和公路里程数据的数量关系。 (2)对建立的回归模型…

K8S下如何搭建eureka集群

背景 传统应用上云&#xff0c;基于传统应用需要考虑上云的方案和改造成本&#xff0c;这也是传统应用上云过程中的难点&#xff0c;本篇介绍3台eureka搭建的方案。 方案一 此方案借助了K8S中Service的一些功能。 这种方案是传统方案的简单迁移版本&#xff0c;比较易于理解…

前端 | ( 十一)CSS3简介及基本语法(上) | 尚硅谷前端html+css零基础教程2023最新

学习来源&#xff1a;尚硅谷前端htmlcss零基础教程&#xff0c;2023最新前端开发html5css3视频 系列笔记&#xff1a; 【HTML4】&#xff08;一&#xff09;前端简介【HTML4】&#xff08;二&#xff09;各种各样的常用标签【HTML4】&#xff08;三&#xff09;表单及HTML4收尾…

一键批量JSON标注转PNG图片工具V1.1,支持labelme快捷矩形、圆以及轮廓标注

上次发布了一个批量将labelme标注的json文件转换为png文件工具&#xff0c;但是当时只是想着自己用的&#xff0c;功能相当简单&#xff0c;一些网友使用之后跟我反馈这玩意真”垃圾“&#xff0c;很多情况都没有进行设想&#xff0c;所以在功能上很欠缺。由于小陶这几天在外地…

Rust vs Go:常用语法对比(三)

题图来自When to use Rust and when to use Go[1] 41. Reverse a string 反转字符串 package mainimport "fmt"func Reverse(s string) string { runes : []rune(s) for i, j : 0, len(runes)-1; i < j; i, j i1, j-1 { runes[i], runes[j] runes[j], runes[i]…

高等数学❤️第一章~第三节~极限❤️连续函数的运算与初等函数的连续性~连续函数的运算

【精讲】高等数学中连续函数的运算 博主&#xff1a;命运之光的主页 专栏&#xff1a;高等数学 目录 【精讲】高等数学中连续函数的运算 导言 一、连续函数的运算规则 二、连续函数的性质 必需记忆知识点 例题&#xff08;用于熟悉高等数学中连续函数的运算&#xff09;…

【Java基础教程】(四十二)多线程篇 · 上:多进程与多线程、并发与并行的关系,多线程的实现方式、线程流转状态、常用操作方法解析~

Java基础教程之多线程 上 &#x1f539;本节学习目标1️⃣ 线程与进程&#x1f50d;关于多进程、多线程、并发与并行之间的概念关系&#xff1f; 2️⃣ 多线程实现2.1 继承 Thread 类2.2 实现 Runnable 接口2.3 多线程两种实现方式的区别2.4 利用 Callable 接口实现多线程2.5 …

Windows Server 2012 搭建网关服务器并端口转发

需求 使用 Windows server 作为Hyper-V 虚拟出许多虚拟机&#xff0c;基本上都分配了内网地址&#xff0c;现在需要这些虚拟机访问外网&#xff0c;或者外网直接访问这些虚拟机&#xff0c;必须配置一个网关服务器。我决定直接使用 Windows 的远程访问中的 NAT 服务来完成。 …

Ubuntu 上编译protobuf 指

欢迎大家关注我的B站主页MYVision_MY视界的个人空间-MYVision_MY视界个人主页-哔哩哔哩视频 下载protobuf GitHub - protocolbuffers/protobuf: Protocol Buffers - Googles data interchange format 根据需要从release 中下载指定的版本 下载完之后&#xff0c;根据提供的C…

Elasticsearch:使用 Elasticsearch ingest pipeline 丰富数据

在我之前的文章&#xff1a; Elasticsearch&#xff1a;如何使用 Elasticsearch ingest 节点来丰富日志和指标 Elasticsearch&#xff1a;enrich processor &#xff08;7.5发行版新功能&#xff09; 我有详细描述如何使用 ingest pipeline 来丰富数据。在今天的文章中里&am…

Stable Diffusion入门笔记(自用)

学习视频&#xff1a;20分钟搞懂Prompt与参数设置&#xff0c;你的AI绘画“咒语”学明白了吗&#xff1f; | 零基础入门Stable Diffusion保姆级新手教程 | Prompt关键词教学_哔哩哔哩_bilibili 1.图片提示词模板 2.权重&#xff08;提示词&#xff09; 无数字 (flower)//花的…

1 快速构建mybatis项目

1.1 使用Maven的quickstart框架 注意是不出现w的quickstart&#xff1a; 1.2 加入依赖 <dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</s…

如何评测一个大语言模型?

编者按&#xff1a;大型语言模型&#xff08;Large language models, LLMs&#xff09;因其在学术界和工业界展现出前所未有的性能而备受青睐。随着 LLMs 在研究和实际应用中被广泛使用&#xff0c;对其进行有效评测变得愈发重要。近期已有多篇论文围绕大模型的评测进行研究&am…

二级分类基本实现步骤(小兔鲜儿)【Vue3】

二级分类 整体认识和路由配置 二级分类功能描述 配置二级路由 准备组件模版 <script setup></script><template><div class"container "><!-- 面包屑 --><div class"bread-container"><el-breadcrumb separa…

OA会议管理系统之会议发布(内含原型图项目介绍多功能下拉框源码)

目录 一、前言 1.什么是OA会议 2.OA会议项目背景 二、会议发布功能实现 1.功能介绍 2.功能分析 1.原型图以及数据表分析 2.查看官网搭建JSP页面 3.功能实现 1.实体类 2.dao层 3.JSP页面 4.Web层 4.案例演示 一、前言 1.什么是OA会议 会议OA指的是会议办公自动化…