【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(6月 30 日论文合集)

news2024/12/24 0:16:58

文章目录

  • 一、分割|语义相关(8篇)
    • 1.1 MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained on a Large-Scale Unannotated Dataset
    • 1.2 KITE: Keypoint-Conditioned Policies for Semantic Manipulation
    • 1.3 SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation
    • 1.4 Analysis of LiDAR Configurations on Off-road Semantic Segmentation Performance
    • 1.5 ICSVR: Investigating Compositional and Semantic Understanding in Video Retrieval Models
    • 1.6 MLA-BIN: Model-level Attention and Batch-instance Style Normalization for Domain Generalization of Federated Learning on Medical Image Segmentation
    • 1.7 SimPLe: Similarity-Aware Propagation Learning for Weakly-Supervised Breast Cancer Segmentation in DCE-MRI
    • 1.8 Inter-Rater Uncertainty Quantification in Medical Image Segmentation via Rater-Specific Bayesian Neural Networks

一、分割|语义相关(8篇)

1.1 MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained on a Large-Scale Unannotated Dataset

MIS-FM:基于大规模未注解数据集的基础模型三维医学图像分割

论文地址:

https://arxiv.org/abs/2306.16925

在这里插入图片描述
用大规模3D体积进行预训练具有改善目标医学图像数据集上的分割性能的潜力,其中训练图像和注释有限。由于在大规模预训练数据集上获取像素级分割注释的成本很高,因此非常需要使用未注释的图像进行预训练。在这项工作中,我们提出了一种新的自监督学习策略,名为体积融合(VF)预训练三维分割模型。它基于预定义的离散融合系数集合将来自前景子体积的几个随机块融合到背景子体积,并迫使模型预测每个体素的融合系数,其被配制为无需手动注释的自监督分割任务。此外,我们提出了一种新的网络架构的基础上并行卷积和Transformer块,适合转移到不同的下游分割任务与各种规模的器官和病变。所提出的模型使用110 k未注释的3D CT体积进行预训练,并且使用不同的下游分割目标(包括头颈部器官、胸/腹部器官)进行的实验表明,我们的预训练模型在很大程度上优于从头开始的训练和几种最先进的自监督训练方法和分割模型。代码和预训练模型可在www.example.com上获得https://github.com/openmedlab/MIS-FM。

1.2 KITE: Keypoint-Conditioned Policies for Semantic Manipulation

Kite:语义操作的关键点条件化策略

论文地址:

https://arxiv.org/abs/2306.16605

在这里插入图片描述
虽然自然语言为人类和机器人提供了一个方便的共享界面,但使机器人能够解释和遵循语言命令仍然是操纵中的一个长期挑战。实现高性能指令跟随机器人的关键一步是实现语义操作,其中机器人以不同的具体性解释语言,从“拿起毛绒动物”等高级指令到“抓住大象的左耳”等更详细的输入。为了解决这个问题,我们提出了Keypoints + Instructions to Execution(KITE),这是一个两步的语义操作框架,它涉及场景语义(区分视觉场景中的不同对象)和对象语义(精确定位对象实例中的不同部分)。KITE首先通过2D图像关键点在视觉场景中接地输入指令,为下游动作推理提供高度准确的以对象为中心的偏差。提供RGB-D场景观察,KITE然后执行学习的关键点条件技能来执行指令。关键点和参数化技能的组合精度支持细粒度操作,并可泛化到场景和对象变化。根据经验,我们在3个真实环境中演示了KITE:长视野6自由度桌面操作、语义抓取和高精度咖啡制作任务。在这些设置中,KITE分别实现了75%,70%和71%的指令遵循的总体成功率。KITE优于那些选择预先训练的视觉语言模型而不是基于关键点的基础的框架,或者忽略有利于端到端视觉运动控制的技能,同时从更少或相当数量的演示中进行训练。补充材料,数据集,代码和视频可以在我们的网站上找到:http://tinyurl.com/kite-site。

1.3 SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation

SeMLaPS:基于潜在先验网络和准平面分割的实时语义映射

论文地址:

https://arxiv.org/abs/2306.16585

在这里插入图片描述
实时语义的可用性极大地改进了SLAM系统的核心几何功能,从而实现了许多机器人和AR/VR应用。我们提出了一种新的方法,从RGB-D序列的实时语义映射,结合了一个2D神经网络和一个3D网络的基础上的SLAM系统与3D占用映射。当分割一个新的帧,我们执行潜在的功能重新投影从以前的帧的基础上微分渲染。与独立处理图像的基线相比,将来自先前帧的重新投影的特征图与当前帧特征融合大大提高了图像分割质量。对于3D地图处理,我们提出了一种新的几何准平面过分割的方法,组3D地图元素可能属于相同的语义类,依赖于表面法线。我们还描述了一种新的神经网络设计的轻量级语义地图后处理。我们的系统在基于2D-3D网络的系统中实现了最先进的语义映射质量,并在实时工作的同时,在三个真实的室内数据集上与3D卷积网络的性能相匹配。此外,与3D CNN相比,它显示出更好的跨传感器泛化能力,能够使用不同的深度传感器进行训练和推理。代码和数据将在项目页面发布:http://jingwenwang95.github.io/SeMLaPS

1.4 Analysis of LiDAR Configurations on Off-road Semantic Segmentation Performance

LiDAR配置对非道路语义分割性能的影响分析

论文地址:

https://arxiv.org/abs/2306.16551

在这里插入图片描述
本文研究了LiDAR配置变化对3D LiDAR点云语义分割模型性能的影响,这是一个以前没有广泛研究的话题。我们探索使用不同的激光雷达通道时,训练和测试的三维激光雷达点云语义分割模型的效果,利用Cylinder 3D的实验。Cylinder 3D模型在使用密西西比州立大学自主车辆模拟器(MAVS)创建的模拟3D LiDAR点云数据集和在真实越野环境中收集的RELLIS-3D数据集的32,64通道3D LiDAR点云上进行训练和测试。我们的实验结果表明,传感器和空间域的变化显着影响基于激光雷达的语义分割模型的性能。在训练和测试之间没有空间域变化的情况下,在相同传感器类型上训练和测试的模型通常表现出更好的性能。此外,与低分辨率传感器相比,高分辨率传感器表现出更好的性能。然而,当空间域的变化时,结果有所不同。在一些情况下,传感器的更高分辨率的优点导致在具有和不具有传感器域偏移的情况下的更好的性能。在其他情况下,更高的分辨率导致特定域内的过拟合,导致在对具有不同传感器配置的数据进行测试时缺乏泛化能力和性能降低。

1.5 ICSVR: Investigating Compositional and Semantic Understanding in Video Retrieval Models

ICSVR:研究视频检索模型中的成分和语义理解

论文地址:

https://arxiv.org/abs/2306.16533

在这里插入图片描述
视频检索(VR)涉及在给定文本字幕的情况下从视频数据库检索地面实况视频,反之亦然。组合性的两个重要组成部分:对象&属性和动作使用正确的语义连接以形成适当的文本查询。这些组件(对象\属性、动作和语义)各自在帮助区分视频和检索正确的地面实况视频方面发挥着重要作用。然而,目前还不清楚这些组件对视频检索性能的影响。因此,我们进行了系统的研究,以评估标准基准,如MSRVTT,MSVD和DIDEMO的视频检索模型的组成和语义的理解。该研究在两类视频检索模型上进行:(i)其在视频-文本对上被预训练并且在下游视频检索数据集上被微调(例如,时间冻结、紫色、MCQ等)(ii)其适应预训练的图像-文本表示,如用于视频检索的CLIP(例如,CLIP 4Clip、XCLIP、CLIP 2 Video等)。我们的实验表明,在视频理解中,动作和语义比对象和属性起次要作用。此外,使用预训练的图像-文本表示(CLIP)的视频检索模型具有更好的语义和组成的理解相比,模型预先训练的视频-文本数据。

1.6 MLA-BIN: Model-level Attention and Batch-instance Style Normalization for Domain Generalization of Federated Learning on Medical Image Segmentation

MLA-BIN:医学图像分割联合学习领域泛化的模型级注意和批实例风格归一化

论文地址:

https://arxiv.org/abs/2306.17008

在这里插入图片描述
联邦学习的隐私保护机制为跨中心的医疗协作和数据共享提供了有效的解决方案。在多站点医学图像分割中,每个医学站点作为FL的客户端,其数据自然形成域。模糊逻辑为改进视域模型的性能提供了可能。然而,在实际应用中存在着领域泛化(DG)问题,即在未知领域中使用FL训练的模型性能会下降。因此,MLA-BIN在这项研究中被提出来解决FL的DG。具体而言,模型级的注意力模块(MLA)和批量实例风格规范化(BIN)块的设计。MLA将看不见的域表示为可见域模型的线性组合。在加权系数中引入了注意机制,根据域间数据特征的相似性得到最优加权系数. MLA使得全局模型能够通用化到看不见的域。在BIN块中,结合批量归一化(BN)和实例归一化(IN)对分割网络的浅层进行风格归一化,解决了域间图像风格差异对DG的影响。两个医学图像分割任务的广泛实验结果表明,所提出的MLA-BIN优于国家的最先进的方法。

1.7 SimPLe: Similarity-Aware Propagation Learning for Weakly-Supervised Breast Cancer Segmentation in DCE-MRI

用于DCE-MRI弱监督乳腺癌分割的简单相似性感知传播学习

论文地址:

https://arxiv.org/abs/2306.16714

在这里插入图片描述
乳腺动态增强磁共振成像(DCE-MRI)在高危乳腺癌的筛查和预后评估中具有重要作用。乳腺癌区域的分割对于后续的乳腺MRI分析是至关重要的。为了减轻训练分割网络的注释工作,我们提出了一种弱监督策略,使用极值点作为乳腺癌分割的注释。在不使用任何花里胡哨的情况下,我们的策略集中于充分利用常规训练程序的学习能力,即,训练-微调-再训练的过程。网络首先利用使用极值点生成的伪掩模来训练自身,通过最小化对比损失,这鼓励网络学习癌性体素的更多代表性特征。然后,经过训练的网络通过使用相似性感知传播学习(SimPLe)策略来微调自身,该策略利用未标记和正体素之间的特征相似性来传播标签。最后,网络通过使用使用先前微调的网络生成的伪掩码来重新训练自身。我们收集的DCE-MRI数据集包含206例活检证实的乳腺癌患者的评估所提出的方法。实验结果表明,我们的方法有效地微调网络,通过使用SimPLe的策略,并实现了81%的平均Dice值。

1.8 Inter-Rater Uncertainty Quantification in Medical Image Segmentation via Rater-Specific Bayesian Neural Networks

基于评分者特定贝叶斯神经网络的医学图像分割中评分者间不确定性量化

论文地址:

https://arxiv.org/abs/2306.16556

在这里插入图片描述
自动医学图像分割固有地涉及一定程度的不确定性。造成这种不确定性的一个关键因素是在确定感兴趣的目标区域的边界时可能出现的模糊性,这主要是由于图像外观的变化。最重要的是,即使在该领域的专家中,关于特定解剖结构的精确定义也会出现不同的意见。这项工作专门解决了分割不确定性的建模,称为评分者间的不确定性。其主要目的是探索和分析分割结果的变化,可能会发生在医学成像的多个专家解释和注释相同的图像。我们引入了一种新的贝叶斯神经网络为基础的架构,以估计评估者之间的不确定性在医学图像分割。我们的方法有三个关键的进步。首先,我们引入了一个编码器,多解码器的架构,专门为不确定性估计,使我们能够捕捉到的每个专家的具体表示率。其次,我们提出了贝叶斯建模的新架构,允许有效地捕获的评分者间的分布,特别是在有限的注释的情况下。最后,我们通过将注意力模块集成到每个解码器中来增强特定于速率的表示。该模块有助于为每个评分员提供重点和精细的细分结果。我们使用合成和真实世界的数据集进行广泛的评估,以严格验证我们的技术创新。我们的方法超越现有的基线方法在五个公开的QUBIQ数据集上的七个不同的任务,考虑到两个评估指标,包括不同的不确定性方面。我们的代码、模型和新数据集可通过我们的GitHub存储库获得:https://github.com/HaoWang420/bOEMD-net。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/715677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

labelme的json标签和图像改变分辨率,再将json转换为YOLO的txt格式进行实例分割

最近在做一个分割数据集,训练数据时由于图像数据太大一直爆显存,然后就找了找同时resize图像和json的脚本,然后转换为YOLO格式一直出问题,标签和目标位置对不上,也是困扰了好久,终于解决,记录一…

惠普笔记本U盘重装Win10系统步骤

当惠普笔记本出现系统故障或需要清除所有数据时,通过使用U盘重新安装Win10系统是一个常见且有效的解决方法。重新安装系统可以解决许多问题,并为用户提供一个干净、流畅的操作环境。以下小编将为用户介绍惠普笔记本U盘重装Win10系统步骤。请注意&#xf…

手把手教学,Python 游戏编程之实现飞机大战(含源代码)

文章目录 一、游戏设定 1、游戏界面展示和设定 二、实现过程 1.我方飞机 2、敌方飞机 3、定义武器 4、武器补充库 5、主模块 总结: 前言 我想大家都是有玩过类似飞机大战的射击类游戏,也享受目标被消除通过后带来的愉悦感。 那么如果用Python来实现飞机…

Image Sensor的窗口裁剪

本文介绍Image Sensor的窗口裁剪,Image Sensor的实际像素通常是大于实际所支持的最大分辨率的,有时为了获得想要的分辨率及位置(比如与镜头装配相匹配),需要设置Image Sensor的像素输出位置及大小,本文以OS…

为什么向导式对话框中的取消按钮始终可用

PropSheet_SetWizButtons 是一个宏,其定义位于 PRSHT.H 头文件中,实际上,它只是调用了 PostMessage 函数来向目标窗口发送 PSM_SETWIZBUTTONS 这个消息,仅此而已。 如果你亲自上阵体验一番,就会发现有这么一个问题(特…

c++ stl 之vector使用

参考:https://www.runoob.com/cplusplus/cpp-stl-tutorial.html “C STL(标准模板库)是一套功能强大的 C 模板类,提供了通用的模板类和函数,这些模板类和函数可以实现多种流行和常用的算法和数据结构,如向…

特征向量可视化01_tsne_pca

在学习机器学习或深度学习基础知识的同时训练模型是一个非常有指导性的过程。该数据集易于理解且格式适当,可供您使用。然而,当您走进现实世界并尝试解决行业或现实生活中的挑战时,数据集如果一开始就不存在,通常会很混乱。理解为…

uniapp怎么把px转换成对应手机型号的rpx

首先获取系统手机屏幕的宽度系统信息的概念 | uni-app官网,然后根据公式转换 rpx 750*元素 B 在设计稿上的宽度为 多少px/手机屏幕的宽度 详见:CSS 支持 | uni-app官网 如下为把宽度为1px的转成对应手机型号的rpx uni.getSystemInfo({success(res) {co…

网络营销VS传统营销有什么区别?

随着互联网的普及和发展,网络营销已经成为企业营销的重要手段之一。相比传统营销,网络营销具有更多的优势和特点。本文将从市场环境、营销手段、成本效益等方面,分析网络营销与传统营销的区别。#网络营销# 一、市场环境不同 传统营销主要是通…

华为OD机试真题 Python 实现【查找单入口空闲区域】【2022 Q4 100分】,附详细解题思路

目录 一、题目描述二、输入描述三、输出描述四、解题思路五、Python算法源码六、效果展示1、输入2、输出3、说明 一、题目描述 给定一个 m x n 的矩阵,由若干字符 ‘X’ 和 ‘O’构成,’X’表示该处已被占据,’O’表示该处空闲,请…

[pyqt5]动态加载ui文件并给菜单的一个子菜单添加触发事件

场景:大家都知道如果直接将ui文件转成py文件后,如果产品经理要你加一些界面控件,你就得改转换后代码这样很麻烦,我们可以直接加载ui文件,然后编写触发事件,因此写了一个简单案例,证明切实可行&a…

微服务:Springboot集成Hystrix实现熔断、降级、隔离

文章目录 前言知识积累Springboot集成Hystrix1、maven依赖引入2、application开启feign的hystrix支持(客户端配置限流降级熔断)3、入口类增加EnableFeignClients EnableHystrix 开启feign与hystrix4、feign调用增加降级方法服务端配置限流降级熔断(选择使…

stm32 使用keil无实物(软件)仿真,虚拟串口通讯

准备 1.keil 2.vspd虚拟串口 3.sscom串口助手 4.CubeMX //哪里报错no ‘read‘ permission,把哪里map一下 map 0x40000000, 0x400077FF read write // APB1 map 0x40010000, 0x40014BFF read write // APB2 map 0x40020000, 0x4007FFFF read write …

​​国风写实虚拟人频“营业”,塑造国潮文化元宇宙入口

近几年,随着时代话语权逐渐递交给Z世代的年轻人,文化自信成为了主流审美,国风虚拟人激发了年轻人心中的民族文化自豪感。 国风虚拟人谷小雨频营业,发布了“中文之美”虚拟人动画,穿越古今四时感受“雨”字流转之美&am…

MMdetection框架速成系列 第04部分:配置文件详细解析+文件结构剖析+Config类核心实现

🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗 MMdetection框架速成系列 MMdetect…

简单回顾一下kafka的学习

简单回顾一下kafka的学习 WhatBrokerControllerPartitionReplicationTopicProducerConsumer Why为什么有多个分区为什么有副本 How搭建集群Java简单使用ProducerConsumeroffset提交方式自动提交 - 默认手动提交 消费者poll消息的过程指定分区消费消息回溯消费指定offset消费新消…

Firefly

Firefly(流萤): 中文对话式大语言模型在本文中,笔者将介绍关于Firefly(流萤)模型的工作,一个中文对话式大语言模型。https://mp.weixin.qq.com/s/TX7wj8IzD_EaMTvk0bjRtA一个支持中文的176B开源基础模型BLOOM:从数据源…

git merge 和git rebase的区别

文章目录 1. 概念2. git merge2.1. 示例 3. git rebase3.1. 示例 4. 总结 1. 概念 在Git版本控制系统中,有两种方式可以将一个分支的更改合并到另一个分支:git merge 和 git rebase。虽然它们都可以完成相同的任务,但它们的实现方式有所不同…

faster-rcnn.pytorch项目环境配置(从0到1)

faster-rcnn.pytorch项目环境配置(从0到1) 其实pytorch版本和CUDA版本高,都没有关系!!!都可以适配,显卡30系、20系都没关系,都可以用! 下面我将在AutoDL平台上&#xf…

Mapbox 实现热力图教程

热力图在 maobox 中属于专题图的一种,他通过点的颜色和权重 来渲染点和点周围的指标情况。本文来跟大家分享一下如何使用 maobox 实现热力图的功能。 我们以全国十大名茶产区的温度指标为例,来做一个像上图这样的效果, 首先要有相关的点数据: var tentea = {type: &qu…