【论文速看】DL最新进展20240925-医学图像分割、目标跟踪、图像超分

news2025/7/16 10:43:30

【医学图像分割】

[2024] UU-Mamba: Uncertainty-aware U-Mamba for Cardiovascular Segmentation

论文链接：https://arxiv.org/pdf/2409.14305

代码链接：https://github.com/tiffany9056/UU-Mamba

在深度学习模型在心血管结构分割方面取得成功的基础上，越来越多的关注集中在提高泛化能力和鲁棒性上，特别是在小型标注数据集方面。尽管最近取得了进展，但当前方法常常面临过拟合和准确性限制等挑战，这主要是由于它们依赖于大型数据集和狭隘的优化技术。本文引入了UU-Mamba模型，作为U-Mamba架构的扩展，旨在解决心脏和血管分割中的这些挑战。通过结合锐度感知最小化（SAM），该模型通过针对损失景观中较平坦的极小值来增强泛化能力。此外，作者提出了一种不确定性感知损失函数，结合了基于区域、基于分布和基于像素的组件，通过捕捉局部和全局特征来提高分割准确性。虽然UU-Mamba模型已经展示了出色的性能，但需要进一步测试以全面评估其泛化能力和鲁棒性。文中通过在ImageCAS（冠状动脉）和Aorta（主动脉分支和区域）数据集上进行实验来进行评估，这些数据集比作者之前工作中使用的ACDC数据集（左心室和右心室）呈现出更复杂的分割挑战，展示了模型的适应性和韧性。实验说明，UU-Mamba在TransUNet、Swin-Unet、nnUNet和nnFormer等领先模型上的卓越性能。此外，通过广泛的实验提供了对模型鲁棒性和分割准确性的更全面评估。

在这里插入图片描述

【目标跟踪】

[202401] TrackNetV3: Enhancing ShuttleCock Tracking with Augmentations and Trajectory Rectification

论文链接：https://dl.acm.org/doi/10.1145/3595916.3626370

代码链接：https://github.com/qaz812345/TrackNetV3

文中提出了TrackNetV3，这是一个复杂的模型，旨在提高广播羽毛球视频中羽毛球定位的精度。TrackNetV3由两个核心模块组成：轨迹预测和校正。轨迹预测模块利用估计的背景作为辅助数据，在视觉干扰波动的情况下定位羽毛球。该模块还结合了mixup数据增强技术，以构建复杂场景来增强网络的鲁棒性。由于羽毛球有时会被遮挡，通过分析预测轨迹创建修复掩码，随后通过修复来校正路径。这一过程显著提高了跟踪的准确性和轨迹的完整性。实验结果表明，与之前的标准方法相比，性能大幅提升，将准确性从87.72%提高到97.51%。这些结果验证了TrackNetV3在羽毛球比赛背景下推进羽毛球跟踪的有效性。

[202409] TrackNetV4: Enhancing Fast Sports Object Tracking with Motion Attention Maps

论文链接：https://arxiv.org/pdf/2409.14543

代码链接：[无]

准确检测和跟踪高速、小型物体（如体育视频中的球）具有挑战性，这是由于运动模糊和遮挡等因素。尽管最近的深度学习框架如TrackNetV1、V2和V3在网球和羽毛球的跟踪方面取得了进展，但在部分遮挡或低可见性场景中它们常常遇到困难。这主要是因为这些模型严重依赖视觉特征，而没有明确结合对精确跟踪和轨迹预测至关重要的运动信息。本文通过融合高级视觉特征与可学习的动态注意力图，引入了对TrackNet家族的增强，有效强调了移动球的位置并提高了跟踪性能。所提方法利用帧差分图，通过一个动态提示层进行调制，以突出随时间变化的关键运动区域。在网球和羽毛球数据集上的实验结果表明，所提方法增强了TrackNetV2和V3的跟踪性能。将这一轻量级、即插即用的解决方案称为TrackNetV4，它构建在现有的TrackNet之上。

【图像超分】

[WACV2024] BSRAW: Improving Blind RAW Image Super-Resolution

论文链接：https://arxiv.org/pdf/2312.15487

代码链接：https://github.com/mv-lab/AISP

在智能手机和紧凑型相机中，图像信号处理器（ISP）将原始传感器图像转换为人类可读的sRGB图像。大多数流行的超分辨率方法从sRGB图像出发，进一步提高其质量。然而，由于非线性ISP转换，建模sRGB域中的退化是复杂的。尽管存在这一已知问题，但只有少数方法直接处理RAW图像并解决现实世界中的传感器退化问题。作者解决RAW域中的盲图像超分辨率问题。文中设计了一个专门针对使用原始传感器数据训练模型的现实退化pipeline。所提方法考虑了传感器噪声、散焦、曝光和其他常见问题。使用该pipeline训练的BSRAW模型可以放大真实场景的RAW图像并提高其质量。作为这项工作的一部分，还介绍了一个新的DSLM数据集和基准。

在这里插入图片描述

[ECCV2024] BurstM: Deep Burst Multi-scale SR using Fourier Space with Optical Flow

论文链接：https://arxiv.org/abs/2409.15384

代码链接：https://github.com/Egkang-Luis/burstm

多帧超分辨率（MFSR）比单帧超分辨率（SISR）表现更好，因为MFSR利用了多个帧中的丰富信息。最近的MFSR方法采用可变形卷积网络（DCN）来对齐帧。然而，现有的MFSR由于DCN的局限性，如小感受野和预定义的核数量，存在参考帧与源帧之间的错位问题。因此，现有的MFSR方法难以表示高频信息。为此，作者提出了一种基于傅里叶空间和光流的深度Burst多尺度SR（BurstM）。所提方法通过估计光流偏移来实现精确对齐，并预测每帧的连续傅里叶系数以表示高频纹理。此外，还通过支持各种超分辨率（SR）比例因子的unimodel增强了网络的灵活性。实验展示了所提方法在性能和灵活性上均优于现有的MFSR方法。

在这里插入图片描述