目录
- 【医学图像分割】
- 【目标跟踪】
- 【图像超分】
【医学图像分割】
[2024] UU-Mamba: Uncertainty-aware U-Mamba for Cardiovascular Segmentation
论文链接:https://arxiv.org/pdf/2409.14305
代码链接:https://github.com/tiffany9056/UU-Mamba
在深度学习模型在心血管结构分割方面取得成功的基础上,越来越多的关注集中在提高泛化能力和鲁棒性上,特别是在小型标注数据集方面。尽管最近取得了进展,但当前方法常常面临过拟合和准确性限制等挑战,这主要是由于它们依赖于大型数据集和狭隘的优化技术。本文引入了UU-Mamba模型,作为U-Mamba架构的扩展,旨在解决心脏和血管分割中的这些挑战。通过结合锐度感知最小化(SAM),该模型通过针对损失景观中较平坦的极小值来增强泛化能力。此外,作者提出了一种不确定性感知损失函数,结合了基于区域、基于分布和基于像素的组件
,通过捕捉局部和全局特征来提高分割准确性。虽然UU-Mamba模型已经展示了出色的性能,但需要进一步测试以全面评估其泛化能力和鲁棒性。文中通过在ImageCAS(冠状动脉)和Aorta(主动脉分支和区域)数据集上进行实验来进行评估,这些数据集比作者之前工作中使用的ACDC数据集(左心室和右心室)呈现出更复杂的分割挑战,展示了模型的适应性和韧性。实验说明,UU-Mamba在TransUNet、Swin-Unet、nnUNet和nnFormer等领先模型上的卓越性能。此外,通过广泛的实验提供了对模型鲁棒性和分割准确性的更全面评估。
【目标跟踪】
[202401] TrackNetV3: Enhancing ShuttleCock Tracking with Augmentations and Trajectory Rectification
论文链接:https://dl.acm.org/doi/10.1145/3595916.3626370
代码链接:https://github.com/qaz812345/TrackNetV3
文中提出了TrackNetV3,这是一个复杂的模型,旨在提高广播羽毛球视频中羽毛球定位的精度。TrackNetV3由两个核心模块组成:轨迹预测和校正。轨迹预测模块利用估计的背景作为辅助数据,在视觉干扰波动的情况下定位羽毛球。该模块还结合了mixup数据增强技术,以构建复杂场景来增强网络的鲁棒性。由于羽毛球有时会被遮挡,通过分析预测轨迹创建修复掩码,随后通过修复来校正路径。这一过程显著提高了跟踪的准确性和轨迹的完整性。实验结果表明,与之前的标准方法相比,性能大幅提升,将准确性从87.72%提高到97.51%。这些结果验证了TrackNetV3在羽毛球比赛背景下推进羽毛球跟踪的有效性。
[202409] TrackNetV4: Enhancing Fast Sports Object Tracking with Motion Attention Maps
论文链接:https://arxiv.org/pdf/2409.14543
代码链接:[无]
准确检测和跟踪高速、小型物体(如体育视频中的球)具有挑战性,这是由于运动模糊和遮挡等因素。尽管最近的深度学习框架如TrackNetV1、V2和V3在网球和羽毛球的跟踪方面取得了进展,但在部分遮挡或低可见性场景中它们常常遇到困难。这主要是因为这些模型严重依赖视觉特征,而没有明确结合对精确跟踪和轨迹预测至关重要的运动信息。本文通过融合高级视觉特征与可学习的动态注意力图,引入了对TrackNet家族的增强,有效强调了移动球的位置并提高了跟踪性能。所提方法利用帧差分图,通过一个动态提示层进行调制,以突出随时间变化的关键运动区域。在网球和羽毛球数据集上的实验结果表明,所提方法增强了TrackNetV2和V3的跟踪性能。将这一轻量级、即插即用的解决方案称为TrackNetV4,它构建在现有的TrackNet之上。
【图像超分】
[WACV2024] BSRAW: Improving Blind RAW Image Super-Resolution
论文链接:https://arxiv.org/pdf/2312.15487
代码链接:https://github.com/mv-lab/AISP
在智能手机和紧凑型相机中,图像信号处理器(ISP)将原始传感器图像转换为人类可读的sRGB图像。大多数流行的超分辨率方法从sRGB图像出发,进一步提高其质量。然而,由于非线性ISP转换,建模sRGB域中的退化是复杂的。尽管存在这一已知问题,但只有少数方法直接处理RAW图像并解决现实世界中的传感器退化问题。作者解决RAW域中的盲图像超分辨率问题。文中设计了一个专门针对使用原始传感器数据训练模型的现实退化pipeline。所提方法考虑了传感器噪声、散焦、曝光和其他常见问题。使用该pipeline训练的BSRAW模型可以放大真实场景的RAW图像并提高其质量。作为这项工作的一部分,还介绍了一个新的DSLM数据集和基准。
[ECCV2024] BurstM: Deep Burst Multi-scale SR using Fourier Space with Optical Flow
论文链接:https://arxiv.org/abs/2409.15384
代码链接:https://github.com/Egkang-Luis/burstm
多帧超分辨率(MFSR)比单帧超分辨率(SISR)表现更好,因为MFSR利用了多个帧中的丰富信息。最近的MFSR方法采用可变形卷积网络(DCN)来对齐帧。然而,现有的MFSR由于DCN的局限性,如小感受野和预定义的核数量,存在参考帧与源帧之间的错位问题。因此,现有的MFSR方法难以表示高频信息。为此,作者提出了一种基于傅里叶空间和光流的深度Burst多尺度SR(BurstM)。所提方法通过估计光流偏移来实现精确对齐,并预测每帧的连续傅里叶系数以表示高频纹理。此外,还通过支持各种超分辨率(SR)比例因子的unimodel增强了网络的灵活性。实验展示了所提方法在性能和灵活性上均优于现有的MFSR方法。