【论文阅读】[JBHI] VLTENet、[ISBI]

news2025/2/21 20:00:49

[JBHI] VLTENet

论文连接：VLTENet: A Deep-Learning-Based Vertebra Localization and Tilt Estimation Network for Automatic Cobb Angle Estimation | IEEE Journals & Magazine | IEEE Xplore

Published in: IEEE Journal of Biomedical and Health Informatics ( Early Access )

Date of Publication: 16 March 2023

VLTENet模型创新性地结合了深度高分辨率网络（HRNet）和全卷积U-Net架构，用于捕获脊柱x射线图像中的长期上下文信息、整体结构和局部细节。

并提出了一种特征融合通道注意（FFCA）模块，选择性地强调信息较多的特征，抑制信息较少的特征。

设计了关节脊柱损失函数（JS-Loss）来考虑脊柱形状等空间约束，使网络更关注脊柱相关区域，忽略不相关的背景区域。

最后，我们提出了一种新的符合临床Cobb角计算指南的Cobb角估计方法，并对不同类型的脊柱侧弯产生了准确的估计。

这些角度可以通过识别上、下端椎体来即脊柱曲线近端和远端倾斜最大的椎体。具体来说，Cobb角被定义为与上终板相邻的线（在上端椎体的顶部）和与下终板相邻的线（在下端椎体的底部）之间的角度。

对单个椎体的倾角进行回归，这保留了直接回归角度可以有效过滤掉局部干扰的优势。

通过结合单个椎体的中心点检测，克服了角度回归方法无法可视化的问题。

FFCA模块可以选择性地强调更明显的特征，抑制较少的特征。这增强了高级和低级特性之间的融合，并有效地提高了网络的鲁棒性。

阅读笔记：

一、研究背景

Related work-Cobb角计算的DL方法：

无法可视化：

①regression回归：从脊柱形状直接预测角度3个cobb角（椎骨形状不能准确完美识别）

可以可视化：

②landmark点检测：四个点计算得角度(角度计算依赖点检测精度-小目标检测，组织遮挡)

③segmentation分割：椎体分割重建再计算脊柱曲率（依赖分割结果，但实际x线片椎体边界并不清晰）

二、本文strategy：

最大的亮点就是椎体定位+椎体倾斜估计，这样做的优势在于：①同一目标的不同特征，没有误差累积同时帮助提高预测精度（分割和点检测都是下一步依赖上一步），②单个椎体的倾角回归保留角度降低干扰，③角度回归可视化

网络结构上就是HRNet作为编码的UNet架构捕捉长距离特征依赖；模块FFCA让网络关注区别性特征，也结合跳跃连接增强了高低级特征之间的融合。(融合特征-通道注意力)

JS-Loss是基于先验知识和特定任务的，它强化区域空间约束，关注脊柱区域忽视背景[joint spine loss]

（1）VLTENet网络架构：

Encoder：传统UNet只能单scale语义特征融合，就会丢失多尺度特征信息。=> HRNet-18

使用HRNet比原本的UNet有一个好处，就是不只是单尺度语义特征融合（是多尺度）

Decoding：如果只是简单地用skip connection将深浅层特征融合，会存在信息冗余且这些maps特征可能无法明显区分，所以加入FFCA来选择性地结合深浅层特征。

Mapping：编解码后输出P1包含位置语义信息和脊柱中椎体的形状，通过一个映射层将其转成锥体位置和倾斜向量这两个特征空间。

FFCA特征融合通道注意力：

平均池化：聚合高低级特征的空间信息（每个特征图的所有位置特征提取平均值）

最大池化：收集明显目标特征的其他重要线索（找每个通道的最大响应来获取与该特征最相关信息）

全连接层：参数共享求和，经过一个激活层得到通道注意力权重T

网络预测目标×2maps：中心点、倾斜向量（同一物体本质上不同特征）

高斯热图预测中心点：

non-maximum suppression非极大值抑制：

椎体倾斜向量：

使用这样的方法可以让网络隐式建立椎体中心点与其倾斜量之间的关系

（2）Joint spine loss：

通过结合椎体定位加权均方误差损失（VLW-MSE）和椎体倾斜平均绝对误差损失（VT-MAE），这种损失提高了脊柱标志和倾斜方向的估计精度。

普通MRE对所有像素进行公平计算，但Xray图像有些区域包含结构特征，所以要关注椎体区域,忽视不相关背景像素。（公式15-Wi计算公式体现了如何更关注椎体中心）

As qi approaches 0, the weight Wi approaches 1, and as qi approaches a center point close to 1, the weight Wi approaches δ +α. Therefore, the network pays more attention to the vertebra center point regions and less attention to the distant non-spinal regions.

（3）Cobb角估计

具体的计算描述我没看懂，但是大意是原来的方法是计算两椎骨最大角，会导致一个cobb角多个曲线；现有方法是施加侧弯方向约束，确保cobb角凹凸度一致。（α = α1, α2, α3）

三、实验及分析

Dataset：609+508、表1

Metric[公认-越小越好]：

性能评估：对称平均绝对百分比（SMAPE）和循环平均绝对误差（CMAE）

总体准确性评估：ErrorCenter 和ErrorV ector

消融实验：

Encoder：baseline、ResNet-34、DenseNet-121、HRNet-18（高特征重用率,交换不同尺度特征信息）

FFCA提高准确性

JS-Loss：提高中心点检测（考虑椎体形状的空间先验知识，使网络比背景更关注脊柱区域）

SOTA对比实验：

同Seg4Reg、LN一起做相关性分析、在508张私有数据集上验证模型鲁棒性/泛化性（可视化图12）

临床医生误差在5-10°，本文方法小于3°

四、总结与未来工作

The inventive design of the network prediction goals to simultaneously perform vertebra localization and vertebra tilt estimation allows the network to ①implicitly establish spatial correlation between the vertebra center points and their tilt vectors. The VLTENet model is an enhanced U-Net structure with an encoder that uses the ②high-resolution (HRNet-18) model for capturing long-range feature dependencies. This enhances the representation of the vertebra features by considering the overall shape of the spine and the local relationships between the vertebrae. ③The FFCA module is designed to selectively fuse high-level and low-level feature information in the decoder stage in order to increase the network robustness. In addition, this paper proposes the ④JS-Loss function to strengthen the spatial constraints based on the structural properties of the spine. This enables the network to focus on the surrounding region of the spine and ignore the distant background region.

未来工作就是要考虑椎体变形和椎体个数异常的患者