文章目录
- Siamese Encoder-based Spatial-Temporal Mixer for Growth Trend Prediction of Lung Nodules on CT Scans
- 摘要
- 方法
- Spatial-Temporal Mixer
- Two-Layer H-Loss
- 实验结果
Siamese Encoder-based Spatial-Temporal Mixer for Growth Trend Prediction of Lung Nodules on CT Scans
摘要
在肺结节的治疗中,我们希望通过CT扫描的直径变化来预测结节的演变,然后根据结节的生长趋势预测结果提供随访建议。为了提高肺结节生长趋势预测的性能,比较同一结节在连续CT扫描中的变化是至关重要的。
具体而言,首先基于配准CT扫描检测并配对覆盖同一结节的感兴趣区域(roi)。
然后,通过模型预测结核的纹理类别和直径大小。
最后,根据每个结节直径的变化来标注其演化类别。
基于构建的NLSTt数据集,我们提出了一种siamese编码器,以同时利用从连续CT扫描中检测到的3D ROI的区别特征。
然后,设计了一种时空混频器(STM)来利用连续三维ROI中相同节点的间隔变化,并捕获节点区域与当前三维ROI的空间依赖关系。根据临床诊断常规,采用分级损失法对生长中的结节给予更多关注。
代码链接
方法
纳入NLST数据集的许多受试者涵盖了多个时间点的扫描(通常是间隔一年的T0、T1和T2扫描)以及可疑病变的活检确认
图1展示了我们的数据组织方法的流程,旨在确定选定受试者连续CT扫描中结节的演化类别和纹理类型。我们首先根据第一次扫描(T0)对第二次(T1)和第三次(T2) CT扫描进行3D图像配准。然后,我们通过检测器识别含有肺结节的三维roi,然后对roi进行配对,在不同时间点的多个3D roi中匹配同一结节。接下来,我们使用分割器自动裁剪出roi中结节的病变并计算其直径。同时,我们应用分类器进行识别结节的纹理类型。
用于ROI识别的检测器是CenterNet的3D变体,用于病灶分割的分割器是多尺度3D UNet,分类器是附加全连接层的分割器的变体
首先对每个患者的连续CT扫描进行配准,然后检测结节。对于T0和T1检测到的两个结节,对判据为两个结节中心点之间的欧氏距离小于1.5 mm。如果结节位置在T0和T1之间(> 1.5 mm)发生明显变化,我们断言它们不是同一个结节。最后,我们要求有经验的临床医生进行审查,以确保正确切除结节的准确性。在自动推断出直径和纹理类型后,我们依靠经验丰富的临床医生通过手动注释来校准标签。通过自动推理和人工评审相结合,获得了结节纹理类型和进化等级的可靠标记,后者由结节在连续时间点的直径变化决定。
结节的演化等级是基于其直径大小的变化。
直径为分割器生成的结节掩模的最大表面上最小外接矩形的最长边。我们根据同一肺结节在不同时间点的直径变化,将肺结节划分为稳定性、扩张性和收缩性三种演化类型,如图2所示。如果连续两次CT扫描肺结节直径变化小于1.5 mm,我们称之为稳定趋势。如果两次CT扫描的肺结节直径变化大于1.5 mm,我们将增量定义为扩张,减少定义为收缩。在接下来的部分中,我们提出了我们的增长趋势预测方法。
Spatial-Temporal Mixer
我们提出的方法的原理图,包括一个siamese编码器,一个时空混频器(STM)和两层H-loss。MLP是一个多层感知,FG1表示T1的全局信息,FL1表示病变斑块在T1的局部信息,FL0表示病变斑块在T0的局部信息。
对于给定的受试者,从不同时间点的CT扫描中获取包含病变的3D ROI对(T0和T1),然后将其输入连体编码器进行嵌入。此外,引入了一种额外的可学习全局嵌入来提取三维roi的全局信息。siamese编码器中的两个编码器共享相同的权值,我们采用视觉变压器(vision transformer, ViT)和卷积神经网络(convolutional neural network, CNN)作为siamese编码器的主干。我们通过连体编码器从序列三维roi中得到三个嵌入向量:FG1包含T1的全局信息,FL1包含T1的病变斑块的局部信息,FL0包含T0的病变斑块的局部信息。如果T0缺失,我们会补充一个可学习的嵌入FL0,这种情况发生在受试者只有两次CT扫描时。
值得一提的是,roi的全局信息在T0、T1、T2上是不变的。因此,我们只学习T1的全局信息,而不考虑T0的全局信息。相反,同一结节在T0、T1和T2的局部信息是不同的,对生长趋势预测具有很强的判别性。因此,我们从T0和T1中学习局部信息,以捕获不断变化的局部信息。
考虑到从siamese编码器获得的嵌入,我们提出了一个时空混频器(STM)模块来利用空间和时间信息。我们首先介绍了一种层归一化、一种多层感知(MLP)和对FL1、FG1、a和FL0三个嵌入的残差相加操作。
然后,为了融合时空信息,我们利用线性投影从FL1中得到查询向量QL1,从FG1和FL0中分别得到两个关键向量KG1和KL0。空间信息由FG1·Sim(QL1, KG1)捕获,其中Sim(QL1, KG1)是T1的局部嵌入和全局嵌入的查询键对之间的余弦相似度。同样,时间信息由FL0·Sim(QL1, KL0)捕获,其中Sim(QL1, KL0) i是在不同时间点收集的T1和T0的局部嵌入的查询键对之间的余弦相似度。接下来,我们使用加法运算和线性投影(LP)融合空间和时间信息。最后,STM基于时空信息和当前局部嵌入FL1输出一个嵌入。综上,STM的输出计算为:
Two-Layer H-Loss
通过STM进行特征融合后,我们就可以训练一个预测增长趋势的模型。我们采用h损失,扩展加权交叉熵(WCE)损失函数,通过分层设置来提高膨胀类的贡献。在临床实践中,对可能发生癌变的结节生长要更加谨慎和注意。因此,实现膨胀类的高预测精度至关重要。为此,我们构建了一个两层H-loss (H1, H2),包括两个独立的全连接(FC)层模块来模拟临床诊断程序。基于结节的三种演化类型,H1首先对扩张或不扩张进行了分类,更加关注扩张类型。H2继承H1来预测收缩或稳定。这里H2的漏节只涉及扩张。两层H-loss将预测概率和ground-truth标签y统一起来训练我们的模型,如下所示:
实验结果