文献阅读（50）—— Transformer 用于肺癌诊断预测

文章目录

文献阅读（50）—— Transformer 用于肺癌诊断预测
- 先验知识/知识拓展
- 文章结构
- 背景
- 文章方法
- - 1. 文章核心网络结构
  - 2. Time Encoding ViT （TeViT）
  - 3. Time Aware ViT(TaViT)
- 文章结果
- - 1. 在Tumor-CIFAR 上验证
  - 2. 在NLST上验证
- 总结
- - 1. 文章优点
  - 2. 文章不足
  - 可借鉴点/学习点？

Time-distance vision transformers in lung cancer diagnosis from longitudinal computed tomography
在这里插入图片描述

这一篇也是一篇刚出来的文章，觉得还是有必要精读的。后面几天会更新一下最近看的Transformer的文章

先验知识/知识拓展

核心任务：使用纵向数据对肺癌CT数据分类

文章结构

摘要
introduction
related work
method★
experiments and results
conclusions

背景

提出问题：
纵向的医学数据在采集的过程中多数不是等间隔的，可能存在相隔时间很久，不同个体相同时间内的采样次数也是不同的。虽然自注意力机制是一种将时间序列和图像有效结合的学习方法，但是在解释稀疏，不规则采样空间特征之间的时间距离方面尚未被探索。针对这个问题，作者提出两个module来解决此问题：

文章方法

1. 文章核心网络结构

作者在Transformer的基础上增加了两个小模块提升性能的同时增加模型的可解释性。

利用连续时间的embedding向量（Time Encoding ViT）
使用一个是temporal emphasis model权衡自注意力机制（Time Aware ViT）

2. Time Encoding ViT （TeViT）

将每张图片的时间encoding为一个和图像特征等长的向量共同作为输入特征。其中rt是最后一个时间和现在时间点差值（两者的时间间隔）
在这里插入图片描述

3. Time Aware ViT(TaViT)

TaViT是为了学习一个temporal emphasis model（TEM）来衡量每个头部的自注意力机制的权重。其中的R就是TaViT的核心，是时间i和时间j之间的时间间隔，把他们转换为非负值（越接近现在时间点的CT影响越大）
转化过程
在这里插入图片描述
普通的注意力机制

改进后的

文章结果

1. 在Tumor-CIFAR 上验证

在这里插入图片描述

2. 在NLST上验证

将CS-CNN,TeViT,和TaViT对比
在这里插入图片描述

总结

1. 文章优点

提出了两个精妙的trick，将纵向数据中的时间作为其中的考虑因素，将时间encoding和feature token一起作为transformer的输入，就可以考虑每一张照片的时间
之后在attention的部分，有效的结合之前的ct信息，根据现在时间和时间的时间差值对attention机制中的queue,key 和value进行权重加持，因为时间间隔越久越不重要。
很巧妙，最近看到很多文章在考虑时间的时候都是加一个scale