论文阅读：PET/CT Cross-modal medical image fusion of lung tumors based on DCIF-GAN

摘要

背景：

基于GAN的融合方法存在训练不稳定，提取图像的局部和全局上下文语义信息能力不足，交互融合程度不够等问题

贡献：

提出双耦合交互式融合GAN（Dual-Coupled Interactive Fusion GAN，DCIF-GAN）：

设计了双生成器双鉴别器GAN，通过权值共享机制实现生成器之间和鉴别器之间的耦合，通过全局自注意力机制实现交互式融合；
设计耦合CNN-Transformer的特征提取模块（Coupled CNN-T ransformer Feature Extraction Module, CC-TFEM）和特征重构模块（CNN-T ransformer F eature Reconstruction Module, C-TFRM），提升了对同一模态图像内部的局部和全局特征信息提取能力；
设计跨模态交互式融合模块（Cross Model Intermodal Fusion Module, CMIFM），通过跨模态自注意力机制，进一步整合不同模态间的全局交互信息。

结果：

在肺部肿瘤PET/CT医学图像数据集上进行实验，模型能够突出病变区域信息，融合图像结构清晰且纹理细节丰富。

1. 引言

CT——结构信息，分辨率高
PET——功能信息
传统：Fusion GAN、FLGC-Fusion GAN
双判别器：D2WGAN、DDcGAN、DFPGAN
多生成器多判别器：MGMDcGAN、RCGAN

贡献：

提出跨模态耦合生成器，处理PET图像中的病灶目标和CT图像中丰富的纹理特征，学习跨模态图像之间的联合分布；提出跨模态耦合鉴别器分别用于计算预融合图像与CT和PET图像间的结构差异，并使训练过程更加稳定。
设计耦合CNN-Transformer特征提取模块和CNN-Transformer特征重构模块，结合了Transformer和CNN的优势，在挖掘源图像中局部信息的同时也能学习特征之间的全局交互信息，实现更好的跨模态互补语义信息集成。
提出基于SwinTransformer的跨模态交互式融合模块，通过跨模态自注意力机制，可以进一步整合不同模态图像之间的全局交互信息。

2. 双耦合交互式融合DCIF-GAN

2.1 整体网络结构

网络结构：

生成器由基于耦合CNN-Transformer的特征提取模块、跨模态与融合模块和基于联合CNN-Transformer的特征重构模块构成。
鉴别器由四个卷积块和一个Linear层构成，鉴别器的“耦合”通过网络最后几层共享权值，此操作可以有效降低网络的参数量。
关键：权值共享

第一生成器G1的目的是生成具有CT图像纹理信息的预融合图像FCT，
第一鉴别器D1的目的是计算FCT与源PET图像的相对偏移量并反馈，以增强FCT中的功能信息；
第二生成器G2用于生成具有PET图像功能信息的预融合图像FPET，
第二鉴别器D2计算FPET与源CT图像的相对偏移量并反馈，以增强FPET中的纹理信息。
随着迭代次数的增加，两个生成器都可以生成足以欺骗鉴别器的预融合图像，生成的图像分别会相对偏向于其中一幅源图像，故将生成的两幅预融合图像进行加权融合，得到最终的融合图像IF。

网络的极大极小博弈可以表示为:
$\begin{aligned} \min_{G_1, G_2} \max_{D_1, D_2} L(G_1, G_2, D_1, D_2) = \mathbb{E}_{I_{PET}} \left[ \log D_1(I_{PET}) \right] + \mathbb{E}_{I_{CT}} \left[ \log (1 - D_1(G_1(I_{CT}))) \right] + \mathbb{E}_{I_{CT}} \left[ \log D_2(I_{CT}) \right] + \mathbb{E}_{I_{PET}} \left[ \log (1 - D_2(G_2(I_{PET}))) \right] \end{aligned}$

2.2 耦合生成器结构

生成器网络结构：

CNN能简单有效提取信息，但感受野有限，捕捉全局背景信息能力弱；
Transformer将整个图像转换为一维向量组输入（解决感受野有限），使用自注意力捕获全局信息（解决只提取局部信息），但全局信息的秩低，降低了前景和背景的可辨别性，融合不明显。

2.2.1 耦合CNN-Transformer特征提取模块（CC-TFEM）

基于CNN的浅层特征提取，局部特征；
基于Swin-Transformer的深层特征提取，全局特征。

2个卷积块+4个STB块
卷积块：一个卷积层（size=3, stride=1）+一个Leaky ReLU层

两个生成器权值共享：

有助于学习多模态图像的联合分布；
减少参数量。

通过浅层特征提取模块HSE(.)提取源图像 $I_{CT}$ 和 $I_{PET}$ 的浅层特征 $F^{CT}_{SF}$ 和 $F^{PET}_{SF}$ ；
通过深度特征提取模块HDE(.)从 $F^{CT}_{SF}$ 和 $F^{PET}_{SF}$ 中提取深度特征；
将 $F^{CT}_{DF}$ 和 $F^{PET}_{DF}$ 输人到跨模态预融合模块(CMIFM)中进行融合。
表述为:
$\begin{bmatrix} F^{CT}_{SF} , F^{PET}_{SF} \end{bmatrix} = \begin{bmatrix} H_{SE}(I_{CT}) , H_{SE}(I_{PET}) \end{bmatrix}$
$\begin{bmatrix} F^{CT}_{DF} , F^{PET}_{DF} \end{bmatrix} = \begin{bmatrix} H_{DE}(F^{CT}_{SF}) , H_{DE}(F^{PET}_{SF}) \end{bmatrix}$

特征提取模块：

Swin Transformer的局部注意力和窗口机制有效地降低了计算量。
W-MSA（Weighted Multi-Head Self-Attention）将输入特征 $F^{H×W×C}$ 划分为不重叠的 $M \times M$ 的局部窗口，重构为 $\frac{HW}{M^2} \times M^2 \times C$ ；每个窗口执行自注意力操作，局部窗口特征 $\in \mathbb{R}^{M^2 \times C}$ ，经过三个线性变换矩阵 $W^Q \in \mathbb{R}^{M^2 \times C}$ ， $W^K \in \mathbb{R}^{M^2 \times C}$ ， $W^V \in \mathbb{R}^{M^2 \times C}$ 投影到Q，K，V：
$Q, K, V] = [XW^Q, XW^K, XW^V]$
注意力权重为：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + B\right)V$
$d_k$ 是建的维数，B是相对位置编码。
多头自注意力并行执行h次注意函数，并将每个注意力头的结果连接起来。
通过由两个多层感知器（MLP）层组成的前馈网络（Feed Forward Network, FFN）来细化W-MSA产生的特征向量，表述为：
$\tilde{Z}^l = \text{MSA}(\text{LN}(Z^{l-1})) + Z^{l-1}$
$\quad Z^l = \text{FFN}(\text{LN}(\tilde{Z}^l)) + \tilde{Z}^l$
前馈网络FNN(∙)，表述为：
$FFN ( X ) = GELU (W_1 + b_1 ) W_2 + b_2$
GELU为高斯误差线性单元。

Swin Transformer 层计算注意力的滑动窗口机制，W-MSA的弊端在于窗口之间的相互作用较弱，引人SW-MSA模块，向左上方向循环移动，产生新的批窗口。

2.2.2 跨模态交互式融合模块（CMIFM）

4个融合块（FB）

通过自注意力将特征图映射到Q、K、V，通过跨模态自注意力交换K、V，实现全局特征融合。

其余小块类似2.2.1。

跨模态融合单元的过程定义为：
$\begin{align*} [Q_1, K_1, V_1] &= [X_1 W_{1}^{Q}, X_1 W_{1}^{K}, X_1 W_{1}^{V}] \\ [Q_2, K_2, V_2] &= [X_2 W_{2}^{Q}, X_2 W_{2}^{K}, X_2 W_{2}^{V}] \\ \text{Attention}_1(Q_1, K_2, V_2) &= \text{softmax}\left(\frac{Q_1 K_2^T}{\sqrt{d_k}} + B\right)V_2 \\ \text{Attention}_2(Q_2, K_1, V_1) &= \text{softmax}\left(\frac{Q_2 K_1^T}{\sqrt{d_k}} + B\right)V_1 \\ \tilde{Z}^l_1 &= W - \text{MSA}(\text{LN}(Z^{l-1}_1)) + Z^{l-1}_1 \\ \tilde{Z}^l_2 &= W - \text{MSA}(\text{LN}(Z^{l-1}_2)) + Z^{l-1}_2 \\ Z^l_1 &= \text{FFN}(\text{LN}(\tilde{Z}^l_1)) + \tilde{Z}^l_1 \\ Z^l_2 &= \text{FFN}(\text{LN}(\tilde{Z}^l_2)) + \tilde{Z}^l_2 \end{align*}$

对于 CT 域中的 Q1，它通过对 PET 域中的 K2和 V2进行注意力加权来整合跨模态信息，同时通过残差连接保留 CT 域中的信息，PET 域中同理。

$F^{\text{CT}}_{\text{DF}} = H_{\text{conv1}}(F^{CT}_{AF})$
$F^{\text{PET}}_{\text{DF}} = H_{\text{conv2}}(F^{\text{PET}}_{AF})$
$F^{CT}_{AF}$ 和 $F^{\text{PET}}_{AF}$ 表示CMIFM以 $F^{CT}_{DF}$ 和 $F^{\text{PET}}_{DF}$ 为输入而融合输出的特征；
$H_{\text{conv}}$ 表示具有空间不变滤波器的卷积层；
$F^{CT}_{AF}$ 和 $F^{\text{PET}}_{AF}$ 表示融合的 CT 图像和 PET 图像的深度特征。

2.2.3 CNN-Transformer 特征重构模块（CTFRM）

2个STB块+2个卷积块（size=3, stride=1）+Leaky ReLU

生成预融合的图像
表述为：
$F^{CT}_{FSF} = H_{DR}(F^{CT}_{FDF} + F^{CT}_{SF})$
$F^{PET}_{FSF} = H_{DR}(F^{PET}_{FDF} + F^{PET}_{SF})$
$F^{CT} = H_{SR}(F^{CT}_{FSF})$
$F^{PET} = H_{SR}(F^{PET}_{FSF})$
$H_{DR}$ 是STB块的深度特征重构单元； $H_{SR}$ 是基于CNN的浅层重构单元。

2.2.4 损失函数

以第一生成器为例：

G1总损失：
$L_{G1} = \Phi(G_1) + \alpha L_{\text{content}1}$
$\Phi(G_1)$ 表示对抗损失， $L_{content1}$ 表示G1从源图像到预融合图像的损失， $\alpha$ 表示控制源PET图像信息含量比例。

$\Phi(G_1)$ 对抗损失：
$\Phi(G_1) = \frac{1}{N} \sum_{n=1}^{N} \left( D_1(F^n_{CT}, I^n_{PET}) - I^n_{PET} \right)^2$
$L_{content1}$ 内容损失：
$L_{\text{content}1} = L_{\text{int}(CT)} + \mu L_{\text{ssim}(CT)}$
$L_{int}$ 和 $L_{ssim}$ 表示强度损失函数和结构相似度损失函数，μ 表示正则化参数。

第二生成器同理。

2.3 耦合鉴别器结构

不仅要考虑生成器和鉴别器之间的对抗关系，还要考虑两个鉴别器之间的平衡。

4个卷积块+1个线性层
卷积块：1个卷积层(size=3, stride=2, channel=32, 64, 128, 256)+1个BN层+1个Leaky ReLU层。
线性层：将特征图转化为输出，表示融合图像与相应源图像之间的相对距离。
鉴别器中第三、第四卷积块和线性层的共享权值。

以第一鉴别器为例：

D1的目的是通过损失函数使第一个预融合图像 $F_{CT}$ 逼近源PET图像：
D1的损失函数表示为：
$L_1 = D_1(I_{PET}, F_{CT})$
D1的函数表示为：
$D_1(I_{PET}, F_{CT}) = C_1(I_{PET}) - E_{F_{CT}}(C_1(F_{CT}))$
E是期望输出值，C1表示第一鉴别器的非线性变换。